用“不完美小孩”,形容目前的百度文心一言,再合適不過(guò)了。
“不完美”體現在,用戶(hù)們連著(zhù)五天測試發(fā)現,文心一言偏科較為嚴重:
是目前唯一能夠直接進(jìn)行“文生圖”的模型,在文學(xué)創(chuàng )作例如詩(shī)詞上有著(zhù)“天賦”,但在“數學(xué)課”、“計算機編程課”較為差勁。
同時(shí),文心一言也有著(zhù)“小孩”的浮躁與誠實(shí):
不得不說(shuō),百度前期造勢過(guò)猛。百度Q4季度財報以及高管發(fā)言無(wú)不預告著(zhù),文心一言成為百度2023年及之后的主題曲:
在發(fā)給百度全員的財報信中,李彥宏重點(diǎn)介紹了百度將在三月份推出的生成式AI產(chǎn)品文心一言(ERNIE Bot),宣布計劃將多項主流業(yè)務(wù)與文心一言整合。
同時(shí)2月份以來(lái),各行各業(yè)接入百度文心一言消息不斷,多次霸占新聞頭條。
一頓操作猛如虎,讓人誤以為百度已經(jīng)完完全全準備好了。
于是在發(fā)布會(huì ),百度高管誠實(shí)表示文心一言還不夠成熟之時(shí),百度股價(jià)應聲而落:李彥宏誠實(shí)指出,自己體驗時(shí)并不完美,這類(lèi)大語(yǔ)言模型還遠未到發(fā)展完善的階段;百度首席技術(shù)官王海峰也提到模型目前“訓練不夠充分”。
于是,自3.16下午兩點(diǎn)發(fā)布會(huì )開(kāi)始之后,百度一度大跌10%。
而當用戶(hù)真正去感受文心一言產(chǎn)品之時(shí),發(fā)現其綜合來(lái)看表現還算合格,3.17過(guò)后,股民們又陸陸續續跑來(lái)鼓勵這個(gè)“不完美小孩”。
股價(jià)跌也跌了,漲也漲了,大家罵也罵了。最終,我們還是得冷靜下來(lái),為這個(gè)不完美小孩,找一找差距,謀一謀出路。
3.16日,文心一言站上考場(chǎng),“考官”們蜂擁而上,對其進(jìn)行全天的“提問(wèn)”。
考慮到個(gè)人測評樣本過(guò)少,小編以國金證券券商測評結果為主,以機器之心、品玩等科技賽道自媒體測試結果為輔,對文心一言這五天的表現進(jìn)行評估。結果發(fā)現,文心一言“同學(xué)”偏科較為嚴重:
(三大模型測評結果綜合對比 圖源:國金證券研究所)
在推理類(lèi)問(wèn)題中,文心一言在演繹推理、邏輯推理等領(lǐng)域表現遜于GPT系列模型。例如在面對以下問(wèn)題時(shí),文心一言表現欠佳,GPT-3.5和4持平:
在歸納總結類(lèi)任務(wù)中,文心一言表現較好。品玩讓文心一言和GPT-3分別給出一個(gè)用 5 塊錢(qián)度過(guò)一周的方案,文心一言、GPT-3的回答是:
可以看到,文心一言給出了更為貼合現實(shí)的方案;而GPT-4 的回答,便是聽(tīng)君一席話(huà),如聽(tīng)話(huà)一席。
在數學(xué)和代碼類(lèi)問(wèn)題中,文心一言與GPT-3、GPT-4便有著(zhù)較大的差距:
而在一些崗位的測試中,三大模型均能較好地完成Al生活助手、產(chǎn)品推薦等文本生成任務(wù),其中在教育輔助崗位,在文言文和古詩(shī)詞理解運用方面,文心一言有著(zhù)“本土優(yōu)勢”,表現略佳。
(文心一言翻譯情況 圖源:機器之心)
一整個(gè)測試下來(lái),文心一言偏科還挺嚴重:一方面邏輯推理欠佳,對數學(xué)、計算機編程幾乎“一竅不通”;一方面歸納總結能力較強,在文學(xué)創(chuàng )作、古詩(shī)文理解上有著(zhù)“天賦”,有著(zhù)文科生的潛質(zhì)。
同時(shí),也有著(zhù)做“藝術(shù)生”的潛質(zhì):文心一言具備多模態(tài)生成能力,包括生成圖片、生成語(yǔ)音(包括方言)以及生成視頻的能力。以生成圖片為例,機器之心讓文心一言生成一張湖心亭看雪的水墨畫(huà),其生成速度、效果都在中上水準。
(文心一言文生圖情況 圖源:機器之心)
綜合看下來(lái),在這五天的小考內,文心一言基于“本土優(yōu)勢”展現出自己在文學(xué)、藝術(shù)等方面的長(cháng)處,相應地也暴露出在理科、以及邏輯思辨能力的較大短板。
文心一言,是個(gè)不夠理性的偏科生。
經(jīng)歷過(guò)這五天上千萬(wàn)條拷問(wèn),文心一言應該能夠“意識到”,自己需要惡補“理性思維”,從而能夠在畢業(yè)時(shí),cover住更多的崗位。
此刻,文心一言便需要向目前班級上邏輯思維能力更好的ChatGPT,找找差距,取取經(jīng)。
在A(yíng)IGC時(shí)代,算法、數據、算力是衡量差距的三把標尺:
在算法層面,百度與ChatGPT事實(shí)上是站在同一起跑線(xiàn)上的——百度與OpenAI、谷歌都是基于Transformer模型去做不同的變體,延展出各自的深度學(xué)習框架以及再上層的大模型。
(芯片—AIGC框架圖 圖源:浙商證券)
在數據層面,二者差距較為明顯:相比于百度文心一言,ChatGPT經(jīng)歷了多次模型訓練,并被無(wú)數個(gè)“考官”進(jìn)行無(wú)數次指點(diǎn),同時(shí)有專(zhuān)門(mén)的數據標注人員進(jìn)行方向的修正。
據華西證券表示,ChatGPT大模型最大的特點(diǎn)便是,引入人類(lèi)反饋的強化學(xué)習(RLHF)。
RLHF簡(jiǎn)單來(lái)說(shuō),就是用人工標注的方式,不斷地將結果去反饋給模型:回答好的給出正反饋(例如圖上的Correct),回答不好的,就通過(guò)加分機制的方式讓模型進(jìn)一步的自我迭代,并進(jìn)行不斷的調優(yōu),直到回答正確。
(ChatGPT答復情況 圖源:知乎博主LowinLi)
百度同樣也采用RLHF,并輔以“對話(huà)增強、有監督精調”等機制,也就是說(shuō)底層架構、技術(shù)路徑相似,百度缺的是大量語(yǔ)料庫的訓練與反饋。畢竟,未被RLHF狠狠修正過(guò)的ChatGPT,在剛上線(xiàn)的時(shí)候也出現了大量混亂的回答。
(百度文心一言模型技術(shù) 圖源:百度)
而在算力層面的差距,基本上可以靠錢(qián)填平。
這是因為,盡管美國出口限制政策影響較大,國內仍能采購性能更低的前代算力芯片,或者是使用自己研發(fā)的芯片,只是相對犧牲了計算速度。
同時(shí),國內頭部科技企業(yè)能夠實(shí)現算力資源部分自給;國家也在重視算力的建設:2月24日,東數西算一體化算力服務(wù)平臺在寧夏銀川正式上線(xiàn)發(fā)布。該平臺將瞄準ChatGPT運算能力,以支撐中國人工智能運算平臺急需的大算力服務(wù)。
不過(guò),相比于阿里巴巴和華為,百度的數據中心容量有待提升。
(全球前十大科技企業(yè)數據中心容量排名 圖源:華西證券)
總結來(lái)看,文心一言的“文具”已然備齊,缺的是大把時(shí)間、大量資金去訓練。
那么,“家長(cháng)”百度若想讓這個(gè)不完美小孩達到班級中上水平,需要砸多少錢(qián)?
根據華西證券測算,在不考慮人力支出及維護費用條件下,百度需要補足的成本拆分為訓練成本、推理成本及數據標注成本,分別需要2.29億元、13.62億元、0.05億元。
(類(lèi)ChatGPT應用中期年均成本測算 圖源:華西證券)
也就是說(shuō),百度需要保持年均16億元的投入,將有可能達到ChatGPT目前的能力。除此之外,文心一言為成長(cháng)付出的代價(jià)包括但不限于:
為保證以上流程能夠正常運轉,百度還需吸納更多的高價(jià)AI人才:在獵聘大數據研究院近期發(fā)布的AI人才報告中顯示,2022年AI相關(guān)崗位招聘的平均年薪為33.15萬(wàn),比互聯(lián)網(wǎng)崗位高4.27萬(wàn);而2023年以來(lái)的一個(gè)多月,AI崗位招聘的平均年薪已達到42.51萬(wàn)元,比上一年高出9萬(wàn)多;
為提供充足的算力,百度需要耗費更多資金建立并運作更多的數據中心:根據百度以往數據來(lái)看,一個(gè)數據中心的耗費在47億元-100億元區間。
目前來(lái)看,百度有實(shí)力給“孩子”培訓并讓其吃飽喝足:
在2017年,百度提出“All IN AI”之后,百度持續為AI輸血。在2022全年資本開(kāi)支(除愛(ài)奇藝)高達181億元。
并且現金流也較為充沛:截至2022年末,百度公司現金、現金等價(jià)物及受限現金為652億元。
這個(gè)不完美小孩,在百度“富?!钡募彝キh(huán)境下,未來(lái)或許會(huì )有著(zhù)不錯的發(fā)展。
當大量的錢(qián)、人才、算力砸進(jìn)去,文心一言具備了成熟的思維能力之后,百度要怎么走?
從目前來(lái)看,百度文心一言有兩條“創(chuàng )業(yè)”方向:
1)為開(kāi)發(fā)者直接提供API調用接口并收費。
據報道,“文心一言”已經(jīng)以API形式接入650家企業(yè),發(fā)布當日已有6.5萬(wàn)家企業(yè)申請測試,簽約5家客戶(hù)。
也就是說(shuō),B端商業(yè)化的思路已經(jīng)顯現。
但不排除后期因為預訓練語(yǔ)言模型規模急劇增長(cháng),成本實(shí)在“蚌埠”住,最后無(wú)法持續提供服務(wù)的情況:OpenAI便是出于商業(yè)角度考慮和高昂的端側微調成本,大規模預訓練語(yǔ)言模型不再被開(kāi)源。
2)將AGI技術(shù)嵌入到自身成熟應用中,提供更強用戶(hù)體驗,進(jìn)而推動(dòng)用戶(hù)為附加服務(wù)付費。例如,微軟將GPT模型嵌入其搜索引擎Bing中:
2022年2月,微軟新推出NewBing,該模塊能夠與用戶(hù)對話(huà)、協(xié)助用戶(hù)起草文本;
(Bing廣告情況 圖源:華西證券)
目前,Bing已經(jīng)靠著(zhù)ChatGPT,在短時(shí)間內,火速對巨頭谷歌產(chǎn)生一定的威脅:
data.ai數據顯示,新功能上線(xiàn)當日,必應Bing應用程序的全球下載量在一夜之間猛增十倍;截至3月10日,Bing活躍用戶(hù)已突破1億人,增幅超600%。
(NewBing下載量 圖源:華西證券)
撇去ChatGPT本身熱度,Bing收獲青睞的原因是,搜索引擎與類(lèi)ChatGPT產(chǎn)品能夠雙向互補:
1)搜索引擎能夠彌補GPT的“消息滯后”。ChatGPT的訓練數據集仍停留在2021年,因此難以回答時(shí)效性問(wèn)題,而B(niǎo)ingChat能夠基于實(shí)時(shí)更新的搜索庫進(jìn)行回答。
2)ChatGPT能夠對搜索結果進(jìn)行直觀(guān)集成,無(wú)需將鏈接一個(gè)個(gè)點(diǎn)開(kāi)尋求答案,大大優(yōu)化了用戶(hù)體驗。同時(shí)在此基礎上,也增添了趣味性:微軟為NewBing設置了三種性格狀態(tài),用戶(hù)可根據偏好自行設定對話(huà)模型的回應風(fēng)格。
基于此,更為人性化的、信息更為“新鮮”、全面的NewBing能夠長(cháng)時(shí)間地留住客戶(hù)。用戶(hù)在手,NewBing變現的野心已經(jīng)遮不住了:廣告引流已經(jīng)開(kāi)始。
目前,據華西證券發(fā)現,Chat界面提供了新的廣告位:Bing已經(jīng)在回復框中,對電商產(chǎn)品進(jìn)行展示引流。
(Bing廣告情況 圖源:華西證券)
參照NewBing,百度搜索或許能夠第一個(gè)吃到文心一言的紅利。
但百度需要做到的是,在發(fā)展文心一言的同時(shí),也要好好優(yōu)化一下百度搜索,目前,百度搜索的使用體驗并不友好:
根據偲睿洞察記者調查發(fā)現,在搜索“下載網(wǎng)易云音樂(lè )”這類(lèi)明確的指令之下,百度有1億條結果,一直到第18條才出現官網(wǎng)下載地址,前18條里還有6個(gè)廣告,相比之下,必應有7億多個(gè)結果,在第5條出現了官網(wǎng)下載地址;
在搜索“五官醫院”時(shí),必應出現3.95億條結果,第一個(gè)詞條是出現最近的五官醫院的官網(wǎng)以及地址信息,之后是附近五官醫院的地址,而百度出現41萬(wàn)條結果,迎面的幾條都是機器人在線(xiàn)醫療……
當百度搜索更為精準之后,文心一言在此基礎上,才能夠提供更個(gè)性化、更高效的搜索服務(wù),從而提升搜索的變現效果。
除了搜索之外,百度還將其融入智能云、Apollo自動(dòng)駕駛、小度智能設備等:在財報后的全員信中,李彥宏表示,百度的多項主流業(yè)務(wù)與文心一言整合。
而這一切的一切,都得等文心一言這個(gè)偏科生更“理性一點(diǎn)”。