李彥宏內部講話流出：曝大模型「刷榜」?jié)撘?guī)則，談三大認知誤區(qū)

作者：新智元 2024-09-12 14:46:03

人工智能新聞

大模型更新速度放緩，一些人開始唱衰AI，難道AI真的進入了寒冬？最近，李彥宏一次內部講話曝出，闡述了人們對LLM的三大認知誤區(qū)。

榜單，并不能代表模型實力
大模型時代，閉源比開源在商業(yè)場景更有優(yōu)勢
智能體，還未成為共識

這是李彥宏近期在內部講話中，所闡述出公眾和行業(yè)對大模型的三大認知誤區(qū)。

2024年已過大半，AI行業(yè)技術在過去一年坐上過山車之后，逐漸進入冷靜期。

GPT-4之后，OpenAI一直按兵不動，遲遲未更新下一代模型。而Llama 3等開源模型的誕生，性能逼近閉源模型。

行業(yè)中，質疑聲不斷涌現(xiàn)：大模型是不是一場新的科技泡沫？

大模型之間是不是已經沒有技術壁壘了？還要繼續(xù)投入基礎模型的研究嗎？開源模型拿來直接用是不是就可以？未來AI應用的發(fā)展方向在哪里？

這些，都是技術降溫時，縈繞在所有人頭腦中的疑問。

在剛剛曝光的內部講話中，李彥宏對這些問題給出了自己的答案和思考，并指出了AI未來的發(fā)展方向。

同時，他堅定地認為——智能體，才是AI時代的未來趨勢。

內部講話首次曝光：LLM三大誤區(qū)

1. 模型能力，已無壁壘？

對于「大模型之間的能力已經不存在壁壘」這種說法，李彥宏給出了不同觀點。

「每次新模型發(fā)布，都和GPT-4o做比較，說我的得分已經跟它差不多了，甚至某些單項上得分已經超過它了，但這并不表明和最先進的模型就沒有差距了」。

實際上，模型之間的差距是多維度的。一個維度是能力方面，比如理解、生成、記憶、邏輯推理等基本能力的差距；另一個維度是成本和推理速度。

很多公司或者用戶對于模型能力的評價是片面的，往往只關注前者，但卻忽視了后者，這就導致了對于單一榜單的過度迷戀。

為了讓自家模型得高分，有的廠商會對測試集「進行over-fitting」。

比如，讓數(shù)據(jù)標注員把評測題做一遍，或者讓GPT-4做一遍，再把答案喂給自家模型，相當于讓模型「刷題」考高分。

這樣從榜單或者測試集上看，就會讓人覺得，模型之間的能力已經很接近了，但在實際應用場景中，就會暴露出明顯的差距，出現(xiàn)「高分低能」。

一些模型會刷榜時，會通過輸出詳盡且格式完備的回答來「操控」人類偏好

李彥宏表示，百度是不允許技術人員「打榜」。真正衡量文心大模型能力的，是在具體應用場景中能否滿足用戶的需求，能否產生有價值的增益。

透過各種各樣的榜單和分數(shù)，我們需要看到，一方面模型能力之間還有比較明顯的差距，另外一方面，天花板也很高。

今天已經實現(xiàn)的模型性能，和我們實際想要的理想狀態(tài)，還有很遠的距離。

因此，模型還需要不斷的快速迭代、更新、升級。不同的模型之間差距不會是越來越小，而是會越來越大的。即使今天的差距看似很小，再過一年時間，就會有天翻地覆的變化。

這個過程，就是看有誰能夠持續(xù)不斷地幾年甚至十幾年投入，讓模型越來越能夠滿足場景和用戶，實現(xiàn)效率提升或成本降低。

對于所謂的領先12個月或者落后18個月，李彥宏認為并沒有那么重要。

在這個完全競爭的市場環(huán)境中，無論做什么方向都有很多競爭對手，因此不要覺得12～18個月是很短的時間。如果能保證永遠領先對手12～18個月，哪怕是6個月，那都是「天下無敵」的水平。

2. 開源已趕上，閉源沒優(yōu)勢？

我們從軟件時代走來，因此有一種固定的思維模式——「開源一定好」，但這在大模型時代卻不一定正確。

軟件時代，開源的優(yōu)勢是建立在低廉的算力和硬件成本之上的，但對于大模型來說，算力和硬件卻是無法被忽略的關鍵因素。

比如開源的Linux，因為用戶已經有了電腦，所以使用起來幾乎沒有成本；但是大模型時代，算力是「命根子」，是決定成敗的關鍵因素，即使是開源模型，也無法直接促進算力的高效利用。

正如上一個問題中提到的，大模型除了能力或效果之外，還要看效率。效率上，開源模型是不行的。

閉源模型，或者準確地講應該叫商業(yè)化模型，相當于無數(shù)個用戶或客戶共享同樣的資源，分攤研發(fā)成本和推理所用的硬件、GPU，這樣的算力效率是最高的。

以百度為例，目前文心大模型每天調用量超過6億、生成的token數(shù)量超過萬億，GPU使用率達到了90%以上。

但如果在商業(yè)場景下使用開源模型，就需要部署自己的GPU、自己找算力，無處分擔推理成本。最終綜合起來，不如選擇商業(yè)化模型劃算。

所以，開源大模型的價值主要體現(xiàn)在教學、科研等領域，開放的源代碼可以讓我們弄清大模型的工作原理；但商業(yè)領域追求的是效率、效果和最低成本，開源模型是沒有優(yōu)勢的。

3. AI應用難落地，商業(yè)化沒路徑？

李彥宏表示，大模型應用的發(fā)展必然要經歷幾個階段。

一開始是對人進行輔助，產出的結果都需要人來把關，檢查無誤、確定效果后才能使用，這是Copilot階段；

再往下走，就是Agent智能體，有了一定的自主性，具備自主使用工具、反思、自我進化等能力；

這種自動化程度再往下走，就變成所謂的Al Worker，能夠像人一樣做各種各樣的腦力和體力勞動，各方面的工作都可以獨立完成。

過去一年，很多目光都聚焦在多模態(tài)領域，但其實忽略了，智能體才是目前最能激發(fā)大模型潛力的應用方向。

為什么這么強調智能體？因為智能體的門檻確實很低。

很多人不知道怎么把大模型變成應用，這其中有很多不確定性，而智能體是一個非常直接、高效、簡單的方式，在模型之上構建智能體相當方便。

百度在Create大會上發(fā)布了三個產品：AgentBuilder、AppBuilder和ModelBuilder，其中AgentBuilder和AppBuilder都是關于智能體的，一個門檻更低，另一個功能更強大。

這些工具引起了開發(fā)者們的興趣，讓智能體的熱度逐漸提升。目前，文心平臺上每周都能創(chuàng)造出上萬個新的智能體。

https://agents.baidu.com/center

然而，「智能體是大模型最重要的發(fā)展方向」這個判斷，其實并沒有形成共識，因此還有很大的發(fā)展?jié)摿Α?/span>

百度在智能體方面已經看到了趨勢，而且具備比較好的發(fā)展條件。除了模型本身的能力比較強大之外，也有分發(fā)通路的優(yōu)勢。

百度的APP，尤其是百度搜索的日活躍用戶能達到幾億級別，因此能直接捕捉到用戶的需求，知道哪一個智能體能更好地去回答問題、滿足需求。這個自然匹配的過程也最能夠幫助開發(fā)者們分發(fā)智能體。

百度智能體，已邁入深水區(qū)

CEO李彥宏在多次內外部講話中，都明確了表示智能體對于AI應用的重要性，倡導全行業(yè)持續(xù)投入智能體生態(tài)。

6月的「亞布力企業(yè)家走進百度」活動中，李彥宏預言，未來將會有幾百萬，甚至更大量的智能體出現(xiàn)，形成龐大生態(tài)。

「未來，各行各業(yè)、各個領域都會依據(jù)具體的場景，根據(jù)自己特有的經驗、規(guī)則、數(shù)據(jù)，做出來這些智能體。」

這些智能體不僅能對話，還具備反思和規(guī)劃能力，未來或許還將具備協(xié)作能力。

「就像公司里有CEO，還有財務、技術、銷售主管，他們協(xié)作起來，能完成一個非常復雜的任務。」如果多個智能體可以協(xié)作，將會對整個生態(tài)的發(fā)展形成極大推動。

談及企業(yè)做智能體的方向，李彥宏表示，如果僅僅是針對理解、生成、邏輯和記憶等基礎能力做改進或集成，價值不大；但在各個不同場景中，利用好特有的數(shù)據(jù)，就能逐漸積累出自身的競爭優(yōu)勢。

「大模型對于ToB業(yè)務的改造，會是非常深刻和徹底的，比互聯(lián)網對于ToB的影響力要大一個數(shù)量級。今天，大模型在B端的影響已經大于C端了。」

今年7月WAIC的圓桌訪談和演講中，李彥宏再次表示，在AI應用的發(fā)展方向上，最看好智能體，智能體代表著AI時代的未來趨勢。

基礎模型需要靠應用才能顯現(xiàn)出價值，而智能體是一個幾乎「放之四海而皆準」的大模型應用。

因為門檻足夠低，甚至都不需要編程，只要用「人話」把工作流說清楚，再配以專有知識庫，就能做出一個效果不錯的，甚至很有價值的智能體，比互聯(lián)網時代制作一個網頁還簡單。

「智能體正在爆發(fā)，只是現(xiàn)在基數(shù)還比較小，大家的體感沒有那么強烈。讓更多人進來、發(fā)揮聰明才智，指不定哪條路跑通了，就是一個Super APP。」

雖然有巨大的潛力，但是像百度這樣，將智能體定位為大模型最重要戰(zhàn)略、最重要發(fā)展方向的公司，并不多見。

在百度文心智能體平臺AgentBuilder上，已有20萬開發(fā)者、6.3萬企業(yè)入駐，在百度開發(fā)智能體的商戶已達1.6萬家。

7月，AgentBuilder平臺還做出了重大舉措，免費開放文心大模型4.0供開發(fā)者使用。

根據(jù)今年第二季度的財報，智能體在百度生態(tài)的分發(fā)量正在快速上升，百度搜索已經成為分發(fā)的最大入口。

以7月份為例，日均分發(fā)次數(shù)超800萬，是5月的兩倍。其中最常用的智能體包括內容創(chuàng)作、性格測試、日程規(guī)劃等應用類型，覆蓋教育、法律和B2B等行業(yè)。

作為AI應用的先行者，百度對智能體領域的率先嘗試、大力押注，讓我們看到了大模型生態(tài)落地應用的廣闊前景。

如果李彥宏的預言成真，大模型不僅不會淪為泡沫，反而是更大、更繁榮市場的開始，大模型+智能體將引領移動互聯(lián)網之后的下一次技術浪潮。

責任編輯：張燕妮來源：新智元

AI 大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看