成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

李彥宏內部講話流出:曝大模型「刷榜」?jié)撘?guī)則,談三大認知誤區(qū)

人工智能 新聞
大模型更新速度放緩,一些人開始唱衰AI,難道AI真的進入了寒冬?最近,李彥宏一次內部講話曝出,闡述了人們對LLM的三大認知誤區(qū)。

榜單,并不能代表模型實力

大模型時代,閉源比開源在商業(yè)場景更有優(yōu)勢

智能體,還未成為共識

這是李彥宏近期在內部講話中,所闡述出公眾和行業(yè)對大模型的三大認知誤區(qū)。

2024年已過大半,AI行業(yè)技術在過去一年坐上過山車之后,逐漸進入冷靜期。

GPT-4之后,OpenAI一直按兵不動,遲遲未更新下一代模型。而Llama 3等開源模型的誕生,性能逼近閉源模型。

行業(yè)中,質疑聲不斷涌現(xiàn):大模型是不是一場新的科技泡沫?

大模型之間是不是已經沒有技術壁壘了?還要繼續(xù)投入基礎模型的研究嗎?開源模型拿來直接用是不是就可以?未來AI應用的發(fā)展方向在哪里?

這些,都是技術降溫時,縈繞在所有人頭腦中的疑問。

在剛剛曝光的內部講話中,李彥宏對這些問題給出了自己的答案和思考,并指出了AI未來的發(fā)展方向。

同時,他堅定地認為——智能體,才是AI時代的未來趨勢。

內部講話首次曝光:LLM三大誤區(qū)

1. 模型能力,已無壁壘?

對于「大模型之間的能力已經不存在壁壘」這種說法,李彥宏給出了不同觀點。

「每次新模型發(fā)布,都和GPT-4o做比較,說我的得分已經跟它差不多了,甚至某些單項上得分已經超過它了,但這并不表明和最先進的模型就沒有差距了」。

實際上,模型之間的差距是多維度的。一個維度是能力方面,比如理解、生成、記憶、邏輯推理等基本能力的差距;另一個維度是成本和推理速度。

很多公司或者用戶對于模型能力的評價是片面的,往往只關注前者,但卻忽視了后者,這就導致了對于單一榜單的過度迷戀。

為了讓自家模型得高分,有的廠商會對測試集「進行over-fitting」。

比如,讓數(shù)據(jù)標注員把評測題做一遍,或者讓GPT-4做一遍,再把答案喂給自家模型,相當于讓模型「刷題」考高分。

這樣從榜單或者測試集上看,就會讓人覺得,模型之間的能力已經很接近了,但在實際應用場景中,就會暴露出明顯的差距,出現(xiàn)「高分低能」。

圖片

一些模型會刷榜時,會通過輸出詳盡且格式完備的回答來「操控」人類偏好

李彥宏表示,百度是不允許技術人員「打榜」。真正衡量文心大模型能力的,是在具體應用場景中能否滿足用戶的需求,能否產生有價值的增益。

透過各種各樣的榜單和分數(shù),我們需要看到,一方面模型能力之間還有比較明顯的差距,另外一方面,天花板也很高。

今天已經實現(xiàn)的模型性能,和我們實際想要的理想狀態(tài),還有很遠的距離。

因此,模型還需要不斷的快速迭代、更新、升級。不同的模型之間差距不會是越來越小,而是會越來越大的。即使今天的差距看似很小,再過一年時間,就會有天翻地覆的變化。

這個過程,就是看有誰能夠持續(xù)不斷地幾年甚至十幾年投入,讓模型越來越能夠滿足場景和用戶,實現(xiàn)效率提升或成本降低。

對于所謂的領先12個月或者落后18個月,李彥宏認為并沒有那么重要。

在這個完全競爭的市場環(huán)境中,無論做什么方向都有很多競爭對手,因此不要覺得12~18個月是很短的時間。如果能保證永遠領先對手12~18個月,哪怕是6個月,那都是「天下無敵」的水平。

2. 開源已趕上,閉源沒優(yōu)勢?

我們從軟件時代走來,因此有一種固定的思維模式——「開源一定好」,但這在大模型時代卻不一定正確。

軟件時代,開源的優(yōu)勢是建立在低廉的算力和硬件成本之上的,但對于大模型來說,算力和硬件卻是無法被忽略的關鍵因素。

比如開源的Linux,因為用戶已經有了電腦,所以使用起來幾乎沒有成本;但是大模型時代,算力是「命根子」,是決定成敗的關鍵因素,即使是開源模型,也無法直接促進算力的高效利用。

圖片

正如上一個問題中提到的,大模型除了能力或效果之外,還要看效率。效率上,開源模型是不行的。

閉源模型,或者準確地講應該叫商業(yè)化模型,相當于無數(shù)個用戶或客戶共享同樣的資源,分攤研發(fā)成本和推理所用的硬件、GPU,這樣的算力效率是最高的。

以百度為例,目前文心大模型每天調用量超過6億、生成的token數(shù)量超過萬億,GPU使用率達到了90%以上。

但如果在商業(yè)場景下使用開源模型,就需要部署自己的GPU、自己找算力,無處分擔推理成本。最終綜合起來,不如選擇商業(yè)化模型劃算。

所以,開源大模型的價值主要體現(xiàn)在教學、科研等領域,開放的源代碼可以讓我們弄清大模型的工作原理;但商業(yè)領域追求的是效率、效果和最低成本,開源模型是沒有優(yōu)勢的。

3. AI應用難落地,商業(yè)化沒路徑?

李彥宏表示,大模型應用的發(fā)展必然要經歷幾個階段。

一開始是對人進行輔助,產出的結果都需要人來把關,檢查無誤、確定效果后才能使用,這是Copilot階段;

再往下走,就是Agent智能體,有了一定的自主性,具備自主使用工具、反思、自我進化等能力;

這種自動化程度再往下走,就變成所謂的Al Worker,能夠像人一樣做各種各樣的腦力和體力勞動,各方面的工作都可以獨立完成。

過去一年,很多目光都聚焦在多模態(tài)領域,但其實忽略了,智能體才是目前最能激發(fā)大模型潛力的應用方向。

圖片

為什么這么強調智能體?因為智能體的門檻確實很低。

很多人不知道怎么把大模型變成應用,這其中有很多不確定性,而智能體是一個非常直接、高效、簡單的方式,在模型之上構建智能體相當方便。

百度在Create大會上發(fā)布了三個產品:AgentBuilder、AppBuilder和ModelBuilder,其中AgentBuilder和AppBuilder都是關于智能體的,一個門檻更低,另一個功能更強大。

這些工具引起了開發(fā)者們的興趣,讓智能體的熱度逐漸提升。目前,文心平臺上每周都能創(chuàng)造出上萬個新的智能體。

圖片

https://agents.baidu.com/center

然而,「智能體是大模型最重要的發(fā)展方向」這個判斷,其實并沒有形成共識,因此還有很大的發(fā)展?jié)摿Α?/span>

百度在智能體方面已經看到了趨勢,而且具備比較好的發(fā)展條件。除了模型本身的能力比較強大之外,也有分發(fā)通路的優(yōu)勢。

百度的APP,尤其是百度搜索的日活躍用戶能達到幾億級別,因此能直接捕捉到用戶的需求,知道哪一個智能體能更好地去回答問題、滿足需求。這個自然匹配的過程也最能夠幫助開發(fā)者們分發(fā)智能體。

百度智能體,已邁入深水區(qū)

CEO李彥宏在多次內外部講話中,都明確了表示智能體對于AI應用的重要性,倡導全行業(yè)持續(xù)投入智能體生態(tài)。

6月的「亞布力企業(yè)家走進百度」活動中,李彥宏預言,未來將會有幾百萬,甚至更大量的智能體出現(xiàn),形成龐大生態(tài)。

「未來,各行各業(yè)、各個領域都會依據(jù)具體的場景,根據(jù)自己特有的經驗、規(guī)則、數(shù)據(jù),做出來這些智能體。」

這些智能體不僅能對話,還具備反思和規(guī)劃能力,未來或許還將具備協(xié)作能力。

「就像公司里有CEO,還有財務、技術、銷售主管,他們協(xié)作起來,能完成一個非常復雜的任務。」如果多個智能體可以協(xié)作,將會對整個生態(tài)的發(fā)展形成極大推動。

圖片

談及企業(yè)做智能體的方向,李彥宏表示,如果僅僅是針對理解、生成、邏輯和記憶等基礎能力做改進或集成,價值不大;但在各個不同場景中,利用好特有的數(shù)據(jù),就能逐漸積累出自身的競爭優(yōu)勢。

「大模型對于ToB業(yè)務的改造,會是非常深刻和徹底的,比互聯(lián)網對于ToB的影響力要大一個數(shù)量級。今天,大模型在B端的影響已經大于C端了。」

今年7月WAIC的圓桌訪談和演講中,李彥宏再次表示,在AI應用的發(fā)展方向上,最看好智能體,智能體代表著AI時代的未來趨勢。

圖片

基礎模型需要靠應用才能顯現(xiàn)出價值,而智能體是一個幾乎「放之四海而皆準」的大模型應用。

因為門檻足夠低,甚至都不需要編程,只要用「人話」把工作流說清楚,再配以專有知識庫,就能做出一個效果不錯的,甚至很有價值的智能體,比互聯(lián)網時代制作一個網頁還簡單。

「智能體正在爆發(fā),只是現(xiàn)在基數(shù)還比較小,大家的體感沒有那么強烈。讓更多人進來、發(fā)揮聰明才智,指不定哪條路跑通了,就是一個Super APP。」

雖然有巨大的潛力,但是像百度這樣,將智能體定位為大模型最重要戰(zhàn)略、最重要發(fā)展方向的公司,并不多見。

在百度文心智能體平臺AgentBuilder上,已有20萬開發(fā)者、6.3萬企業(yè)入駐,在百度開發(fā)智能體的商戶已達1.6萬家。

7月,AgentBuilder平臺還做出了重大舉措,免費開放文心大模型4.0供開發(fā)者使用。

根據(jù)今年第二季度的財報,智能體在百度生態(tài)的分發(fā)量正在快速上升,百度搜索已經成為分發(fā)的最大入口。

以7月份為例,日均分發(fā)次數(shù)超800萬,是5月的兩倍。其中最常用的智能體包括內容創(chuàng)作、性格測試、日程規(guī)劃等應用類型,覆蓋教育、法律和B2B等行業(yè)。

作為AI應用的先行者,百度對智能體領域的率先嘗試、大力押注,讓我們看到了大模型生態(tài)落地應用的廣闊前景。

如果李彥宏的預言成真,大模型不僅不會淪為泡沫,反而是更大、更繁榮市場的開始,大模型+智能體將引領移動互聯(lián)網之后的下一次技術浪潮。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-13 14:08:12

李彥宏模型智能體

2024-04-12 10:05:35

大模型

2010-12-01 10:53:09

IT培訓

2018-10-22 05:00:54

2024-04-17 14:44:49

2010-11-08 12:46:32

李彥宏

2013-08-27 16:46:28

李彥宏百度

2015-10-12 10:17:35

李彥宏百度創(chuàng)業(yè)

2009-06-30 08:28:10

李彥宏詠樂匯

2015-10-12 11:02:07

李彥宏創(chuàng)業(yè)失敗

2020-12-26 15:19:00

DevOps誤區(qū)開發(fā)

2025-03-10 10:34:55

2015-02-28 14:16:32

Google百度

2017-06-29 19:49:00

世界智能李彥宏馬云

2023-09-02 20:19:10

2010-09-17 10:45:04

李彥宏

2023-11-09 15:12:00

模型數(shù)據(jù)

2010-08-31 09:34:30

安裝補丁

2009-05-04 08:53:19

百度李彥宏挫折

2018-08-17 06:05:44

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色成人免费在线观看 | 午夜a级理论片915影院 | 欧美成人一区二免费视频软件 | 国产亚洲精品精品国产亚洲综合 | 欧美国产在线一区 | 玖草资源 | 精品网| 亚洲精品国产成人 | 黑人一级黄色大片 | 婷婷桃色网 | 国产精品国产三级国产aⅴ入口 | 国产乱码久久久久久 | 男女激情网 | 欧美精品一区二区三区在线播放 | h视频免费在线观看 | 毛片网站免费观看 | 欧美久久久久 | 欧美日韩亚洲一区 | 国产精品久久久久无码av | 日本精品一区二区 | 国产精品久久久久久久免费观看 | 黄瓜av | 精品成人佐山爱一区二区 | 一级毛片在线播放 | www国产成人免费观看视频,深夜成人网 | 色综合久久天天综合网 | 在线观看国产wwwa级羞羞视频 | 免费观看a级毛片在线播放 黄网站免费入口 | 操人网站 | 亚洲毛片在线 | 久久久久香蕉视频 | 久久一| 精品美女久久久久久免费 | 爱爱免费视频网站 | 国产精品视频久久久 | 欧美一级淫片免费视频黄 | 日日天天| 精品国产91 | 亚洲综合资源 | 久久久123| 亚洲视频二区 |