蘋(píng)果揭示當(dāng)今先進(jìn)模型存在嚴(yán)重缺陷,給企業(yè)高管敲響警鐘
一份具有開(kāi)創(chuàng)性的蘋(píng)果研究論文在AI社區(qū)引發(fā)了軒然大波,該論文揭示了當(dāng)今最先進(jìn)模型中存在的嚴(yán)重局限性,這些缺陷此前一直未被發(fā)現(xiàn)。
論文《思考的錯(cuò)覺(jué)》表明,像GPT-4、Deep Seek和Claude Sonnet這樣的高級(jí)模型所應(yīng)用的“思維鏈”推理,在任務(wù)變得過(guò)于復(fù)雜時(shí),會(huì)出現(xiàn)“完全的準(zhǔn)確性崩潰”。
最令人擔(dān)憂的方面似乎是,一旦任務(wù)復(fù)雜到一定程度,再投入更多的處理能力、標(biāo)記或數(shù)據(jù)也無(wú)濟(jì)于事。
這對(duì)于我們經(jīng)常聽(tīng)到的那些宏大構(gòu)想來(lái)說(shuō),顯然有著深遠(yuǎn)的影響,比如AI解決氣候變化、能源短缺或全球貧困等巨大挑戰(zhàn)。
大型推理模型(LRM)是驅(qū)動(dòng)自主式AI的問(wèn)題解決引擎,一些人認(rèn)為它們是通往通用人工智能(AGI)道路上的一步,即AI能夠像人類(lèi)一樣,將其所學(xué)應(yīng)用于任何任務(wù)。目前,人們已經(jīng)在開(kāi)發(fā)這些模型上投入了巨額資金,因?yàn)樗鼈儽徽J(rèn)為是當(dāng)今最先進(jìn)、最有用的AI模型。
但是,這是否意味著數(shù)十億美元的投資都投入了一個(gè)本質(zhì)上無(wú)用的技術(shù)死胡同呢?
我不這么認(rèn)為,但我確實(shí)相信,對(duì)于希望解鎖AI真正潛力的企業(yè)和組織來(lái)說(shuō),有一些重要的教訓(xùn)需要汲取,那么,讓我們更深入地探討一下。
研究發(fā)現(xiàn)
該報(bào)告的核心前提是,AI的“思考”可能只是一種錯(cuò)覺(jué),而非真實(shí)、功能齊全的人類(lèi)客觀推理的鏡像。
這一觀點(diǎn)得到了“準(zhǔn)確性崩潰”發(fā)現(xiàn)的支持,該發(fā)現(xiàn)表明,雖然LRM在處理低復(fù)雜度任務(wù)時(shí)表現(xiàn)出色,但隨著復(fù)雜度的增加,它們最終會(huì)達(dá)到一個(gè)完全失敗的程度。
也許最出乎意料的是,這些模型在任務(wù)變得過(guò)于復(fù)雜時(shí),似乎會(huì)選擇放棄,使用更少的標(biāo)記并投入更少的努力。
而且,即使明確告訴它們?nèi)绾谓鉀Q問(wèn)題,它們也常常會(huì)失敗,這讓我們對(duì)訓(xùn)練它們克服這種行為的能力產(chǎn)生了懷疑。
這些發(fā)現(xiàn)非常重要,因?yàn)樵谏虡I(yè)AI領(lǐng)域,人們往往相信“越大越好”,即更大的數(shù)據(jù)、更大的算法和更多的標(biāo)記。蘋(píng)果的研究發(fā)現(xiàn)表明,超過(guò)一定點(diǎn)后,規(guī)模帶來(lái)的好處就會(huì)消失,并最終崩潰。
這意味著,當(dāng)要求AI執(zhí)行過(guò)于復(fù)雜的任務(wù)時(shí),如制定混亂現(xiàn)實(shí)世界場(chǎng)景中的廣泛、高級(jí)戰(zhàn)略或進(jìn)行復(fù)雜的法律推理時(shí),其有用性也會(huì)降低。
這對(duì)當(dāng)今的企業(yè)意味著什么?
在我看來(lái),這并不是一個(gè)不可逾越的障礙,而是一個(gè)信號(hào),表明生成式語(yǔ)言AI不應(yīng)被視為解決所有問(wèn)題的靈丹妙藥。
對(duì)我來(lái)說(shuō),這里有三個(gè)關(guān)鍵的教訓(xùn)。
首先,將AI的注意力集中在結(jié)構(gòu)化、低到中等復(fù)雜度的任務(wù)上,更有可能達(dá)到最佳效果。
例如,律師事務(wù)所不應(yīng)期望AI能直接為它們制定出一個(gè)獲勝的案件策略,這個(gè)問(wèn)題過(guò)于復(fù)雜和開(kāi)放,一旦模型達(dá)到無(wú)法有效推理的程度,就必然會(huì)導(dǎo)致通用且無(wú)用的輸出。
然而,該事務(wù)所可以使用AI來(lái)從合同中提取相關(guān)點(diǎn),創(chuàng)建相關(guān)先前判例法的摘要,并標(biāo)記出風(fēng)險(xiǎn)。
其次,它強(qiáng)調(diào)了“人在回路中”(human-in-the-loop)的重要性,即確保AI被負(fù)責(zé)任和可追溯地使用所需的人類(lèi)監(jiān)督這一關(guān)鍵要素。
第三,當(dāng)“準(zhǔn)確性崩潰”成為危險(xiǎn)時(shí),學(xué)會(huì)識(shí)別其跡象,如模型放棄推理嘗試時(shí)標(biāo)記使用量的下降,對(duì)于減輕其影響至關(guān)重要。
發(fā)揮AI的優(yōu)勢(shì),同時(shí)緩沖其弱點(diǎn)的影響,才是游戲的關(guān)鍵。
那么,AI是否已經(jīng)走到了盡頭?
在我看來(lái),蘋(píng)果的研究并不預(yù)示著AI的“盡頭”或走投無(wú)路的局面。相反,它應(yīng)該被企業(yè)用來(lái)幫助他們專(zhuān)注于可能成功的領(lǐng)域,并理解在哪里應(yīng)該建立對(duì)AI失敗的韌性。
理解AI的局限性并不應(yīng)該阻止我們從中受益,但它有助于我們避免因推理崩潰或只是浪費(fèi)時(shí)間和金錢(qián)而可能造成的嚴(yán)重傷害或損害。
自主式AI在這方面具有潛力,它能夠部署各種工具來(lái)彌補(bǔ)在僅靠推理不足的情況下的差距。同樣,可解釋性AI的概念也很重要,因?yàn)樵O(shè)計(jì)透明的系統(tǒng)意味著當(dāng)崩潰發(fā)生時(shí),我們將更好地理解出了什么問(wèn)題。
當(dāng)然,沒(méi)有人應(yīng)該期望AI能總是完美地工作,并為每一個(gè)可能的問(wèn)題提供最佳解決方案,然而,我們?cè)搅私馑驮侥芾闷鋬?yōu)勢(shì),也就越有可能創(chuàng)造真正的價(jià)值。