蘋(píng)果揭示當(dāng)今先進(jìn)模型存在嚴(yán)重缺陷，給企業(yè)高管敲響警鐘

作者：Bernard Marr 2025-06-17 15:18:33

在商業(yè)AI領(lǐng)域，人們往往相信“越大越好”，即更大的數(shù)據(jù)、更大的算法和更多的標(biāo)記，蘋(píng)果的研究發(fā)現(xiàn)表明，超過(guò)一定點(diǎn)后，規(guī)模帶來(lái)的好處就會(huì)消失，并最終崩潰。

一份具有開(kāi)創(chuàng)性的蘋(píng)果研究論文在AI社區(qū)引發(fā)了軒然大波，該論文揭示了當(dāng)今最先進(jìn)模型中存在的嚴(yán)重局限性，這些缺陷此前一直未被發(fā)現(xiàn)。

論文《思考的錯(cuò)覺(jué)》表明，像GPT-4、Deep Seek和Claude Sonnet這樣的高級(jí)模型所應(yīng)用的“思維鏈”推理，在任務(wù)變得過(guò)于復(fù)雜時(shí)，會(huì)出現(xiàn)“完全的準(zhǔn)確性崩潰”。

最令人擔(dān)憂的方面似乎是，一旦任務(wù)復(fù)雜到一定程度，再投入更多的處理能力、標(biāo)記或數(shù)據(jù)也無(wú)濟(jì)于事。

這對(duì)于我們經(jīng)常聽(tīng)到的那些宏大構(gòu)想來(lái)說(shuō)，顯然有著深遠(yuǎn)的影響，比如AI解決氣候變化、能源短缺或全球貧困等巨大挑戰(zhàn)。

大型推理模型(LRM)是驅(qū)動(dòng)自主式AI的問(wèn)題解決引擎，一些人認(rèn)為它們是通往通用人工智能(AGI)道路上的一步，即AI能夠像人類(lèi)一樣，將其所學(xué)應(yīng)用于任何任務(wù)。目前，人們已經(jīng)在開(kāi)發(fā)這些模型上投入了巨額資金，因?yàn)樗鼈儽徽J(rèn)為是當(dāng)今最先進(jìn)、最有用的AI模型。

但是，這是否意味著數(shù)十億美元的投資都投入了一個(gè)本質(zhì)上無(wú)用的技術(shù)死胡同呢?

我不這么認(rèn)為，但我確實(shí)相信，對(duì)于希望解鎖AI真正潛力的企業(yè)和組織來(lái)說(shuō)，有一些重要的教訓(xùn)需要汲取，那么，讓我們更深入地探討一下。

研究發(fā)現(xiàn)

該報(bào)告的核心前提是，AI的“思考”可能只是一種錯(cuò)覺(jué)，而非真實(shí)、功能齊全的人類(lèi)客觀推理的鏡像。

這一觀點(diǎn)得到了“準(zhǔn)確性崩潰”發(fā)現(xiàn)的支持，該發(fā)現(xiàn)表明，雖然LRM在處理低復(fù)雜度任務(wù)時(shí)表現(xiàn)出色，但隨著復(fù)雜度的增加，它們最終會(huì)達(dá)到一個(gè)完全失敗的程度。

也許最出乎意料的是，這些模型在任務(wù)變得過(guò)于復(fù)雜時(shí)，似乎會(huì)選擇放棄，使用更少的標(biāo)記并投入更少的努力。

而且，即使明確告訴它們?nèi)绾谓鉀Q問(wèn)題，它們也常常會(huì)失敗，這讓我們對(duì)訓(xùn)練它們克服這種行為的能力產(chǎn)生了懷疑。

這些發(fā)現(xiàn)非常重要，因?yàn)樵谏虡I(yè)AI領(lǐng)域，人們往往相信“越大越好”，即更大的數(shù)據(jù)、更大的算法和更多的標(biāo)記。蘋(píng)果的研究發(fā)現(xiàn)表明，超過(guò)一定點(diǎn)后，規(guī)模帶來(lái)的好處就會(huì)消失，并最終崩潰。

這意味著，當(dāng)要求AI執(zhí)行過(guò)于復(fù)雜的任務(wù)時(shí)，如制定混亂現(xiàn)實(shí)世界場(chǎng)景中的廣泛、高級(jí)戰(zhàn)略或進(jìn)行復(fù)雜的法律推理時(shí)，其有用性也會(huì)降低。

這對(duì)當(dāng)今的企業(yè)意味著什么?

在我看來(lái)，這并不是一個(gè)不可逾越的障礙，而是一個(gè)信號(hào)，表明生成式語(yǔ)言AI不應(yīng)被視為解決所有問(wèn)題的靈丹妙藥。

對(duì)我來(lái)說(shuō)，這里有三個(gè)關(guān)鍵的教訓(xùn)。

首先，將AI的注意力集中在結(jié)構(gòu)化、低到中等復(fù)雜度的任務(wù)上，更有可能達(dá)到最佳效果。

例如，律師事務(wù)所不應(yīng)期望AI能直接為它們制定出一個(gè)獲勝的案件策略，這個(gè)問(wèn)題過(guò)于復(fù)雜和開(kāi)放，一旦模型達(dá)到無(wú)法有效推理的程度，就必然會(huì)導(dǎo)致通用且無(wú)用的輸出。

然而，該事務(wù)所可以使用AI來(lái)從合同中提取相關(guān)點(diǎn)，創(chuàng)建相關(guān)先前判例法的摘要，并標(biāo)記出風(fēng)險(xiǎn)。

其次，它強(qiáng)調(diào)了“人在回路中”(human-in-the-loop)的重要性，即確保AI被負(fù)責(zé)任和可追溯地使用所需的人類(lèi)監(jiān)督這一關(guān)鍵要素。

第三，當(dāng)“準(zhǔn)確性崩潰”成為危險(xiǎn)時(shí)，學(xué)會(huì)識(shí)別其跡象，如模型放棄推理嘗試時(shí)標(biāo)記使用量的下降，對(duì)于減輕其影響至關(guān)重要。

發(fā)揮AI的優(yōu)勢(shì)，同時(shí)緩沖其弱點(diǎn)的影響，才是游戲的關(guān)鍵。

那么，AI是否已經(jīng)走到了盡頭?

在我看來(lái)，蘋(píng)果的研究并不預(yù)示著AI的“盡頭”或走投無(wú)路的局面。相反，它應(yīng)該被企業(yè)用來(lái)幫助他們專(zhuān)注于可能成功的領(lǐng)域，并理解在哪里應(yīng)該建立對(duì)AI失敗的韌性。

理解AI的局限性并不應(yīng)該阻止我們從中受益，但它有助于我們避免因推理崩潰或只是浪費(fèi)時(shí)間和金錢(qián)而可能造成的嚴(yán)重傷害或損害。

自主式AI在這方面具有潛力，它能夠部署各種工具來(lái)彌補(bǔ)在僅靠推理不足的情況下的差距。同樣，可解釋性AI的概念也很重要，因?yàn)樵O(shè)計(jì)透明的系統(tǒng)意味著當(dāng)崩潰發(fā)生時(shí)，我們將更好地理解出了什么問(wèn)題。

當(dāng)然，沒(méi)有人應(yīng)該期望AI能總是完美地工作，并為每一個(gè)可能的問(wèn)題提供最佳解決方案，然而，我們?cè)搅私馑驮侥芾闷鋬?yōu)勢(shì)，也就越有可能創(chuàng)造真正的價(jià)值。

責(zé)任編輯：姜華來(lái)源：企業(yè)網(wǎng)D1Net

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

蘋(píng)果揭示當(dāng)今先進(jìn)模型存在嚴(yán)重缺陷，給企業(yè)高管敲響警鐘

研究發(fā)現(xiàn)

這對(duì)當(dāng)今的企業(yè)意味著什么?

那么，AI是否已經(jīng)走到了盡頭?