23年生成式AI全球投資超360億!開發者預測2024年LLM應用進入大爆發
2023年11月30日,ChatGPT慶祝了它的生日,Similarweb發布了下面這張精美的信息圖來紀念這一時刻。
從ChatGPT誕生,到2023年5月,它的訪問量一直在迅速增長,峰值達到了每月18億次的訪問量。
隨后,客流量在6月有所下降,但自9月以來又開始反彈——可能是因為高中生和大學生暑假結束,回到學校了。
去年的這個時候,很多人都在猜測ChatGPT是否會取代谷歌,很顯然,這件事還沒有發生。
而在兩周前,谷歌發布了ChatGPT的競爭對手——Gemini。
2022年末ChatGPT發布的時候,人們對人工智能,尤其是2023年的生成式人工智能充滿了期待。
你可以讓ChatGPT用Johnny Cash的風格寫一首關于自動駕駛汽車的歌:
Ridin’ solo, but I’m never alone,
Got my AI ridin’ shotgun, steady as a stone.
On the endless road, under the sky so vast,
A ghost driver at the wheel, footprints of the past.
獨自騎行,但我從不孤單,
我的人工智能像石頭?樣穩如泰山。
在無盡的道路上,在遼闊的天空下、
一個幽靈司機駕駛著方向盤,留下了過去的腳印。
如果讓他換成Giuseppe Verdi的風格,ChatGPT會展示出男高音歌唱的場景:
Ecco la carrozza senza cavallo!(看,沒有馬的馬車?。?/span>
Scivola nella notte, silenziosa come il fato.(它在黑夜中滑行,像命運?樣無聲無息)
L'ingegno dell'uomo, l'orgoglio del progresso.(人類的智慧,進步的驕傲)
In questa danza d'acciaio, tessiamo il nostro destino.(在這支鋼舞中,我們編織自己的命運)
上面這張圖展示了自ChatGPT發布以來,谷歌趨勢對AI和ChatGPT的關注情況。
我們可能聽說過「人工智能寒冬」的那個年代,但今年,風險投資公司向生成式人工智能投資了超過360億美元。
毫無疑問,2023年是人工智能的盛夏。
一月份,人們開始探索ChatGPT的功能。很快,大家意識到不同的提問方式(「提示」)會導致不同的答案。
于是,「提示工程」悄然興起。
連大佬也感慨道,最熱門的新編程語言是英語。
然而,當普通大眾還在為ChatGPT的能力驚嘆不已、探索不同的提示技術之時,研究人員并沒有休息。
2023年第一季度,許多?都感覺跟不上人工智能的發展速度:
2月底,Meta發布了LLaMA,
緊接著,AI21 Labs發布了Jurassic-2,
OpenAI發布了GPT-4,
Anthropic發布了Claude,
技術創新研究所(Technology Innovation Institute)發布了Falcon-40B,
谷歌發布了Bard,
連彭博也發布了自己的BloombergGPT。
隨著開發?員熟悉了ChatGPT的玩法,他們開始構想可以利用LLM做些什么,——于是,求職信生成器、YouTube摘要、定制的聊天機器?等應用紛紛出現。
與傳統的機器學習模型相比,大語言模型使開發?員能夠通過簡單的 API 調用來訪問其功能。這改變了開發人員構建人工智能應用程序的方式。
伴隨著這種快速構建人工智能應用程序的新方法,新的開發工具也陸續出現:
LangChain和LlamaIndex等框架引起了人們的極?興趣,這些框架使開發?員能夠快速、模塊化地使用LLM構建應用程序。
另外,可以實現語義搜索的矢量數據庫,又重新受到關注,因為開發人員發現,它也可以用來為LLM應用程序提供外部數據。
早在今年4月,實踐者們就開始將LLM應用程序投入生產過程中,并討論成本、延遲、幻覺以及前后兼容性等挑戰。
「用LLM做出很酷的東西很容易,但做出可投入生產的東西卻很難」。
在2023年,構建LLM系統的關鍵詞或許應該是:微調(fine-tuning)、檢索增強生成(retrieval-augmented generation,RAG)和評估(evaluation)。
從數據科學家的角度來看,微調是向神經網絡傳授新知識的首選技術,因此,微調是讓通用LLM訪問特定領域數據的第一種流行方法。
特別是隨著開源LLMs(如LLaMa-2)和高效LLMs微調技術(如QLora)的發布,LLMs的微調變得更容易為實踐者所接受。
上圖是谷歌趨勢對「RAG LLM」的興趣變化曲線,可以看出RAG在2023年7月左右成為熱門話題。
RAG將知識從LLM的推理能力中分離出來,存儲在外部數據庫中,這比使用微調功能時更容易更新。
然而,回顧2023年,我們可能會驚訝地發現,由LLM驅動的應用軟件少之又少。
畢竟,在生成式AI展現出自身性能的同時,也面臨著很多問題。
例如,谷歌的Bard「發明」了有關James Webb望遠鏡的信息。微軟的Bing堅稱歌手Billie Eilish參加了2023年超級碗中場秀。
而一位律師表示,他的聯邦法院辯護狀充滿了ChatGPT提供的虛假引文和捏造的司法意見。
雖然知道聊天機器人會犯錯,但高中生和大學生仍是聊天機器人最狂熱的使用者,他們使用聊天機器人來撰寫論文、完成問題集和編寫代碼。
對此,學校管理者也同樣矛盾,他們無法判斷聊天機器人到底是欺騙工具還是學習工具。
今年1月,紐約市學校校長David Banks禁止了ChatGPT,因為聊天機器? 「不能培養批判性思維和解決問題的能力」,
而在四個月后,David Banks又推翻了這一禁令,并表示自己「忽視了生成式人工智能在支持學生和教師方面的潛力」。
3月,OpenAI的聯合創始人Greg Brockman曾預測,未來的聊天機器?將幫助編寫電影劇本,并改寫觀眾不喜歡的場景。
而兩個月后,美國作家協會舉行了罷工,要求簽訂合同,保護人們免受人工智能生成的爛片之害。
9月,編劇們結束了罷工,電影公司放棄人工智能劇本,
同時,作家協會聯合一些著名小說家對OpenAI提起了集體訴訟。他們表示,OpenAI在未經同意的情況下,在訓練數據中使用了他們的版權作品。
雖然已經有?些生成式人工智能應用,如亞馬遜的產品摘要功能,但許多公司仍在試驗和評估其解決方案。
從這個意義上講,2023年也可以說是嘗試和了解生成式人工智能的一年。
對2024的期待
11月的時候,OpenAI宣布了一套新的產品,其中包括一個自建聊天機器?套件。
在新工具的幫助下,我們可以利用ChatGPT輕松創建一個聊天機器?。
它能確定哪些藥物不能一起服用,還能列出特定地點所有滿足特定條件的餐廳。
制作這些聊天機器人的方法既直觀又簡單,——但我們對驅動它們的算法、訓練數據的來源、以及聊天機器人生成的信息是否準確都一無所知。
我們也不知道自己使用了多少計算能力,對環境造成了多大影響。
未來,生成式人工智能的商業發展可能會有增無減。人工智能將影響越來越多的復雜活動,如放射學、藥物研發、心理治療、招聘和大學錄取等。科技公司也將在下一代硬件中植入人工智能。
也許在2024年,生成式人工智能解決方案將真正投入生產。
——我們會在生活中遇到越來越多的由LLM驅動的功能。
許多框架、度量標準和范式將不斷發展,如何評估和監控由LLM驅動的應用,會成為一個更熱門的討論話題。
人們將學會如何正確衡量RAG、問答系統和聊天機器人的性能,并有可能會找到改善性能的新技術。
隨著這些生成式人工智能系統性能的成熟,將有越來越多的生成式人工智能應用,來幫助我們提高生產效率和改善用戶體驗。
另外,減少數據泄漏和保護敏感數據這一話題也將變得比以往更加重要。
可以肯定的是,2024年將會發生很多變化。而現在,正是積累經驗的好時機。