Hugging?Face是LLM新的GitHub
譯文譯者 | 李睿
審校 | 重樓
近年來,大型語言模型(LLM)席卷了科技行業,開辟了創新的新領域,顛覆了從搜索到客戶服務的一切。支持這場人工智能革命的是GitHub和Hugging Face這樣的開放生態系統,它使開發人員和企業能夠快速構建、部署和擴展LLM。就像GitHub已經成為軟件開發和協作的首選平臺一樣,Hugging Face現在正在成為所有與LLM相關事物的事實上的中心。
大型語言模型的興起
像GPT-3、BERT和PaLM這樣的LLM可以讓科技界發揮自己的想象力,它們能夠生成類似人類的文本、回答問題、總結文檔,甚至根據簡單的文本提示編寫代碼。根據麥肯錫公司發布的一份研究報告,專注于LLM的自然語言處理初創公司的投資從2020年的1億美元激增至2021年的15億美元以上。
這種興趣激增源于LLM在應對各種人工智能挑戰方面的多功能性。例如,OpenAI公司的ChatGPT擅長于會話任務,而像Cohere的生成式自然語言處理API這樣的工具可以總結文本并調節內容。LLM正在改變企業的運營方式,推動從智能搜索到自動化客戶支持的各方面的進步。
麥肯錫公司估計,到2025年,LLM將在美國經濟中每年創造2000億至3000億美元的經濟價值。谷歌、Meta和微軟等美國科技巨頭以及初創公司都在競相挖掘LLM的潛力。但是在LLM上構建、部署和迭代需要專門的基礎設施和工具。
GitHub在軟件協作中的關鍵作用
為了理解Hugging Face作為LLM中心日益重要的意義,可以了解GitHub在軟件開發中扮演的不可或缺的角色。GitHub于2008年推出,是用于版本控制和源代碼管理的開源Git協議的先驅。
如今,GitHub擁有2億多個代碼庫和8300萬多名開發人員。它為開發人員提供了協作、審查代碼、跟蹤問題和發布軟件的工具。GitHub已經成為軟件團隊運作不可或缺的一部分,微軟公司在2018年以75億美元收購GitHub就是一個例子。
根據StackOverflow在2021年調查顯示,90%以上的開發人員使用GitHub。該平臺的社交編碼能力打破了軟件開發中的障礙。開發人員可以利用開源項目來加速構建。而企業使用GitHub的企業產品來簡化編碼工作流程。GitHub深深植根于開發者文化,塑造了軟件社區創建、擴展和部署代碼的方式。
Hugging Face成為LLM的首選平臺
就像GitHub推動了開源開發一樣,Hugging Face正在引領LLM的開放生態系統方法。Hugging Face成立于2016年,最初專注于自然語言處理。在2020年,它轉向LLM并創建了Transformer庫,該庫將不同的LLM架構(例如BERT和GPT-2)與標準化API統一起來。
這個庫通過抽象掉與LLM一起工作的復雜性,使LLM的訪問民主化。如今,Hugging Face已經成為一個擁有20多萬用戶的充滿活力的社區。其主要產品有:
- 模型中心:超過10萬個人工智能模型的存儲庫,包括OpenAI公司的CLIP和Salesforce公司的BLENDER等LLM。它降低了使用LLM的門檻。
- 標記器:預訓練模型用于標記和編碼LLM文本。對數據預處理至關重要。
- 數據集:精心策劃的數據集,用于培訓和評估LLM。
- Spaces:用于部署、監控和擴展LLM驅動的應用程序的一個MLOps平臺。
- Infinite:基于GPT模型的維基風格數據集,用于生成自然語言查詢的答案。
這套工具解決了LLM從發現到部署的整個開發生命周期。Hugging Face還構建了與Streamlight等平臺的集成,實現了無代碼LLM的實驗。
到目前為止,Hugging Face已經籌集了1億美元的資金,這反映了其日益飆升的知名度。去年,Hugging Face的估值翻了五倍,達到20億美元。國際頂級人工智能實驗室和公司也在與Hugging Face合作。
LLM的GitHub
Hugging Face龐大的模型、數據集和開發工具中心為它贏得了“LLM GitHub”的綽號。它的模型中心是任何想要與LLM合作的人的起點。開發人員可以在其網站上找到Meta AI的OPT-175B等模型的優化實現。
然后,他們可以通過Hugging Face的Transformers庫無縫訪問這些模型。這大幅降低了使用先進LLM的門檻,企業不再需要從頭開始構建自己的LLM。與其相反,他們可以采用Hugging Face預先設定的LLM,并對其進行微調,以適應搜索和分析等領域的定制用例。
Spaces支持協作構建、測試和部署LLM應用程序。結合Hugging Face的開放數據集和活躍的社區論壇,它復制了GitHub為LLM量身定制的開源精神的核心元素。
美國一家大型科技公司的機器學習工程師Leo Zhao總結了Hugging Face在LLM工作流程中的融入:“每當我們需要一個新項目的LLM時,Hugging Face是我們所到的第一站。它們的模型中心有大量的選項可供選擇。只需幾行代碼,我們就可以立即標記并將數據提供給模型。Spaces使得在GPU集群上縮放模型訓練變得容易。它確實是一個與LLM相關的一站式平臺。”
GitHub的類比也適用于Hugging Face如何圍繞LLM培養協作社區。它的技術論壇已經成為數以萬計的LLM開發人員和用戶的重要知識和支持來源。Hugging Face通過其廣受歡迎的LLM會議進一步培養了這個社區,使最新進展的訪問民主化。
克服LLM采用的挑戰
事實證明,Hugging Face在幫助企業克服采用LLM的關鍵障礙方面發揮了重要作用。根據麥肯錫公司進行的一項研究,企業在LLM方面面臨的最大挑戰是評估價值和確定用例。Hugging Face通過集中廣泛的LLM選擇和推薦的微調數據集來緩解這一問題。
此外,將LLM投入生產會帶來復雜的數據和基礎設施問題。Hugging Face的端到端平臺從模型訪問到部署,為企業掃清了這些障礙。
大規模構建和運行LLM所需的財務投資也阻礙了LLM的采用。Hugging Face通過提供易于訪問的預訓練模型來降低成本。Space通過其無服務器架構和對可擴展云計算硬件(例如TPU)的支持進一步優化了支出。對于規模較小的團隊和初創公司來說,這可以使大型LLM實驗變得可行。
用LLM改變未來
展望未來, Hugging Face似乎有望繼續發展成為LLM的中心。它的社區已經超過了流行的人工智能論壇。越來越多的開發人員和企業在他們的生產管道中依賴于像Transformers庫和Tokenizers這樣的工具。
LLM將推動市場營銷、銷售和財務等領域發生翻天覆地的變化。麥肯錫公司預計,LLM可以將30%至45%的當前工作活動實現自動化,從而產生重大的社會影響。像Hugging Face這樣降低LLM創新門檻的平臺,將是實現其變革潛力的核心。
就像GitHub加速了軟件工程一樣,Hugging Face使開發人員和企業能夠更快速、更有效地利用LLM的能力。對于日益增長的LLM驅動的經濟來說,Hugging Face代表著通往未來的大門。它的綜合平臺可以催化新市場,開啟人類與人工智能的大規模合作,開創下一個技術進步的時代。
原文標題:Hugging Face Is the New GitHub for LLMs,作者:Arvind Bhardwaj