3個月超3000次實驗 虎博發布開源國產大模型
3個月就能研發并上線大模型?這不是不可能,而且誕生于一只僅有10人的小項目團隊。
這家公司是國內的一家創業公司——虎博科技,他們在短短3個月內,研發出首款自研大模型Tigerbot,并同步開源,同時發布了大模型應用開發所需的全套 API及多領域專業數據。
(開源地址:https://github.com/TigerResearch/TigerBot )
據了解,虎博科技成立于2017年,其專注于深度學習和NLP技術的研究和應用得到了廣泛認可。此次發布并開源其自研大模型TigerBot,標志著這家專注于深度學習和自然語言處理技術的算法公司在大模型研發領域取得了重要突破。
虎博科技創始人兼CEO陳燁表示,在大模型研發方面,虎博團隊借鑒了硅谷的經典"車庫創業"模式,最初的團隊規模只有5個人,而陳燁本人同時擔任首席程序員和首席AI科學家的角色。終于,在歷經3 個月的封閉式開發和超過 3000 次實驗后,迭代出第一個 MVP (最小可行性模型),其表現效果堪比同規模大小的OpenAI的96%,且在推理式問答等個別領域表現尤其亮眼。
在陳燁眼中,頂尖團隊不一定需要龐大的規模,但每個人技術都必須過硬,“我們的核心研發團隊始終保持在4-5人,并保持著密切的合作狀態?!敝钡酱竽P桶l布前夕,這個小團隊也不過10人而已。
過去三個月中,虎博科技主要基于 GPT 和 BLOOM 兩個開源模型基礎上,在模型架構和算法上做了一系列優化,特別是原創了監督和微調方法,使大模型在事實性和創造性兩方面有了顯著突破,解決了大模型“胡說八道”的問題?!皬恼麄€技術角度來說,監督微調的方法是大模型這件事的核心,能夠影響模型效果的七到八成",陳燁分享道。
為了使模型更懂中文指令,虎博科技還從分詞器(Tokenizer)到訓練算法等方面做了優化,直接賦予了問答結果更多中國文化屬性。
在并行訓練上,虎博的大模型團隊也突破了 deep-speed 等主流框架中若干內存和通信問題,使得在千卡環境下,可實現訓練數月而不間斷,極大加速了模型迭代速度。
由于虎博科技這只創業團隊秉持了科學創新無國界無階層的理念,從研發之初,他們就選擇了開源這條路,使得Tigerbot成為業內少有的開源大模型。
據悉,虎博大模型Tigerbot在模型、代碼、數據三部分內容與廣大開發者實現資源共享,包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多個模型版本;基本訓練且覆蓋雙卡推理 180B 模型的量化和推理代碼;以及達 100G 的預訓練數據、監督微調 1G/100 萬條數據。值得一提的是,開源版本中,TigerBot-7B-base的綜合表現優于同等可比的OpenAI和BLOOM,TigerBot-180B-research 的參數量達1800億,或是目前業內最大的大規模語言模型,而高達100G的預訓練數據,更被視為目前業內最大且質量最優的開源預訓練數據之一。
虎博科技還將發布大模型應用開發所需的全套API,包括對話(Chat)、插件(Plug-ins)、微調(Fine-Tunes)等,同步共享專業領域數據,涵蓋金融,法律,百科等,以期與大模型應用開發者,一起打造中國的世界級的應用。
目前,Tigerbo已經包含大部分生成和理解類的能力,如營銷文案、評論、新聞稿等內容生產創作、文到圖插圖創作、數學題解題、寫生成、做表格、文本理解等多項功能。未來,虎博科技還將持續投入大模型的研發和落地,或會推出研究助手 TigerDoc、文創和營銷工具等大模型應用及面向個人用戶的類助手產品。