Falcon LLM:開源LLM領域的新王者
譯文譯者 | 布加迪
審校 | 重樓
每周都有新的大語言模型(LLM)出現,越來越多的聊天機器人可供我們使用。然而,很難找出哪一個LLM是最好的、每一個LLM方面的進展以及哪一個LLM最有用。
HuggingFace有一個開放的LLM排行榜,負責跟蹤、評估和排名新發布的LLM。它使用一個獨特的框架來測試生成式語言模型處理不同評估任務的表現。
之前,LLaMA(大語言模型Meta人工智能)在排行榜上名列前茅,但最近已被一個新的預訓練LLM:Falcon 40B所取代。
關于科技創新研究所
Falcon LLM由科技創新研究所(TII)創立和開發,該公司隸屬阿布扎比政府先進技術研究委員會。政府監督整個阿聯酋的技術研究,該研究所的科學家、研究人員和工程師團隊專注于提供變革性技術和科學發現。
Falcon 40B簡介
Falcon-40B是一個具有400億個參數的基礎LLM,在一萬億token上進行訓練。Falcon 40B是一種自回歸純解碼器模型。自回歸純解碼器模型意味著該模型經過訓練,可以在給定前一個token的序列中預測下一個token。GPT模型就是一種典型的自回歸純解碼器模型。
結果證明,Falcon的架構在訓練計算預算僅為GPT-3 75%的情況下上明顯優于GPT-3,而且只在推理時需要計算。
大規模的數據質量是科技創新研究所團隊關注的一個重要方向,因為我們知道LLM對訓練數據的質量非常敏感。該團隊建立了一條數據管道,可以擴展到數萬個CPU核心,以進行快速處理,并能夠使用廣泛的過濾和重復數據刪除從網上提取高質量的內容。
科技創新研究所還有另一個簡化版:Falcon-7B,它有70億個參數,在15000億個token上訓練。如果你在尋找一個隨時可用的聊天模型,可以使用Falcon-40B-Instruct和Falcon-7B-Instruct。
Falcon 40B能做什么?
與其他LLM相似,Falcon 40B可以:
- 生成創意內容
- 解決復雜問題
- 客戶服務運作
- 提供虛擬助手
- 提供語言翻譯
- 提供情緒分析
- 減少和自動化“重復性”工作
- 幫助阿聯酋公司提高效率
Falcon 40B是如何訓練的?
在兩個多月的時間里,它在1萬億個token上進行訓練,在AWS上使用384個GPU,并在RefinedWeb的10000億token上進行訓練。其中,RefinedWeb是一個由TII構建的大型英語網絡數據集。
預訓練數據由來自網上的公共數據集合組成,使用CommonCrawl。該團隊經歷了一個徹底的過濾階段,刪除了機器生成的文本和成人內容,并進行了重復數據刪除,以生成一個擁有近5萬億個token的預訓練數據集。
RefinedWeb數據集建立在CommonCrawl之上,顯示模型比在精選數據集上進行訓練的模型具有更好的性能。RefinedWeb也是對多模態友好的。
Falcon LLM已開源
他們已向公眾開放了Falcon LLM的源代碼,使Falcon 40B和7B更容易被研究人員和開發人員使用,它是基于Apache許可證2.0版本發布的。
該LLM曾經只用于研究和商業用途,現在已經開源,以滿足全球全面獲取AI的需求。由于阿聯酋致力于改變AI領域的挑戰和極限,因此它沒有商業使用限制方面的版稅。
Apache 2.0旨在AI領域促進一個協作、創新和共享知識的生態系統,確保了開源軟件的安全性。
如何使用Falcon- 7B Instruct LLM?
如果您想試試簡化版的Falcon-40B,它更適合聊天機器人風格的通用指令,不妨先使用Falcon-7B。
讓我們開始吧。
如果還沒有安裝,請安裝以下軟件包:
!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers
一旦您安裝了這些軟件包,就可以繼續運行為Falcon 7B Instruct提供的代碼:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
sequences = pipeline(
"Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
max_length=200,
do_sample=True,
top_k=10,
num_return_sequences=1,
eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
結語
作為目前最好的開源模型,Falcon摘得了LLaMA的桂冠,人們驚嘆于其強大的優化架構、采用獨特許可證的開源以及40B和7B參數這兩種規格。
原文標題:Falcon LLM: The New King of Open-Source LLMs,作者:Nisha Arya