北交大開源交通大模型TransGPT·致遠,可免費商用
火熱了半年多,國內大模型領域迎來中場戰事,眼下入場的包括在垂直領域深耕多年的機構、企業,開始借助行業特色優勢打入大模型戰場。
近日,北京交通大學聯合中國計算機學會智慧交通分會與足智多模公司等正式發布、開源了自主研發的國內首款綜合交通大模型 ——TransGPT?致遠。
項目地址:https://github.com/DUOMO/TransGPT
TransGPT?致遠的訓練基于約 34.6 萬條交通領域文本數據(用于領域內預訓練)和 5.8 萬條交通領域對話數據(用于微調),可支持實時類 APP 接入(地圖、公交等應用)。目前,TransGPT?致遠已開源,相關資源不僅對學術研究完全開放,僅需郵件申請并獲得官方商用許可后,即可以免費商用。
與通用型的多模態交通大模型產品不同,TransGPT 主要致力于在真實交通場景中發揮實際價值,包括交通情況預測、智能咨詢助手、公共交通服務、交通規劃設計、交通安全教育、協助管理、交通事故報告和分析、自動駕駛輔助系統等能力。
功能特色
「TransGPT 綜合交通大模型」的主要功能和特色如下:
1. 交通安全教育:交通大模型可以用于生成交通安全教育材料,如安全駕駛的建議、交通規則的解釋等。
2. 智能出行助手:在車輛中的智能助手可以使用大型交通大模型來理解和生成更自然、更復雜的對話,幫助駕駛者獲取路線信息、交通更新、天氣預報等。自動回答關于公共交通服務的問題,如車次、票價、路線等。這可以提高服務效率并提升乘客體驗。
3. 智能交通管理:通過實時監測和分析車輛、道路、信號燈等信息,協助智能協調交通流量,減少交通擁堵。分析社交媒體或新聞報道中的文本信息,預測交通流量、交通堵塞或事故的可能性。同時,該模型能分析交通事故歷史和特征,給出相應對策和方案,減少交通事故的發生。
4. 智能交通規劃:交通大模型可以幫助分析公眾對于交通規劃提案的反饋和意見,提供決策者更全面的信息。
5. 交通事故報告和分析:交通大模型可以幫助快速理解和分類交通事故報告,提供事故原因的初步分析。
6. 交通政策研究:大型交通大模型可以用于分析公眾對于交通政策的反饋,或者生成關于交通政策影響的報告。這可以幫助政策制定者更好地了解政策的實際效果。
TransGPT 交通大模型已經具備面向 BIM 模型審核員、智能運維、智能咨詢等場景的應用落地能力,將大幅度促進鐵路工程等數字化轉型和智能化提升。韓文娟團隊介紹,交通大模型采用了基于 Transformer 架構的文本大模型、多模態大模型與實時場景數據調用能力,整體上形成綜合交通大模型為基礎設施、輔以交通細分行業應用的架構。支持實時類應用,包括:駕車規劃、公共交通規劃、(逆)地理編碼查詢等落地場景應用能力,能夠促進鐵路交通等領域的數字化轉型和智能化提升。
數據
TransGPT 背后團隊北京交通大學長期深耕交通主賽道,形成了數據壁壘,因而對于構建綜合交通大模型有很多先天優勢,其數據內容覆蓋以下交通行業:
數據來源包含以下方面:
模型
目前已開源內容包括:
- 模型 TransGPT
- 數據集 TransGPT-DATA-sft (可商用)
- 數據集 TransGPT-DATA-pt (可商用)
語言模型
研究者基于 chinese-alpaca-plus-7b-hf 模型框架訓練了綜合交通大模型的語言模型版本。實現了包括通用領域預訓練、交通領域內預訓練、有監督微調、獎勵建模、強化學習訓練。
交通領域的訓練過程如下:
1. 從原始 pdf、docx,doc 格式文件中提取文本
2. 利用 LLM 根據文檔生成對話數據(微調對話數據生成方法見 LLMforDialogDataGenerate)
3.pt 訓練代碼見 supervised_finetuning.py。
4.sft 訓練代碼見 supervised_finetuning.py。
多模態模型
在多模態復雜場景中,圖片和文本的細粒度對應是一項挑戰,特別是在存在多個圖像且圖像的順序、絕對位置和相對位置至關重要的復雜環境中。為了準確地指示圖像位置,區別圖像表征和文本表征,研究者使用了圖像標志(image token,即 <\image n>),并且模型允許多圖像輸入(<\image 1>、<\image 2>))。
為了充分利用 LLM 的優勢,研究者利用強大的 LLM(Vicuna)作為骨干。訓練過程中凍結語言模型(LLM)和視覺編碼器(visual encoder)的參數,解凍 LLM 和 visual encoder 之間的連接模塊(Q-former)的參數,并在交通領域數據集上對其進行微調。從而既能利用 LLM 和 visual encoder 預訓練的知識,同時使其適應交通多模態場景中的特定需求。
多模態模型訓練包括三步:
1. 預訓練:預訓練的視覺編碼器和 LLM 都保持凍結,只有 Q-Former 需要學習與文本最相關的視覺表示,并由 LLM 通過類似 LAION-400M 的訓練進行解釋。
2. 多模態指令微調:執行多模態指令微調以提高 VLM 的性能,類似 [InstructBLIP](https://github.com/salesforce/LAVIS/projects/instructblip)。
3. 多模態上下文指令微調:進一步在數據集中執行多模態上下文指令微調,以激活處理 VLM 的多圖像輸入的能力。這個階段使其能夠充分激發多模態環境中 LLM 令人印象深刻的推理潛力。
評測
研究者在交通 benchmark 上進行了 zero-shot 評測:
1. 交通安全教育:生成交通安全教育材料,如安全駕駛的建議、交通規則的解釋等。
2. 交通情況預測:分析社交媒體或新聞報道中的文本信息,預測交通流量、交通堵塞或事故的可能性。
3. 事故報告和分析:理解交通事故報告,提供事故原因的初步分析。
4. 交通規劃:分析公眾對于交通規劃提案的反饋和意見,提供決策者更全面的信息。
寫在最后
以交通行業大模型為關鍵驅動,TransGPT 運用現代信息技術,集成感知、通信、控制、決策、協同等功能,實現交通設施、交通運輸工具、交通管理和交通服務的智能化,賦能行業生產效率和服務質量提升,將會推動交通行業的深刻變革。實際應用行業場景的反饋,又將進一步加速交通行業大模型的技術迭代,從而提高國產交通大模型的競爭力。「TransGPT 綜合交通大模型」可化身為「交通行業專家、工程師」,與交通行業政策制定者、執行者、工程師、運維人員、普通用戶進行交流合作,提供支撐輔助能力,協助其分析解決方法并提供決策建議。
此前,北京交通大學長期深耕交通主賽道,在人工智能交通行業大模型能力上已具備一定基礎,形成了一定的行業壁壘、數據壁壘、知識壁壘,逐步夯實了面向鐵路工程、道路工程、橋梁工程、隧道工程、公路運輸、水路運輸、城市公共交通運輸、交通運輸經濟、交通運輸安全等交通行業大模型優勢。
綜合交通大模型的誕生只是一個起點,其最終還是要落腳到特定細分的交通應用場景。未來,團隊將以 TransGPT 綜合交通大模型為基礎,打 造以交通知識大模型為中心、以實時信息為渠道,自主預測、提前預警、主動服務的交通一體化體系,為交通參與者提供多樣性的服務,從而使人、車、路之間的相互作用關系以新的方式呈現,從而實現實時、準確、高效、安全、節能的目標。