推薦八個驚艷的 Github 開源項目
大家好,我是Echa。
小編利用五一這個小長假,陪家人的同時也是想著友友你們,想著給你們多找點優秀資源、實用的工具、驚艷的開源項目。小編發的每天優質文章,希望能給友友們多學點知識點,多學點新技能,多接私活多賺外快。不管是從技術深度到技術廣度這塊,都會讓大家受益匪淺。
今天小編繼續分享8個驚艷的 Github 開源項目,希望對大家有所幫助和收獲。下面就詳細介紹:
全文大綱
- Fay-是一個數字人開源項目
- bark-一個基于轉換器的文本到音頻模型
- ChatGLM-6B-支持中英雙語的對話語言模型
- law-cn-ai-這個開源項目被稱為你的 AI 法律助手的開源項目
- gpt4-pdf-chatbot-langchain 針對 PDF 文件構建的 GPT 機器人
- MOSS-國內首個對話式大語言模型開源
- SQL Chat 是一個基于聊天的 SQL 客戶端
- DeepFloyd IF-這是一種新穎的最先進的開源文本到圖像模型
Fay
Github:https://github.com/TheRamU/Fay
Fay是一個完整的開源項目,包含Fay控制器及數字人模型,可靈活組合出不同的應用場景:虛擬主播、現場推銷貨、商品導購、語音助理、遠程語音助理、數字人互動、數字人面試官及心理測評、賈維斯、Her。
開發人員可以利用該項目簡單地構建各種類型的數字人或數字助理。該項目各模塊之間耦合度非常低,包括聲音來源、語音識別、情緒分析、NLP處理、情緒語音合成、語音輸出和表情動作輸出等模塊。每個模塊都可以輕松地更換。
Fay控制器用途
Fay控制器核心邏輯
Fay控制器核心邏輯
使用說明
- 抖音虛擬主播:啟動bin/Release_2.85/2.85.exe + fay控制器(抖音輸入源開啟、展板播放關閉)+ 數字人 + 抖音伴侶(測試時直接通過瀏覽器打開別人的直播間);
- 現場推銷貨:fay控制器(展板播放關閉、填寫商品信息)+ 數字人;
- 商品導購:fay控制器(麥克風輸入源開啟、展板播放關閉、填寫商品信息、填寫商品Q&A)+ 數字人;
- 語音助理:fay控制器(麥克風輸入源開啟、展板播放開啟);
- 遠程語音助理:fay控制器(展板播放關閉)+ 遠程設備接入;
- 數字人互動:fay控制器(麥克風輸入源開啟、展板播放關閉、填寫性格Q&A)+ 數字人;
- 數字人面試官及心理測評:聯系免費領取;
- 賈維斯、Her:加入我們一起完成。
語音指令
- 關閉核心 關閉 再見 你走吧
- 靜音 靜音 閉嘴 我想靜靜
- 取消靜音 取消靜音 你在哪呢? 你可以說話了
- 播放歌曲(網易音樂庫不可用,尋找替代中) 播放歌曲 播放音樂 唱首歌 放首歌 聽音樂 你會唱歌嗎?
- 暫停播放 暫停播放 別唱了 我不想聽了
圖形界面
bark
Github: https://github.com/suno-ai/bark
Bark是由Suno創建的一個基于轉換器的文本到音頻模型。Bark可以生成高度逼真的多語言語音以及其他音頻,包括音樂、背景噪音和簡單的音效。該模型還可以產生非語言交流,如大笑、嘆息和哭泣。為了支持研究社區,我們正在提供對預先訓練的模型檢查點的訪問,以便進行推理。
ChatGLM-6B
Github: https://github.com/THUDM/ChatGLM-6B
ChatGLM-6B 是一個開源的、支持中英雙語的對話語言模型,基于 General Language Model (GLM) 架構,具有 62 億參數。結合模型量化技術,用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低只需 6GB 顯存)。
ChatGLM-6B 使用了和 ChatGPT 相似的技術,針對中文問答和對話進行了優化。經過約 1T 標識符的中英雙語訓練,輔以監督微調、反饋自助、人類反饋強化學習等技術的加持,62 億參數的 ChatGLM-6B 已經能生成相當符合人類偏好的回答。
為了方便下游開發者針對自己的應用場景定制模型,我們同時實現了基于 P-Tuning v2 的高效參數微調方法 (使用指南) ,INT4 量化級別下最低只需 7GB 顯存即刻啟動微調。
不過,由于 ChatGLM-6B 的規模較小,目前已知其具有相當多的局限性,如事實性/數學邏輯錯誤,可能生成有害/有偏見內容,較弱的上下文能力,自我認知混亂,以及對英文指示生成與中文指示完全矛盾的內容。請大家在使用前了解這些問題,以免產生誤解。更大的基于 1300 億參數 GLM-130B 的 ChatGLM 正在內測開發中。
ChatGLM-6B Github 主頁
law-cn-ai
官網:https://law-cn-ai.vercel.app/
Github: https://github.com/lvwzhen/law-cn-ai
這個開源項目被稱為你的 AI 法律助手的開源項目,通過分析大量的法律文件,通過你的問題給出答案。
但該開源項目不是完全基于大模型去輸出結果,而是將法律知識庫進行預處理,通過向量相似性搜索來去庫中匹配相似性更高的答案,將內容輸入到 GPT 中進行補全,最終將結果輸出到客戶端。
如下圖:
gpt4-pdf-chatbot-langchain
Github: https://github.com/mayooear/gpt4-pdf-chatbot-langchain
針對 PDF 文件構建的 GPT 機器人,上傳你的 PDF 文件,使用的技術堆棧包括 LangChain、Pinecone、Typescript、Openai 和 Next.js。
基于 Open AI 和 LangChain,可以分析 PDF 文檔中的文字和內容,通過 embedding API 生成向量,然后存儲到數據庫中。
最后做成類似于 ChatGPT 的機器人,通過機器人快速的進行查詢、輸出答案。
MOSS
官網:https://txsun1997.github.io/blogs/moss.html
Github: https://github.com/OpenLMLab/MOSS
國內首個對話式大語言模型開源了!復旦大學發布的大模型 MOSS 正式開源,相關代碼、數據、模型參數已在 Github 平臺開放,供科研人員下載。
MOSS是一個支持中英雙語和多種插件的開源對話語言模型,moss-moon系列模型具有160億參數,在FP16精度下可在單張A100/A800或兩張3090顯卡運行,在INT4/8精度下可在單張3090顯卡運行。MOSS基座語言模型在約七千億中英文以及代碼單詞上預訓練得到,后續經過對話指令微調、插件增強學習和人類偏好訓練具備多輪對話能力及使用多種插件的能力。
局限性:由于模型參數量較小和自回歸生成范式,MOSS仍然可能生成包含事實性錯誤的誤導性回復或包含偏見/歧視的有害內容,請謹慎鑒別和使用MOSS生成的內容,請勿將MOSS生成的有害內容傳播至互聯網。若產生不良后果,由傳播者自負。
SQL Chat
官網: https://sqlchat.ai/
Github: https://github.com/sqlchat/sqlchat
SQL Chat 是一個基于聊天的 SQL 客戶端,你可以像聊天一樣,問數據庫一些問題,讓機器人幫你查詢一些數據
DeepFloyd IF
Github: https://github.com/deep-floyd/IF
這個開源項目有什么稀奇的?AI 畫圖不是已經有很多產品或者開源項目了嗎?還真不是,像我們使用的 Midjourney 等畫圖軟件,是沒辦法生成準確的文字的。
但是文字是海報上不可或缺的元素,于是 Stability AI 旗下的獨立研發團隊 DeepFloyd AI Research 開源了這個開源項目,這個項目能準確繪制文字,但目前不支持中文。
官方介紹了DeepFloyd IF,這是一種新穎的最先進的開源文本到圖像模型,具有高度的照片真實性和語言理解能力。
DeepFloyd IF是一個由凍結文本編碼器和三個級聯像素擴散模塊組成的模塊:一個基于文本提示生成64x64像素圖像的基本模型和兩個超分辨率模型,每個模型都設計用于生成分辨率不斷提高的圖像:256x256像素和1024x1024像素。
模型的所有階段都使用基于T5轉換器的凍結文本編碼器來提取文本嵌入,然后將其輸入到通過交叉注意力和注意力池增強的UNet架構中。結果是一個高效的模型,其性能優于當前最先進的模型,在COCO數據集上實現了6.66的零樣本FID得分。我們的工作強調了更大的UNet架構在級聯擴散模型的第一階段的潛力,并描繪了文本到圖像合成的前景。
最后
一臺電腦,一個鍵盤,盡情揮灑智慧的人生;幾行數字,幾個字母,認真編寫生活的美好;
一 個靈感,一段程序,推動科技進步,促進社會發展。