融匯14個AI工具構建完美應用原創

51CTO內容精選

發布于 2024-4-24 09:15

瀏覽

0收藏

上篇：??融匯11款AI工具構建完美應用??

如您所見，人工智能（AI）應用在近年來得到了長足的發展。從語音助手到軟件開發，人工智能已在我們的生活中無處不在，并得到了廣泛應用。下面，我將為您介紹25個開源項目，您可以用它們來制作自己的人工智能應用程序，并使其更上一層樓。

12.Stable Diffusion -一種潛在的文本到圖像的擴散模型

融匯14個AI工具構建完美應用-AI.x社區

作為一種在生成模型中常被用到的技術，Stable Diffusion（https://github.com/CompVis/stable-diffusion）在文本到圖像的合成中，能夠將信息從文本描述逐步平穩地轉移到圖像。

在文本到圖像的擴散模型中，Stable Diffusion可以確保來自文本的描述信息，在整個模型的潛空間中持續擴散或傳播。這種擴散過程有助于生成與給定文本輸入一致的高質量逼真圖像。可見，穩定的擴散機制可以確保模型在生成過程中，不會出現突然的跳躍或不穩定情況。

如下代碼段展示的是使用擴散器庫（https://github.com/huggingface/diffusers/tree/main#new--stable-diffusion-is-now-fully-compatible-with-diffusers）下載和采樣Stable Diffusion的簡單方法：

# make sure you're logged in with `huggingface-cli login`
from torch import autocast
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4", 
use_auth_token=True
).to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
image = pipe(prompt)["sample"][0]  

image.save("astronaut_rides_horse.png")

通過鏈接--https://github.com/CompVis/stable-diffusion?tab=readme-ov-file#image-modification-with-stable-diffusion，您可以了解更多有關如何利用Stable Diffusion修改圖像的方法。例如，根據下圖的輸入：

融匯14個AI工具構建完美應用-AI.x社區

能夠輸出如下的提升效果：

融匯14個AI工具構建完美應用-AI.x社區

Stable Diffusion v1是一種特定的模型配置。它采用了860M UNet和CLIP ViT-L/14文本編碼器來建立擴散模型，并使用降采樣因子為8的自動編碼器。該模型在256x256圖像上進行了預訓練，隨后在512x512圖像上進行了微調。

目前，Stable Diffusion在GitHub代碼庫中擁有約六萬四千多顆星。

13.MocapDrones-用于室內跟蹤的低成本動作捕捉系統

融匯14個AI工具構建完美應用-AI.x社區

由于Mocap Drones（https://github.com/jyjblrd/Mocap-Drones）項目需要使用 SFM（結構源于運動）的OpenCV模塊，因此需要從源代碼編譯OpenCV。

在其computer_code目錄下運行如下命令，您可以安裝各個節點依賴項。

yarn install
yarn run dev // to start the web server.

完成后，您將可以看到其前臺界面的URL視圖。

接著，您可以打開一個單獨的終端窗口，運行python3 api/index.py命令，以啟動后端服務器。該服務器負責接收攝像頭的數據流，并執行動作捕捉的相關計算。其邏輯結構如下圖所示：

融匯14個AI工具構建完美應用-AI.x社區

若要了解Mocap drones的工作原理，您可以觀看視頻鏈接--https://www.youtube.com/watch?v=0ql20JKrscQ。此外，您還可以閱讀其官方文檔--https://github.com/jyjblrd/Mocap-Drones?tab=readme-ov-file#runing-the-code。

目前，其最新開源項目在GitHub存儲庫中有九百多顆星。

14.Whisper Speech通過反轉Whisper建立從文本到語音的系統

融匯14個AI工具構建完美應用-AI.x社區

Whisper Speech（https://github.com/collabora/WhisperSpeech）模型與Stable Diffusion相似，但是常被用于語音轉換，且功能強大，可被高度定制。由于能夠確保僅使用得到適當許可的語音錄音，而且所有代碼都是開源的，因此該模型可以被安全地用于商業應用。當然，這些模型尚只在英語LibreLight數據集上得到了訓練。

您可以通過鏈接-- https://github.com/collabora/WhisperSpeech?tab=readme-ov-file#architecture，了解其架構信息。同時，您也可以通過鏈接-- https://github.com/collabora/WhisperSpeech/assets/107984/aa5a1e7e-dc94-481f-8863-b022c7fd7434，試聽其樣本聲音。

融匯14個AI工具構建完美應用-AI.x社區

目前，由于Whisper Speech推出時間不長，因此在GitHub上只有大約三千多顆星。

15.eSpeak NG -支持100多種語言和口音的語音合成器

融匯14個AI工具構建完美應用-AI.x社區

作為一款小巧的、開源的、從文本到語音的合成器，eSpeak NG（https://github.com/espeak-ng/espeak-ng）適用于Linux、Windows、Android、以及其他操作系統。由于是基于Jonathan Duddington創建的eSpeak引擎，因此它能夠支持100多種語言和口音。鑒于模型可以將文本轉化為音素代碼（phoneme codes），因此它具有作為語音合成引擎前端的潛在能力。

您可以閱讀其針對各種系統的安裝指南（https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md）。其中，對于Debian之類的發行版（如Ubuntu、Mint等）而言，您可以使用如下命令：

sudo apt-get install espeak-ng

通過鏈接-- https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md?，您可以查看其支持的語言列表，閱讀其官方文檔（https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#documentation），并查看其各項功能（https://github.com/espeak-ng/espeak-ng/tree/master?tab=readme-ov-file#features）。

目前，eSpeak NG在GitHub上有兩千七百多顆星。

16. ChatbotUI- 適用各種模型的AI聊天場景

融匯14個AI工具構建完美應用-AI.x社區

顧名思義，Chatbot UI（https://github.com/mckaywrigley/chatbot-ui）可以協助我們為各種AI聊天機器人設置用戶界面。您可以閱讀其安裝指南（https://github.com/mckaywrigley/chatbot-ui?tab=readme-ov-file#1-install-docker），來完成Docker和supabase CLI等安裝。

通過閱讀其文檔（https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh），并觀看演示程序（https://twitter.com/mckaywrigley/status/1738273242283151777?s=20），您會發現它其實使用的是Supabase（Postgres）。

目前，Chatbot UI在GitHub上擁有約兩萬五千多顆星。可見，它仍然是開發者為其聊天機器人構建用戶界面的首選。

17.GPT-4 & LangChain -用于大型PDF文檔的GPT4 & LangChain聊天機器人

融匯14個AI工具構建完美應用-AI.x社區

GPT-4 & LangChain（https://github.com/mayooear/gpt4-pdf-chatbot-langchain）使用LangChain、Pinecone、Typescript、OpenAI和Next.js構建。其中，LangChain是一個簡化的、可擴展的AI大模型應用和聊天機器人開發的框架。而Pinecone是一個向量存儲庫，可用于存儲各種嵌入和文本式PDF文件，以便日后檢索類似的文件。

該架構可被用于新的GPT-4 API，為多個大型PDF文件構建ChatGPT聊天機器人。您可以閱讀其開發指南（https://github.com/mayooear/gpt4-pdf-chatbot-langchain?tab=readme-ov-file#development），以了解克隆、安裝依賴項、以及設置環境API的密鑰。

目前，GPT-4 & LangChain在GitHub上擁有一萬四千多顆星，以及34次提交。

18.Amica -可讓你在瀏覽器中輕松地與3D角色聊天

融匯14個AI工具構建完美應用-AI.x社區

Amica（https://github.com/semperai/amica）是一個開源的界面，可用于與帶有語音合成和識別功能的3D動畫形象進行互動交流。

由于使用了three.js、OpenAI、Whisper、以及Bakllava for vision等技術，因此您可以導入各種VRM文件，調整語音以適應選中角色，并生成包含情感表達的回應文本。Amica使用Tauri（下文會介紹到）來構建桌面應用。您也可以通過閱讀《Amica是如何工作的（https://docs.heyamica.com/overview/how-amica-works）》，來了解其中涉及到的核心概念。

您可以克隆其存儲庫（repo）并使用如下命令以開始使用：

npm i 
npm run dev

當然，您也可以參考其演示視頻（https://amica.arbius.ai/）與相關文檔（https://docs.heyamica.com/）。

融匯14個AI工具構建完美應用-AI.x社區

目前，Amica在GitHub上有四百多顆星。

19. Hugging Face Transformers - Pytorch、TensorFlow和JAX的最先進機器學習

融匯14個AI工具構建完美應用-AI.x社區

Hugging Face Transformers（https://github.com/huggingface/transformers）可以為文本分類、語言生成、以及問題解答等任務，提供最先進的預訓練模型和算法。該庫建立在PyTorch和TensorFlow的基礎之上，允許用戶以最小的工作量，將高級的NLP功能無縫地集成到自己的應用中。

由于擁有大量預訓練模型和對應的支持性社區，因此Hugging Face Transformers簡化了基于NLP方案的開發。這些模型可用于執行與文本相關的任務，如：對100多種語言進行文本分類、信息提取、問題解答、摘要、翻譯以及文本生成。同時，它們也可以處理各種與圖像相關的任務，如：圖像分類、對象檢測和分割，語音識別，以及音頻分類等任務。此外，Hugging Face Transformers還可以對各種模型執行多任務處理，如：表格問題解答、光學字符識別（OCR）、從掃描文檔中提取信息、視頻分類、以及視覺問題解答等。

您不但可以通過鏈接-- https://huggingface.co/models了解更多可用的模型，而且能夠在文檔鏈接（https://huggingface.co/docs/transformers/task_summary）中查看到適合各種任務的完整目標和示例。如下代碼段展示了如何使用管道方法來進行圖像的分割：

from transformers import pipeline

segmenter = pipeline(task="image-segmentation")
preds = segmenter(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg"
)
preds = [{"score": round(pred["score"], 4), "label": pred["label"]} for pred in preds]
print(*preds, sep="\n")

如您所知，Transformers由三種最被廣泛使用的深度學習庫（即：Jax、PyTorch和TensorFlow）提供支持，它們之間實現了無縫的集成，因此這種集成可以使用一個庫去輕松地訓練模型，然后再將它們加載到另一個庫進行推理。

目前，Hugging Face Transformers在GitHub上擁有約十二萬多顆星，且被十四萬二千多開發人員所廣泛使用。

20.LLaMA - LLaMA模型的推理代碼

融匯14個AI工具構建完美應用-AI.x社區

作為Facebook研究中心開發的一項尖端技術，Llama 2(https://github.com/facebookresearch/llama)可以讓個人、創作者、研究人員和各種規模的企業，都能夠利用大模型進行實驗、創新、以及負責任地去擴展其想法。

Llama 2的最新版本包含了各種模型權重和啟動代碼，它們都是參數范圍從7B到70B的預訓練和微調的Llama語言模型。根據安裝指南--https://github.com/facebookresearch/llama?tab=readme-ov-file#quick-start，您可以遵循如下步驟來完成安裝：

克隆并下載軟件源。
安裝所需的依賴項。
注冊并從Meta網站處下載模型。
運行已提供的腳本下載模型。
使用已提供的命令在本地運行所需的模型。

您也可以在Hugging Face（https://huggingface.co/meta-llama）和Meta官方網頁（https://llama.meta.com/）上查看更多的模型名單信息。

目前，Llama在GitHub上有五萬多顆星。

21.Fonoster - Twilio的開源替代品

融匯14個AI工具構建完美應用-AI.x社區

作為一種創新的可編程電信棧，Fonoster(https://github.com/fonoster/fonoster)能夠為企業提供一種完全基于云的實用程序，以將電話服務與互聯網連接起來。

您可以根據不同的實現目標，以不同的方式開啟使用。例如，您可以使用如下npm命令：

npm install @fonoster/websdk
// CDN is also available

同時，您可以將Fonoster與Google Speech API結合起來使用 (當然，您需要有服務賬戶的密鑰）。

npm install @fonoster/googleasr @fonoster/googletts

如下代碼段展示的是使用插件配置語音服務器（Voice Server）的方法。

const { VoiceServer } = require("@fonoster/voice");
const GoogleTTS = require("@fonoster/googletts");
const GoogleASR = require("@fonoster/googleasr");
const voiceServer = new VoiceServer();
const speechConfig = { keyFilename: "./google.json" };

// Set the server to use the speech APIS
voiceServer.use(new GoogleTTS(speechConfig));
voiceServer.use(new GoogleASR(speechConfig));

voiceServer.listen(async(req, res) => {
  console.log(req);
  await res.answer();
  // To use this verb you MUST have a TTS plugin
  const speech = await res.gather();

  await res.say("You said " + speech);
  await res.hangup();
});

您可以閱讀文檔（https://fonoster.com/docs/overview/）。

他們提供免費層級，足以滿足入門需求。

目前，Fonoster在GitHub上有大約六千多顆星，并且發布了250多個版本。

22. DIPY - Python中的Paragon 3D/4D+成像庫

融匯14個AI工具構建完美應用-AI.x社區

作為業界領先的Python 3D/4D+成像庫，DIPY（https://github.com/dipy/dipy）包含各種用于空間歸一化、信號處理、機器學習、統計分析、以及醫學圖像可視化的方法。同時，它也包含了諸如：擴散、灌注和結構成像等用于計算解剖學的專門方法。

您可以從如下命令開始上手DIPY：

pip install dipy

// run this in python console
import dipy
print(dipy.get_info())

DIPY提供的官方文檔（https://docs.dipy.org/stable/）提供了如下圖所示的各種詳細示例（https://docs.dipy.org/stable/examples_built/index.html）。

融匯14個AI工具構建完美應用-AI.x社區

目前，DIPY在GitHub存儲庫中有四十二萬八千多下載量和六百多顆星。

23.Elastic Search -免費、開放、分布式的RESTful搜索引擎

融匯14個AI工具構建完美應用-AI.x社區

Elastic Search（https://github.com/elastic/elasticsearch）是一個分布式的RESTful搜索和分析引擎，能夠處理大量的用例。而作為Elastic Stack的核心，它可以集中式地存儲您的數據，以實現閃電般快速的搜索、相關性微調、強大的分析功能，以及可以輕松地擴展。下圖展示了各種可以使用Elastic Search的用例。

融匯14個AI工具構建完美應用-AI.x社區

由于Elastic Search使用的是標準化的RESTful API和JSON，因此我們也使用Java、Python、.NET、SQL和PHP等多種語言來構建和維護客戶端。下面展示了其基本結構：

const { Client } = require('@elastic/elasticsearch')
const client = new Client({ node: 'http://localhost:9200' })

client
  .search({
    index: 'social-*',
    body: {
      query: { match: { message: 'myProduct' } },
      aggs: {
        top_10_states: {
          terms: { field: 'state', size: 10 }
        }
      }
    }
  })
  .then(({ body }) => {
    const { hits } = body.hits
    console.log(hits)
  })
  .catch(console.error)

您可以通過閱讀文檔（https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh），來查看其功能列表（https://www.elastic.co/elasticsearch/features）。盡管Elastic Search功能強大，但是其主要缺點是并非免費。當然，你仍然可以利用其免費的試用版，來探究該開源項目的架構。

目前，Elastic Search已經發布了第8版，并正在不斷開發和完善中。在GitHub上它有超過六萬七千多顆星，有近1900名貢獻者。

24. Tauri -利用Web前端構建更小、更快、更安全的桌面應用

融匯14個AI工具構建完美應用-AI.x社區

Tauri（https://github.com/tauri-apps/tauri）是一個工具包，旨在幫助開發人員利用幾乎所有可用的前端框架，為桌面平臺創建應用程序。其內核是使用Rust開發的，而CLI則使用Node.js為開發和維護應用提供了一種真正的多語言方法。

Tauri應用的用戶界面目前在macOS、Windows、Linux、Android和iOS上都使用Tao作為窗口處理庫。而為了應用，Tauri也使用了WRY庫，這一為系統WebView所提供的統一接口庫。也就是說，它會利用macOS和iOS上的WKWebView、Windows上的WebView2、Linux上的WebKitGTK、以及Android上的Android System WebView。

您可以使用如下npm命令開始使用Tauri。

npm create tauri-app@latest

您既可以閱讀其文檔--https://tauri.app/v1/guides/getting-started/prerequisites，也可以通過查看其功能列表--https://tauri.app/v1/guides/features/，來制作自己的CLI。

目前，Tauri在GitHub上擁有七萬五千多顆星，并已發布了800多個版本。

25.AutoGPT- 比ChatGPT更刺激

融匯14個AI工具構建完美應用-AI.x社區

AutoGPT（https://github.com/Significant-Gravitas/AutoGPT）的核心是一個由大模型（LLM）驅動的半自主代理項目。該項目由如下四個主要部分（https://docs.agpt.co/#agent）組成：

代理- 也稱為“AutoGPT”
基準 - 又名agbenchmark
構建臺（Forge）
前臺

通過閱讀鏈接--https://docs.agpt.co/autogpt/setup/，您可以了解如何使用OpenAI的密鑰來設置AutoGPT。同時，您也可以閱讀其官方文檔（https://docs.agpt.co/?）、以及查看項目板（https://github.com/orgs/Significant-Gravitas/projects/1），了解目前正在開發的內容。

由于其出色的用例和自動化功能，AutoGPT目前在GitHub庫上擁有約十五萬九千多顆星。

譯者介紹

陳峻（Julian Chen），51CTO社區編輯，具有十多年的IT項目實施經驗，善于對內外部資源與風險實施管控，專注傳播網絡與信息安全知識與經驗。

原文標題：All the tools I need to build a perfect AI app. ，作者：Anmol Baranwal

鏈接：https://dev.to/taipy/all-the-tools-i-need-to-build-a-perfect-ai-app-2oeh。

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

開源

AI工具

人工智能

已于2024-4-24 12:17:31修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

融匯14個AI工具構建完美應用原創

12.Stable Diffusion -一種潛在的文本到圖像的擴散模型

13.MocapDrones-用于室內跟蹤的低成本動作捕捉系統

14.Whisper Speech通過反轉Whisper建立從文本到語音的系統

15.eSpeak NG -支持100多種語言和口音的語音合成器

16. ChatbotUI- 適用各種模型的AI聊天場景

17.GPT-4 & LangChain -用于大型PDF文檔的GPT4 & LangChain聊天機器人

18.Amica -可讓你在瀏覽器中輕松地與3D角色聊天

19. Hugging Face Transformers - Pytorch、TensorFlow和JAX的最先進機器學習

20.LLaMA - LLaMA模型的推理代碼

21.Fonoster - Twilio的開源替代品

22. DIPY - Python中的Paragon 3D/4D+成像庫

23.Elastic Search -免費、開放、分布式的RESTful搜索引擎

24. Tauri -利用Web前端構建更小、更快、更安全的桌面應用

25.AutoGPT- 比ChatGPT更刺激

譯者介紹

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

融匯14個AI工具構建完美應用 原創

12.Stable Diffusion -一種潛在的文本到圖像的擴散模型

13.MocapDrones-用于室內跟蹤的低成本動作捕捉系統

14.Whisper Speech通過反轉Whisper建立從文本到語音的系統

15.eSpeak NG -支持100多種語言和口音的語音合成器

16. ChatbotUI- 適用各種模型的AI聊天場景

17.GPT-4 & LangChain -用于大型PDF文檔的GPT4 & LangChain聊天機器人

18.Amica -可讓你在瀏覽器中輕松地與3D角色聊天

19. Hugging Face Transformers - Pytorch、TensorFlow和JAX的最先進機器學習

20.LLaMA - LLaMA模型的推理代碼

21.Fonoster - Twilio的開源替代品

22. DIPY - Python中的Paragon 3D/4D+成像庫

23.Elastic Search -免費、開放、分布式的RESTful搜索引擎

24. Tauri -利用Web前端構建更小、更快、更安全的桌面應用

25.AutoGPT- 比ChatGPT更刺激

譯者介紹

目錄

融匯14個AI工具構建完美應用原創