人工智能 | 通俗講解AI基礎
LLM
LLM(Large Language Models)指的是大型語言模型。這些模型是自然語言處理(NLP)技術的一部分,使用深度學習訓練來理解、生成、翻譯文本,甚至執行特定的語言相關任務,如問答、文本摘要、編程代碼生成等。LLM根據大量文本數據進行訓練,以理解語言的結構、含義和上下文。
LLM的關鍵特征之一是其規模,即模型中包含的參數數量非常龐大。這些參數幫助模型捕獲語言的復雜性和細微差別。隨著模型規模的增加,它們的理解能力和生成文本的質量也會提高,但同時也會增加所需的計算資源和訓練時間。
AGI
AGI(Artificial General Intelligence)也稱為通用人工智能,指的是一種具有廣泛智能的機器,能夠理解、學習和應用知識,并能夠在寬廣范圍的環境和任務中進行自主學習、推理、適應和創造,與人類智能相似或等同的水平。
區別于目前廣泛應用的專業人工智能(AI)系統,這些系統通常優化和設計用來解決特定問題(如圖像識別、語言翻譯等),AGI能夠跨領域工作,不僅局限于一個具體領域或任務。
AGI的實現將標志著一個重大科技進展,但同時也引發了許多倫理和安全的考量。目前AGI仍然是人工智能領域的一個長期目標,并且尚未實現。
AIGC
AIGC(Artificial Intelligence Generated Content)即為人工智能生成內容,是一種內容生產形式。例如AI文字續寫,文字轉像的AI圖、AI主持人等,都屬于AIGC的應用。
AI Agent
AI Agent 即智能代理,是一種基于人工智能技術的軟件實體,它能夠在一定的環境下自主感知信息、處理數據、并采取行動以實現特定目標。這種智能代理能夠模擬人類的工作和思考方式,通過類似人類的獨立思考和行動來完成一系列簡單或復雜的任務。
大語言模型 (LLM) 僅限于它們所訓練的知識,并且這些知識很快就會過時(每天用最新信息重新訓練這么大的模型是不可行的),LLM的一些局限主要包括:
- 會產生幻覺
- 結果并不總是真實的
- 對時事的了解有限或一無所知
- 很難應對復雜的計算。
這就是AI Agent的用武之地,它可以利用外部工具來克服這些限制。可以將Agent視為人工智能大腦或LLM操作系統,它使用LLM進行推理、計劃和采取行動。
智能體 Bot
這是平臺對AI Agent的抽象定義,即人工智能代理,是一個能夠根據人類目標自主思考和規劃任務的程序或實體。可以將智能體視為人工智能大腦或LLM操作系統,它使用LLM進行推理、計劃和采取行動(調用工具)。
實際使用過程中,我們更建議為某個具體的應用場景創建專門的智能體,而不是什么工作都交給同一個智能體,只有讓智能體做更專注的事情才能做的更加專業。
提示詞 Prompt
簡單的理解它是給 AI 模型的指令。它可以是一個問題、一段文字描述,甚至可以是帶有一堆參數的文字描述。AI 模型會基于 prompt 所提供的信息,生成對應的文本或者圖片。
針對智能體的提示詞可能和對話的提示詞略有不同,對話過程中的提示詞上下文最多只有5條,智能體的編排提示詞可以一直生效,而且通常具有一定的格式規范,更利于智能體執行任務。平臺也預設了一些常用的智能體提示詞可供用戶選擇。
RAG
RAG(Retrieval-Augmented Generation 檢索增強生成)是一種結合了信息檢索和文本生成技術的自然語言處理方法,它通過檢索相關信息來輔助生成更準確和豐富的文本輸出。
RAG的一個關鍵優勢是它可以有效地處理那些不僅依賴于通用知識,而且還需要特定信息源或文檔中的知識才能回答的問題。通過直接利用這些來源中的信息,RAG能夠提供更加準確和信息含量更高的輸出。
知識庫 Knowledge Base
知識庫指用于提供信息檢索支持的大規模數據集合,包括用戶上傳到平臺的各類文檔、表格、數據表等資料,便于用戶組織、管理領域知識,知識庫可以理解為數據源。
知識庫在RAG方案中的作用是多方面的:
- 信息源:為生成模型提供豐富的背景信息和事實依據,使生成內容更加豐富和準確。
- 提升效率:通過預先建立的知識庫進行檢索,可以減少生成模型需要從頭計算或推理的信息量,提升處理速度和效率。
- 增強準確性和相關性:基于檢索到的與查詢直接相關的信息,生成的內容更加貼近用戶的實際需求,提升了回答的準確性和相關性。
因此,在RAG方案中,知識庫的構建和質量直接影響到系統的整體性能,包括生成內容的準確度、豐富性和用戶滿意度。
多模態 Multi Modal
多模態指的是結合使用兩種或兩種以上不同類型的模式或信號來進行信息的表達、交流或處理。在計算機科學和人工智能領域,多模態通常涉及到結合文本、圖像、音頻、視頻以及其他傳感器數據來提升算法的理解、分析和生成能力。
多模態方法可以幫助系統更全面地理解復雜的信息場景,提高信息處理的效率和效果。
多路召回 Multi-channel Recall
多路召回是自然語言處理(NLP)和推薦系統中的一種常見策略,旨在從多個維度或渠道同時檢索信息或物品,以提高召回質量和覆蓋率。在這種策略中,系統會利用多個獨立的算法或模型,每個算法或模型專注于從一個特定的角度或依據一個特定的特征來檢索信息。
這些不同的召回渠道之后可以被合并或進一步處理,以生成一個綜合的、多樣化的結果集,從而提高最終推薦或檢索結果的準確性和多樣性。多路召回在提升用戶體驗和滿足不同用戶需求方面發揮著重要作用。
微調 Fine-Tuning
模型微調(Model Fine-tuning)是一種機器學習方法,特別是在深度學習領域中常見。這種方法涉及到在一個預訓練的模型基礎上,通過對模型進行額外的訓練(或“微調”),使其更好地適應于特定任務或數據集。在模型微調過程中,通常會采用較小的學習率,對預訓練模型的權重進行小幅度調整,以達到提高模型在特定任務上表現的目的。
模型微調的特點是能夠利用預訓練模型已經學到的知識,從而在數據量較少的情況下也能達到較好的性能,加速模型的訓練過程并提高模型的泛化能力。
對齊Alignment
人工智能中的對齊是指引導人工智能系統的行為,使其符合設計者的利益和預期目標。一個已對齊的人工智能的行為會向著預期方向發展;而未對齊的人工智能的行為雖然也具備特定目標,但此目標并非設計者所預期。
Token
在自然語言處理中,我們通常將文本拆分為一個個離散的token,以便于計算機理解和處理在GPT模型中,token是模型接收的最小單位。模型在訓練和生成文本時,將輸入的文本序列劃分為一系列的token,并通過對這些token進行處理和分析來生成響應。
例如:在一個對話中,一句話可以被劃分為多個token,包括單詞、標點符號等。每個token都有一個對應的編碼表示,通常是一個整數。這些編碼將文本轉換為模型能夠處理的數值形式。在使用ChatGPT時,用戶通常需要了解自己的輸入文本中有多少個token,以確保不超過模型的最大輸入限制。
需要注意的是,不同的模型和工具可能對token的定義和處理方式有所不同但總體來說token是指文本處理和分析的最小單位,通常1Token的內容為5 字節的文本,但由于字符編碼問題,不同中文字符的token數量并不是固定的,一般通過類OpenAI的接口調用會返回當前內容的token數量大小。
向量 Vector
向量,物理、工程等也稱作矢量、歐幾里得向量(Euclidean vector) 是數學、物理學和工程科學等多個自然科學中的基本概念。指一個同時具有大小和方向,且滿足平行四邊形法則的幾何對象。理論數學中向量的定義為任何在稱為向量空間的代數結構中的元素。
一般地,同時滿足具有大小和方向兩個性質的幾何對象即可認為是向量。向量常常在以符號加箭頭標示以區別于其它量。與向量相對的概念稱標量、純量、數量,即只有大小、絕大多數情況下沒有方向(電流是特例)、不滿足平行四邊形法則的量。
向量數據庫 Vector Database
向量數據庫是基于智能算法提取需存儲內容的特征,轉變成具有大小定義、特征描述、空間位置的多維數值進行向量化存儲的數據庫,使內容不僅可被存儲,同時可被智能檢索與分析。
工具 Tool
是平臺對智能體能力的抽象,通過工具的配置和組合可以實現多種業務場景需求,工具可以被實際關聯到智能體的擴展能力,目前平臺提供的工具包括大模型能力(文生圖等)、聯網查詢(必應搜索)、知識庫檢索(知識管理檢索)、函數調用(各種接口)等類型,將來還會拓展更多的工具類型。