尤雨溪:讓 AI 更好的理解 Vue、Vite
尤雨溪今天宣布 Vue、Vite 和 Rolldown 項目都加上了 llms.txt 文件。這是為了讓大型語言模型 (LLM) 更方便地理解這些前端技術。那這個 llms.txt 到底是什么?有什么用?我們來簡單看看。
圖片
llms.txt 是什么?
llms.txt 是一個還在提議階段的網站標準。簡單說,就是建議網站在根目錄下放一個叫 llms.txt 的 Markdown 文件。
這個文件的主要想法,是給 LLM 提供一個“濃縮版”的網站內容介紹,幫助 AI 更快、更準地理解網站信息。跟普通 HTML 頁面不一樣的是,llms.txt 會去掉導航菜單、廣告、復雜的腳本這些干擾項,只留下最核心、簡潔的內容給 AI 看。
標準提案鏈接:https://llmstxt.org/
按照官方的說法,llms.txt 主要想解決 LLM 看網站時的兩個麻煩:
- 上下文窗口不夠大:很多 LLM 一次能處理的信息量有限,塞不下一個完整的復雜網站。
- HTML 太難解析:把花里胡哨的 HTML 網頁轉成 AI 能懂的純文本,不僅麻煩還容易出錯。
llms.txt 就好比給了 LLM 一張內容“地圖”,讓它知道去哪里找需要的信息。具體來說,它的好處有:
- 讓 LLM 看得更明白:結構化的概要能幫 AI 快速抓住網站重點,不容易被頁面樣式帶偏。
- 找信息更高效:文件里直接給了關鍵內容的 Markdown 鏈接,AI 可以直達,不用自己吭哧吭哧爬整個站。
- 突破上下文限制:對大網站來說,這個精簡的入口對 LLM 有限的“內存”更友好。
- 用在哪里?
開發文檔:特別適合給編程文檔、API 參考用,AI 能更快地回答開發者的問題。
其他地方:像電商網站的產品介紹、在線課程的資料、個人博客等等,內容更清晰總歸是好事。
跟 robots.txt 和 sitemap.xml 有啥不同?
- robots.txt:管爬蟲能不能進來,但不管內容是什么。
- sitemap.xml:告訴搜索引擎有哪些頁面可以收錄,但也不提供內容概要。
- llms.txt:專門為 AI 設計的,提供優化過的內容結構,方便 AI 理解和處理。
llms.txt 長什么樣?(規范)
這個規范定義了兩種文件:
- /llms.txt:核心文件,是個簡化的導航,告訴 AI 網站大概有什么內容,重點在哪里。
- /llms-full.txt (可選):如果 llms.txt 里放不下,可以把完整的網頁內容(比如整個文檔頁、代碼例子)放這里,供 AI 需要深入了解時查閱。
文件的格式有講究,得按規矩來,方便程序解析:
- # 項目名稱:只能有一個 H1 標題,寫網站或項目的名字。
- > 項目簡介:用 Markdown 的引用格式,簡單介紹下這個網站是干嘛的。
- ## 核心文檔, ## API 參考 等:用 H2 標題分類,下面用列表 - [鏈接文字](URL "鏈接文字"):簡單說明 的形式放重要資源的鏈接和簡介。
- ## 其他資源 (可選):放些次要信息,比如社交賬號、聯系方式等。
# 示例項目
> 一個用來演示 llms.txt 功能的簡單項目。
## 核心文檔
- [快速入門](https://example.com/quickstart "快速入門"):教你怎么快速用起來。
- [API 文檔](https://example.com/api "API 文檔"):所有 API 的詳細說明。
## 示例代碼
- [GitHub 倉庫](https://github.com/example/repo "GitHub 倉庫"):完整的代碼都在這兒。
## 聯系方式
- https://example.com/contact
比如 Vite 的 llms.txt 就是這樣的:
圖片
怎么生成 llms.txt?
現在已經有一些工具能幫你生成 llms.txt。大致流程都差不多:
爬你的網站(特別是文檔站)的核心頁面 -> 抓關鍵信息(標題、簡介、鏈接) -> 按格式生成 llms.txt(和可選的 llms-full.txt) -> 讓你下載或者直接放網站根目錄。
可以用下面這些工具試試:
- Firecrawl LLMs.txt Generator[1]:還在測試中,提供 API,給個網址就能拿到 llms.txt 和 llms-full.txt。
- SiteSpeakAI LLMs.txt Generator[2]:免費在線工具,輸入域名,它幫你爬內容、生成文件。
- apify/actor-llmstxt-generator[3]:一個開源爬蟲工具 (Apify Actor),能深度爬取網站生成 llms.txt。
- *WordLift AI-Powered SEO Generator[4]:這個工具更偏 SEO,企業版功能更強,生成的 llms.txt 對搜索引擎和 AI 都友好。
- Mintlify[5]:如果你用 Mintlify 托管文檔,它會自動幫你生成并部署好 /llms.txt。
哪里能看到哪些網站用了 llms.txt?
想看看哪些網站用了 llms.txt?下面這些地方可以找到一些例子:
- LLMs TXT Hub: https://llmstxthub.com/[6]
圖片
- LLMs TXT Cloud Directory: http://directory.llmstxt.cloud/[7]
圖片
- LLMs TXT Site: https://llmstxt.site/[8]
圖片
llms.txt 現在怎么樣了?未來呢?
llms.txt 是 Jeremy Howard 在 2024 年 9 月 3 號提出來的。雖然這個標準在 AI 和開發者圈子里有不少討論,但像 OpenAI、Google 這些大廠還沒正式說支持它。
不過,已經有不少平臺和工具開始用起來了:
- 官方和社區工具:有官方的 Python/CLI 庫 (llms_txt2ctx)、JS 示例代碼,可以直接讀取網站的 llms.txt 給 LLM 用 。
- IDE 和 AI 編程助手:通過 MCPDoc 協議,一些編輯器和 AI 工具(比如 Cursor, Windsurf, Claude Desktop/Code)能讀到 llms.txt 里的文檔信息 。
- API 文檔平臺:像 Apidog、APIfox 這些平臺,生成的文檔網站會自動帶上 llms.txt,方便它們內置的 AI 助手理解 API。
- 基于 MCP 協議的工具:MCP 是個開放協議,一些服務和 SDK (Java, TypeScript, Python 等) 用它來讀 llms.txt。Replit, Codeium, Sourcegraph 這些平臺都在用,方便 AI 應用接入外部文檔。
小結
總的來說,llms.txt 還很新,但它提供了一個標準化的方法,讓 AI 能更好地和網站內容互動,潛力不小。隨著 AI 在搜索、寫代碼這些場景用得越來越多,這種專門為 AI 優化內容呈現方式,可能會成為一個趨勢。
當然,它能不能流行起來,還得看大模型廠商會不會跟進,以及開發者們用不用。現在主要用在技術文檔和 API 上,以后可能會用到更多地方。
相關鏈接
[1] Firecrawl LLMs.txt Generator: https://docs.firecrawl.dev/features/alpha/llmstxt
[2] SiteSpeakAI LLMs.txt Generator: https://sitespeak.ai/tools/llms-txt-generator
[3] apify/actor-llmstxt-generator: https://github.com/apify/actor-llmstxt-generator
[4] WordLift AI-Powered SEO Generator: https://wordlift.io/generate-llms-txt/
[5] Mintlify: https://mintlify.com/docs/settings/llms