成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="fnwgm"></code>

<cite id="fnwgm"><style id="fnwgm"><acronym id="fnwgm"></acronym></style></cite>

<blockquote id="fnwgm"></blockquote>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Crawl4AI，智能體網絡自動采集利器

發布于 2024-11-8 14:59

瀏覽

0收藏

Crawl是一款免費的開源工具，利用AI技術簡化網絡爬取和數據提取，提高信息收集與分析的效率。它智能識別網頁內容，并將數據轉換為易于處理的格式，功能全面且操作簡便。

1 使用 Crawl 的步驟

步驟 1：安裝與設置

pip install “crawl4ai @ git+https://github.com/unclecode/crawl4ai.git" transformers torch nltk

步驟 2：數據提取

創建Python腳本，啟動網絡爬蟲并從URL提取數據：

from crawl4ai import WebCrawler

# 創建 WebCrawler 的實例
crawler = WebCrawler()

# 預熱爬蟲（加載必要的模型）
crawler.warmup()

# 在 URL 上運行爬蟲
result = crawler.run(url="https://openai.com/api/pricing/")

# 打印提取的內容
print(result.markdown)

步驟 3：數據結構化

使用LLM（大型語言模型）定義提取策略，將數據轉換為結構化格式：

import os
from crawl4ai import WebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field

class OpenAIModelFee(BaseModel):
    model_name: str = Field(..., description="OpenAI 模型的名稱。")
    input_fee: str = Field(..., description="OpenAI 模型的輸入令牌費用。")
    output_fee: str = Field(..., description="OpenAI 模型的輸出令牌費用。")

url = 'https://openai.com/api/pricing/'
crawler = WebCrawler()
crawler.warmup()

result = crawler.run(
        url=url,
        word_count_threshold=1,
        extraction_strategy= LLMExtractionStrategy(
            provider= "openai/gpt-4o", api_token = os.getenv('OPENAI_API_KEY'), 
            schema=OpenAIModelFee.schema(),
            extraction_type="schema",
            instruction="""從爬取的內容中提取所有提到的模型名稱以及它們的輸入和輸出令牌費用。不要遺漏整個內容中的任何模型。提取的模型 JSON 格式應該像這樣：
            {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
        ),            
        bypass_cache=True,
    )

print(result.extracted_content)

步驟 4：集成AI智能體

將 Crawl 與 Praison CrewAI 智能體集成，實現高效的數據處理：

pip install praisonai

創建工具文件（tools.py）來包裝 Crawl 工具：

# tools.py
import os
from crawl4ai import WebCrawler
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field
from praisonai_tools import BaseTool

class ModelFee(BaseModel):
    llm_model_name: str = Field(..., description="模型的名稱。")
    input_fee: str = Field(..., description="模型的輸入令牌費用。")
    output_fee: str = Field(..., description="模型的輸出令牌費用。")

class ModelFeeTool(BaseTool):
    name: str = "ModelFeeTool"
    description: str = "從給定的定價頁面提取模型的費用信息。"

    def _run(self, url: str):
        crawler = WebCrawler()
        crawler.warmup()

        result = crawler.run(
            url=url,
            word_count_threshold=1,
            extraction_strategy= LLMExtractionStrategy(
                provider="openai/gpt-4o",
                api_token=os.getenv('OPENAI_API_KEY'), 
                schema=ModelFee.schema(),
                extraction_type="schema",
                instruction="""從爬取的內容中提取所有提到的模型名稱以及它們的輸入和輸出令牌費用。不要遺漏整個內容中的任何模型。提取的模型 JSON 格式應該像這樣：
                {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
            ),            
            bypass_cache=True,
        )
        return result.extracted_content

if __name__ == "__main__":
    # 測試 ModelFeeTool
    tool = ModelFeeTool()
    url = "https://www.openai.com/pricing"
    result = tool.run(url)
    print(result)

AI智能體配置

配置AI智能體使用Crawl工具進行網絡抓取和數據提取。在crewai框架下，我們設定了三個核心角色，共同完成網站模型定價信息的提取任務：

網絡爬蟲：負責從OpenAI、Anthropic和Cohere等網站抓取定價信息，輸出原始HTML或JSON數據。
數據清理員：確保收集的數據準確無誤，并整理成結構化的JSON或CSV文件。
數據分析員：分析清理后的數據，提煉出定價趨勢和模式，并編制詳細報告。

整個流程無需額外依賴，各角色獨立完成各自任務。

2 AI 智能體應用實例

以Crawl為基礎，Praison-AI智能體能夠執行網絡抓取、數據清洗和分析工作。它們相互協作，從多個網站抓取定價數據，并匯總成詳盡的報告，以展示分析結果。

3 結語

Crawl是一個強大的工具，它賦予AI智能體更高的效率和準確性執行網絡爬取和數據提取任務。其開源特性、AI驅動的能力和多功能性，使其成為構建智能且數據驅動智能體的寶貴資產。

本文轉載自??AI科技論談??，作者： AI科技論談 ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

忘掉 ChatBots，智能體 (AI Agents) 將是未來

lintoms ? 2950瀏覽 ? 0回復
GPT Researcher：破解復雜研究的AI利器

51CTO內容精選 ? 3550瀏覽 ? 0回復
基于LangGraph多智能體技術，搭建AI寫作自動化系統

小虎哦哦 ? 4459瀏覽 ? 0回復
基于GPT-4o-mini，使用LangChain打造AI搜索智能體

小虎哦哦 ? 3998瀏覽 ? 0回復
麻省理工研究團隊革新科學研究方式,通過多智能體智能圖推理實現科學發現自動化

xuxiangda ? 4516瀏覽 ? 0回復
Crawl4AI帶你體驗高效AI Agent工作流程

探索AGI ? 6066瀏覽 ? 0回復
Crawl4AI：AI驅動的網頁抓取神器，結合LLM實現自動化數據提取與處理

老蛀蟲 ? 5706瀏覽 ? 0回復
AI驅動的基于意圖的網絡（IBN）：人工智能助力網絡管理的未來

51CTO內容精選 ? 2971瀏覽 ? 0回復
入口控制：多智能體強化學習在自動駕駛中的應用研究

xuxiangda ? 3808瀏覽 ? 0回復
AI Agent智能體產品的五個級別

數字化助推器 ? 8289瀏覽 ? 0回復
Pydantic AI智能體框架，輕松打造AI Agent

小虎哦哦 ? 3860瀏覽 ? 0回復
AI Agent 智能體開發工作手冊詳細指南

玄姐聊AGI ? 5382瀏覽 ? 0回復
OpenAI首款智能體上線！揭秘原理：基座竟是GPT-4o＋思維鏈？智能體爆發前夜：智譜搶跑、OpenAI還有動作！

51CTO技術棧 ? 1998瀏覽 ? 0回復
快來試試智能爬蟲Crawl4AI，開源高效，專為AI量身打造！附實測效果

AI博物院 ? 5986瀏覽 ? 0回復
AI Agents-1 | 深度揭秘AI智能體：開篇導論

Halo咯咯 ? 2014瀏覽 ? 0回復
Manus AI ：如何讓AI從 "動口" 到 "動手" 的多智能體架構！

Halo咯咯 ? 2604瀏覽 ? 0回復
AI Agents-3 | AI 智能體的底層架構剖析

Halo咯咯 ? 2034瀏覽 ? 0回復
AI Agents-4 | 一文讀懂 AI 智能體的多元類型

Halo咯咯 ? 1501瀏覽 ? 0回復
Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器

穿越時空111 ? 2557瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

六款必知的AI Agent工作流，優缺點解析 1天前發布
Cursor 1.0 上線！為什么說它可能是「程序員失業預警」？ 2025-06-16 00:00:48發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：五個超級容易上手的AI項目

下一篇：只需8步，手把手教你用LangGraph創建AI智能體

社區精華內容

目錄

主站蜘蛛池模板：日韩精品一| 在线三级网址 | 亚洲精品视频免费观看 | 成人影院一区二区三区 | 中文字幕乱码一区二区三区 | 日韩久久久久久 | 国产精品久久久久久久久久了 | 成人h动漫精品一区二区器材 | 精品乱码久久久久 | 亚洲欧美视频一区二区 | 在线免费观看黄视频 | 国产精品一区二区免费 | 一本岛道一二三不卡区 | 久久久久久看片 | 中文字幕精品一区二区三区精品 | 伊人伊人伊人 | 精品国产一区二区三区久久影院 | 欧美激情综合色综合啪啪五月 | 99精品免费在线观看 | 亚洲欧美综合 | 6080yy精品一区二区三区 | 一区二区三区视频在线观看 | 国产极品粉嫩美女呻吟在线看人 | 国产精品美女www爽爽爽视频 | 亚洲精品久久 | 亚洲激情视频在线 | 亚洲国产欧美国产综合一区 | 91中文 | 三级成人在线 | 欧美日韩在线观看视频网站 | 日韩中文字幕在线观看视频 | 亚洲精品日韩精品 | 免费久久久 | 成人国产在线视频 | 亚洲a在线观看 | 91精品国产一区二区三区 | 亚洲男人的天堂网站 | 成人免费网站 | 国产欧美日韩一区二区三区在线 | 国产成人综合久久 | 国产色在线 |