成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直接把任意網站變為 API 接口?Firecrawl有點牛了!

開發 前端
Firecrawl 是一種 API 服務,它獲取 URL、對其進行抓取并將其轉換為干凈的 markdown 或結構化數據。我們會抓取所有可訪問的子頁面并為您提供每個子頁面的干凈數據。無需站點地圖。

Hello,大家好,我是 Sunday。

最近看到了一個爬蟲類框架:firecrawl 號稱 可以抓取任何網站并將其轉換為干凈的 markdown 或結構化數據。并且可以直接通過 Node 進行部署。

看這樣的描述有點厲害了,所以,咱們今天就來看看這個 firecrawl

01:什么是 firecrawl

firecrawl 是一種 API 服務,它獲取 URL、對其進行抓取并將其轉換為干凈的 markdown 或結構化數據。我們會抓取所有可訪問的子頁面并為您提供每個子頁面的干凈數據。無需站點地圖。

目前 Firecrawl 開源 3周 的時間,已經有了 7.9K 的 star 數,可以說是一個優秀的項目了

圖片圖片

02:如何使用 firecrawl

想要使用 firecrawl ,那么首先需要獲取 API 秘鑰。秘鑰分為 收費 和 免費 兩種,大家如果不在商業項目中使用,通過 免費計劃 即可

圖片圖片

獲取秘鑰在這里注冊并獲?。篽ttps://www.firecrawl.dev/pricing

有了秘鑰之后,可以直接基于 Node 包創建項目即可:

  1. 安裝依賴包 npm install @mendable/firecrawl-js
  2. 將 API 密鑰設置為命名的環境變量FIRECRAWL_API_KEY或將其作為參數傳遞給FirecrawlApp類
  3. 如要抓取單個 URL ,可直接通過 scrapeUrl 方法
try {
  const url = "https://example.com";
  const scrapedData = await app.scrapeUrl(url);
  console.log(scrapedData);
} catch (error) {
  console.error("Error occurred while scraping:", error.message);
}
  1. 如要爬取網站信息,可以直接通過 crawlUrl 方法。該方法以起始 URL 和可選參數作為參數。該params參數允許您為抓取作業指定其他選項,例如要抓取的最大頁面數、允許的域和輸出格式。
const crawlUrl = "https://example.com";
const params = {
  crawlerOptions: {
    excludes: ["blog/"],
    includes: [], // leave empty for all pages
    limit: 1000,
  },
  pageOptions: {
    onlyMainContent: true,
  },
};
const waitUntilDone = true;
const timeout = 5;
const crawlResult = await app.crawlUrl(
  crawlUrl,
  params,
  waitUntilDone,
  timeout
);
  1. 可以通過 checkCrawlStatus 方法檢查爬取狀態
const status = await app.checkCrawlStatus(jobId);
console.log(status);
  1. 使用 LLM 可自動格式化所有數據
import FirecrawlApp from "@mendable/firecrawl-js";
import { z } from "zod";

const app = new FirecrawlApp({
  apiKey: "fc-YOUR_API_KEY",
});

// Define schema to extract contents into
const schema = z.object({
  top: z
    .array(
      z.object({
        title: z.string(),
        points: z.number(),
        by: z.string(),
        commentsURL: z.string(),
      })
    )
    .length(5)
    .describe("Top 5 stories on Hacker News"),
});

const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", {
  extractorOptions: { extractionSchema: schema },
});

console.log(scrapeResult.data["llm_extraction"]);
  1. 使用該 search 方法,您可以在搜索引擎中搜索查詢并獲取排名靠前的結果以及每個結果的頁面內容。該方法將查詢作為參數并返回搜索結果。
const query = "what is mendable?";
const searchResults = await app.search(query, {
  pageOptions: {
    fetchPageContent: true, // 獲取每個搜索結果的頁面內容
  },
});


責任編輯:武曉燕 來源: 程序員Sunday
相關推薦

2025-02-18 11:02:01

2022-07-26 07:05:50

PythonAPI語法

2023-02-12 15:47:33

TCP客戶端RST

2014-03-11 11:21:23

2024-08-26 09:36:06

2021-08-26 10:29:47

工具Root框架

2021-04-23 22:35:32

程序員工具網站

2011-03-04 14:39:32

Vsftpd啟動xinetd

2017-11-03 17:05:11

開源

2021-09-30 18:22:46

VSCode插件API

2015-12-09 14:51:57

2022-06-08 10:01:23

性能優化慢查詢

2019-08-02 10:31:21

深度學習編程人工智能

2017-11-02 11:05:20

HTTP網站HTTPS網站免費

2023-06-26 10:37:02

2021-01-19 05:27:44

HTTPSECDHE算法

2023-01-26 11:43:03

線程池CPUJava

2022-08-02 18:51:13

數據產品MySQL宕機

2017-05-18 07:54:44

2010-12-17 13:01:55

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线中文字幕亚洲 | 激情欧美日韩一区二区 | 大香在线伊779 | 国产精品地址 | 成人av片在线观看 | 欧美日韩一区二区在线 | 成人av电影在线观看 | 另类二区| 亚洲三区在线观看 | 成人免费视频网站在线看 | 中文日本在线 | 国产精品久久久久久婷婷天堂 | 国产一区二区三区欧美 | 亚洲国产一区二区三区在线观看 | 91精品国产综合久久久久 | 精品久久久久久久久久久久久久 | 亚洲成av人片在线观看 | 亚洲国产成人精品久久久国产成人一区 | 亚洲精品自在在线观看 | 日本在线看片 | 成人国产精品久久 | 最新国产精品视频 | 亚洲影音 | 在线看亚洲 | 亚洲三级在线观看 | 男人天堂网址 | 久草视频观看 | 国产区第一页 | 久久久妇女国产精品影视 | 精品国产乱码久久久久久图片 | 日韩午夜场| 午夜私人影院在线观看 | 国产成人自拍一区 | 午夜看电影在线观看 | av夜夜操| 久在线观看| 国产成人99久久亚洲综合精品 | 欧美在线一区二区三区 | av国产在线观看 | 精品国产高清一区二区三区 | 国产在线精品一区二区 |