成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我們一起聊聊.NET快速實現網頁數據抓取

開發 前端
本文我們以抓取博客園10天推薦排行榜第一頁的文章標題、文章簡介和文章地址為示例,并把抓取下來的數據保存到對應的txt文本中。

前言

今天我們來講講如何使用.NET開源(MIT License)的輕量、靈活、高性能、跨平臺的分布式網絡爬蟲框架DotnetSpider來快速實現網頁數據抓取功能。

注意:為了自身安全請在國家法律允許范圍內開發網頁爬蟲功能。

網頁數據抓取需求

本文我們以抓取博客園10天推薦排行榜第一頁的文章標題、文章簡介和文章地址為示例,并把抓取下來的數據保存到對應的txt文本中。

  • 請求地址:https://www.cnblogs.com/aggsite/topdiggs

圖片圖片

創建控制臺應用

創建名為DotnetSpiderExercise的控制臺應用。

圖片圖片

圖片圖片

圖片圖片

安裝DotnetSpider NuGet包

NuGet包管理器搜索:DotnetSpider

圖片圖片

添加Serilog日志組件

NuGet包管理器搜索:Serilog.AspNetCore

圖片圖片

添加RecommendedRankingModel

namespace DotnetSpiderExercise
{
    public class RecommendedRankingModel
    {
        /// <summary>
        /// 文章標題
        /// </summary>
        public string ArticleTitle { get; set; }

        /// <summary>
        /// 文章簡介
        /// </summary>
        public string ArticleSummary { get; set; }

        /// <summary>
        /// 文章地址
        /// </summary>
        public string ArticleUrl { get; set; }
    }
}

添加RecommendedRankingSpider

網頁數據抓取的業務邏輯都在這里面。

using DotnetSpider.DataFlow.Parser;
using DotnetSpider.DataFlow;
using DotnetSpider.Downloader;
using DotnetSpider.Http;
using DotnetSpider.Scheduler.Component;
using DotnetSpider.Selector;
using DotnetSpider;
using Microsoft.Extensions.Logging;
using Microsoft.Extensions.Options;
using Serilog;
using DotnetSpider.Scheduler;
using Microsoft.Extensions.Hosting;
using System.Reflection;

namespace DotnetSpiderExercise
{
    public class RecommendedRankingSpider : Spider
    {
        public RecommendedRankingSpider(IOptions<SpiderOptions> options,
            DependenceServices services,
            ILogger<Spider> logger) : base(options, services, logger)
        {
        }

        public static async Task RunAsync()
        {
            var builder = Builder.CreateDefaultBuilder<RecommendedRankingSpider>();
            builder.UseSerilog();
            builder.UseDownloader<HttpClientDownloader>();
            builder.UseQueueDistinctBfsScheduler<HashSetDuplicateRemover>();
            await builder.Build().RunAsync();
        }

        protected override async Task InitializeAsync(CancellationToken stoppingToken = default)
        {
            //添加自定義解析
            AddDataFlow(new Parser());
            //使用控制臺存儲器
            AddDataFlow(new ConsoleStorage());
            //添加采集請求:博客園10天推薦排行榜
            await AddRequestsAsync(new Request("https://www.cnblogs.com/aggsite/topdiggs")
            {
                //請求超時10秒
                Timeout = 10000
            });
        }

        class Parser : DataParser
        {
            public override Task InitializeAsync()
            {
                return Task.CompletedTask;
            }

            protected override Task ParseAsync(DataFlowContext context)
            {
                var recommendedRankingList = new List<RecommendedRankingModel>();
                // 網頁數據解析
                var number = 1;
                var recommendedList = context.Selectable.SelectList(Selectors.XPath(".//article[@class='post-item']"));
                foreach (var news in recommendedList)
                {
                    var articleTitle = news.Select(Selectors.XPath(".//a[@class='post-item-title']"))?.Value;
                    var articleSummary = news.Select(Selectors.XPath(".//p[@class='post-item-summary']"))?.Value?.Replace("\n", "").Replace(" ", "");
                    var articleUrl = news.Select(Selectors.XPath(".//a[@class='post-item-title']/@href"))?.Value;

                    Console.WriteLine($"第{number}篇文章 標題:{articleTitle}");

                    recommendedRankingList.Add(new RecommendedRankingModel
                    {
                        ArticleTitle = articleTitle,
                        ArticleSummary = articleSummary,
                        ArticleUrl = articleUrl
                    });

                    number++;
                }

                using (StreamWriter sw = new StreamWriter("RecommendedRanking.txt"))
                {
                    foreach (RecommendedRankingModel model in recommendedRankingList)
                    {
                        string line = $"文章標題:{model.ArticleTitle}\r\n文章簡介:{model.ArticleSummary}\r\n文章地址:{model.ArticleUrl}";
                        sw.WriteLine(line + "\r\n ========================================================================================== \r\n");
                    }
                }
                return Task.CompletedTask;
            }
        }
    }
}

Program執行數據抓取

namespace DotnetSpiderExercise
{
    public class Program
    {
        static async Task Main(string[] args)
        {
            Console.WriteLine("網頁數據抓取開始...");

            await RecommendedRankingSpider.RunAsync();

            Console.WriteLine("網頁數據抓取完成...");
        }
    }
}

圖片圖片

抓取數據和頁面數據對比

抓取數據

圖片圖片

頁面數據

圖片圖片

項目源碼地址

更多項目實用功能和特性歡迎前往項目開源地址查看??,別忘了給項目一個Star支持??。

  • GitHub源碼地址:https://github.com/dotnetcore/DotnetSpider
  • GitHub wiki:https://github.com/dotnetcore/DotnetSpider/wiki
  • 本文示例源碼:https://github.com/YSGStudyHards/DotNetExercises/tree/master/DotnetSpiderExercise
責任編輯:武曉燕 來源: 追逐時光者
相關推薦

2023-09-15 06:56:01

RC.NET 6Release

2024-11-27 16:07:45

2024-02-20 21:34:16

循環GolangGo

2021-08-27 07:06:10

IOJava抽象

2023-08-10 08:28:46

網絡編程通信

2023-08-04 08:20:56

DockerfileDocker工具

2023-06-30 08:18:51

敏捷開發模式

2022-05-24 08:21:16

數據安全API

2023-09-10 21:42:31

2024-06-19 09:40:21

.NET人臉識別框架

2022-10-28 07:27:17

Netty異步Future

2022-11-12 12:33:38

CSS預處理器Sass

2022-02-14 07:03:31

網站安全MFA

2022-01-04 12:08:46

設計接口

2022-12-07 13:12:15

2022-06-26 09:40:55

Django框架服務

2023-04-26 07:30:00

promptUI非結構化

2025-03-27 02:00:00

SPIJava接口

2023-07-27 07:46:51

SAFe團隊測試

2022-04-06 08:23:57

指針函數代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品电影一区 | 青久草视频 | 久久久综合久久 | 国产成人免费视频网站视频社区 | 日韩av在线中文字幕 | 日韩中文字幕一区二区 | 日韩第一区 | 成人免费观看男女羞羞视频 | 久草在线 | 中文字幕亚洲免费 | 欧美一区免费 | 欧美日韩中文字幕 | 黄色毛片免费看 | 免费在线观看毛片 | 看羞羞视频免费 | 欧美在线一区二区三区四区 | 久久国产精品色av免费观看 | 久久久久久久国产精品 | 一区视频在线免费观看 | 福利片一区二区 | 久久久久久九九九九 | 国产一级一片免费播放 | 国产精品国产三级国产aⅴ入口 | 久久精品在线 | www.中文字幕.com | 人人干在线视频 | 国偷自产av一区二区三区 | 欧美激情久久久 | 欧洲高清转码区一二区 | 中国黄色毛片视频 | 成人精品免费视频 | 久久免费精品视频 | 一区二区三区久久久 | 国产国产精品 | 欧美一区二区精品 | 欧美中文一区 | 亚洲美女一区 | 日韩高清av | 在线观看中文字幕 | 91久久精品国产 | 欧美一级久久精品 |