成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用C#+Selenium+ChromeDriver 爬取網頁,模擬真實的用戶瀏覽行為

開發 后端
Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。而對于爬蟲來說,使用Selenium操控瀏覽器來爬取網上的數據那么肯定是爬蟲中的殺手武器。

[[381769]]

本文轉載自微信公眾號「UP技術控」,可以通過以下二維碼關注。轉載本文請聯系UP技術控公眾號。

背景

Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。而對于爬蟲來說,使用Selenium操控瀏覽器來爬取網上的數據那么肯定是爬蟲中的殺手武器。這里,我將介紹selenium + 谷歌瀏覽器的一般使用。

需求

在平常的爬蟲開發中,有時候網頁是一堆js堆起來的代碼,涉及很多異步計算,如果是普通的http 控制臺請求,那么得到的源文件是一堆js ,需要自己在去組裝數據,很費力;但是采用Selenium+ChromeDriver可以達到所見即所得的完美效果。

實現方式

項目結構:為了方便使用,用的winform程序,附nuget包

 

以下是form1.cs的代碼,這里就只放關鍵方法代碼了。需要安裝最新的chrome瀏覽器+代碼中使用的chromedriver是 v2.9.248315

  1. private void crawlingWebFunc() 
  2.         { 
  3.             SetText("\r\n開始嘗試..."); 
  4.             List<testfold> surls = new List<testfold>(); 
  5.             string path = System.Environment.CurrentDirectory + "\\圖片url\\"
  6.             DirectoryInfo root = new DirectoryInfo(path); 
  7.             DirectoryInfo[] dics = root.GetDirectories(); 
  8.             foreach (var itemdic in dics) 
  9.             { 
  10.                 string txt = ""
  11.                 StreamReader sr = new StreamReader(itemdic.FullName + "\\data.txt"); 
  12.                 while (!sr.EndOfStream) 
  13.                 { 
  14.                     string str = sr.ReadLine(); 
  15.                     txt += str;// + "\n"
  16.                 } 
  17.                 sr.Close(); 
  18.                 surls.Add(new testfold() { key = itemdic.FullName, picurl = txt }); 
  19.             } 
  20.  
  21.             ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory); 
  22.             //  service.HideCommandPromptWindow = true
  23.  
  24.             ChromeOptions options = new ChromeOptions(); 
  25.             options.AddArguments("--test-type""--ignore-certificate-errors"); 
  26.             options.AddArgument("enable-automation"); 
  27.             //   options.AddArgument("headless"); 
  28.             //  options.AddArguments("--proxy-server=http://user:password@yourProxyServer.com:8080"); 
  29.  
  30.             using (IWebDriver driver = new OpenQA.Selenium.Chrome.ChromeDriver(service, options, TimeSpan.FromSeconds(120))) 
  31.             { 
  32.                 driver.Url = "https://www.1688.com/"
  33.                 Thread.Sleep(200); 
  34.                 try 
  35.                 { 
  36.                     int a = 1; 
  37.                     foreach (var itemsurls in surls) 
  38.                     { 
  39.                         SetText("\r\n第" + a.ToString() + "個"); 
  40.                         driver.Navigate().GoToUrl(itemsurls.picurl); 
  41.                         //登錄 
  42.                         if (driver.Url.Contains("login.1688.com")) 
  43.                         { 
  44.                             SetText("\r\n需要登錄,開始嘗試..."); 
  45.                             trylogin(driver); //嘗試登錄完成 
  46.                                               //再試試 
  47.                             driver.Navigate().GoToUrl("https://s.1688.com/youyuan/index.htm?tab=imageSearch&imageType=oss&imageAddress=cbuimgsearch/eWXC7XHHPN1607529600000&spm="); 
  48.  
  49.                             if (driver.Url.Contains("login.1688.com")) 
  50.                             { 
  51.                                 //沒辦法退出 
  52.                                 SetText("\r\n退出,換ip重試..."); 
  53.                                 return
  54.                             } 
  55.                         } 
  56.  
  57.                         //鼠標放上去的內容因為頁面自帶只能顯示一個的原因 沒辦法做到全部顯示 然后在下載 只能是其他方式下載 
  58.                         //  var elements = document.getElementsByClassName('hover-container'); 
  59.                         //  Array.prototype.forEach.call(elements, function(element) { 
  60.                         //  element.style.display = "block"
  61.                         //   console.log(element); 
  62.                         //  }); 
  63.  
  64.                         //   IJavaScriptExecutor js = (IJavaScriptExecutor)driver; 
  65.  
  66.                         //    var sss = js.ExecuteScript(" var elements = document.getElementsByClassName('hover-container');  Array.prototype.forEach.call(elements, function(element) {  console.log(element); element.setAttribute(\"class\", \"測試title\");  element.style.display = \"block\";  console.log(element); });"); 
  67.  
  68.                         Thread.Sleep(500); 
  69.                         var responseModel = Write(itemsurls.key, driver.PageSource, Pagetypeenum.列表); 
  70.                         Thread.Sleep(500); 
  71.                         int i = 1; 
  72.                         foreach (var offer in responseModel?.data?.offerList ?? new List<OfferItemModel>()) 
  73.                         { 
  74.                             driver.Navigate().GoToUrl(offer.information.detailUrl); 
  75.                             string responseDatadetail = driver.PageSource; 
  76.                             Write(itemsurls.key, driver.PageSource, Pagetypeenum.詳情); 
  77.                             SetText("\r\n第" + a.ToString() + "-" + i.ToString() + "個"); 
  78.                             Thread.Sleep(500); 
  79.                             i++; 
  80.                         } 
  81.                     } 
  82.                 } 
  83.                 catch (Exception ex) 
  84.                 { 
  85.                     CloseChromeDriver(driver); 
  86.                     throw; 
  87.                 } 
  88.             } 
  89.         } 

  1. #region 異常  退出chromedriver 
  2.  
  3.         [DllImport("user32.dll", EntryPoint = "FindWindow")] 
  4.         private extern static IntPtr FindWindow(string lpClassName, string lpWindowName); 
  5.  
  6.         [DllImport("user32.dll", EntryPoint = "SendMessage")] 
  7.         public static extern int SendMessage(IntPtr hWnd, int Msg, int wParam, int lParam); 
  8.  
  9.         public const int SW_HIDE = 0; 
  10.         public const int SW_SHOW = 5; 
  11.  
  12.         [DllImport("user32.dll", EntryPoint = "ShowWindow")] 
  13.         public static extern int ShowWindow(IntPtr hwnd, int nCmdShow); 
  14.  
  15.         /// <summary> 
  16.         /// 獲取窗口句柄 
  17.         /// </summary> 
  18.         /// <returns></returns
  19.         public IntPtr GetWindowHandle() 
  20.         { 
  21.             string name = (Environment.CurrentDirectory + "\\chromedriver.exe"); 
  22.             IntPtr hwd = FindWindow(nullname); 
  23.             return hwd; 
  24.         } 
  25.  
  26.         /// <summary> 
  27.         /// 關閉chromedriver窗口 
  28.         /// </summary> 
  29.         public void CloseWindow() 
  30.         { 
  31.             try 
  32.             { 
  33.                 IntPtr hwd = GetWindowHandle(); 
  34.                 SendMessage(hwd, 0x10, 0, 0); 
  35.             } 
  36.             catch { } 
  37.         } 
  38.  
  39.         /// <summary> 
  40.         /// 退出chromedriver 
  41.         /// </summary> 
  42.         /// <param name="driver"></param> 
  43.         public void CloseChromeDriver(IWebDriver driver) 
  44.         { 
  45.             try 
  46.             { 
  47.                 driver.Quit(); 
  48.                 driver.Dispose(); 
  49.             } 
  50.             catch { } 
  51.             CloseWindow(); 
  52.         } 
  53.  
  54.         #endregion 異常  退出chromedriver 

效果

 

總結

說一下思路:

1.跳轉到指定的網頁driver.Navigate().GoToUrl

2.確定數據源,從driver.PageSource讀取數據

3.對html數據進行解析

 

責任編輯:武曉燕 來源: UP技術控
相關推薦

2022-07-12 09:55:34

Selenium爬取數據

2021-11-24 17:22:06

網絡抓取網絡爬蟲數據收集

2023-05-19 07:43:11

2009-08-11 08:58:19

linux命令瀏覽網頁linux命令行參數linux命令行

2024-03-18 08:38:57

瀏覽器爬蟲直聘

2023-11-15 13:18:50

2009-06-24 17:39:07

TeamDefine

2015-04-01 14:14:38

Safari谷歌瀏覽器安全

2019-01-02 12:23:30

Python金融數據爬取

2020-11-03 14:10:45

Python爬取天氣爬蟲

2022-12-30 14:21:54

2015-10-29 13:22:09

php數據分析爬蟲

2011-11-15 08:53:52

用戶

2022-09-28 11:34:27

用戶行為數據業務

2013-07-15 15:47:35

App用戶行為

2024-10-08 10:44:32

2021-06-02 22:18:11

Python關鍵詞微博

2021-06-11 00:09:20

C#爬蟲版本

2024-12-02 09:37:51

2017-11-08 10:05:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品久久九 | 亚洲成人精品久久 | 天天操天天干天天爽 | 国产成人精品一区二区三区在线观看 | 精品一区二区三区在线观看 | av在线一区二区三区 | 综合在线视频 | 久热久| 亚洲精品国产偷自在线观看 | 国产在线精品一区二区 | 中文字幕一区二区在线观看 | 日韩高清成人 | 特一级毛片 | 国产精品成av人在线视午夜片 | 粉嫩av久久一区二区三区 | 色站综合| 奇米四色影视 | 精品国产乱码久久久久久88av | 在线不卡视频 | 日韩精品免费视频 | 亚洲成人av一区二区 | 中文字幕第90页 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 99综合在线 | 亚洲午夜在线 | 看片国产 | 亚洲午夜av久久乱码 | 欧美三区 | 天堂素人约啪 | 午夜国产| 国产在线视频一区二区 | 国产精品毛片无码 | 日韩视频在线播放 | 国产精品99久久久久久动医院 | 日韩有码一区二区三区 | 亚洲欧美一区二区三区国产精品 | 一本色道精品久久一区二区三区 | 日本在线网站 | 中国一级特黄毛片大片 | 精品久久久久久久久久久 | 亚洲精品久久久一区二区三区 |