成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

通用爬蟲技術(shù)要點(diǎn)： Dom樹的重建

作者：kingname 2020-12-08 06:19:33

開發(fā) 前端

HTML 源碼改寫這一個組件，會根據(jù)一定的策略對網(wǎng)頁源代碼進(jìn)行修改，剔除無關(guān)的節(jié)點(diǎn)，合并復(fù)雜但沒有必要的嵌套節(jié)點(diǎn)……改寫以后，輸出相對標(biāo)準(zhǔn)和統(tǒng)一的 HTML，傳給下游的信息抽取組件進(jìn)行內(nèi)容抽取。

這個問題來自于讀者交流群。原問題如下圖所示：

這個問題在通用爬蟲的開發(fā)過程中確實(shí)會涉及到。因?yàn)榫W(wǎng)頁的HTML 結(jié)構(gòu)千變?nèi)f化，但是，通用爬蟲需要在不預(yù)先知道目標(biāo)網(wǎng)頁結(jié)構(gòu)的情況下對其中的內(nèi)容進(jìn)行提取。

這種情況下，通用爬蟲一般會分成幾個不同的部分，如下圖所示：

其中，HTML 源碼改寫這一個組件，會根據(jù)一定的策略對網(wǎng)頁源代碼進(jìn)行修改，剔除無關(guān)的節(jié)點(diǎn)，合并復(fù)雜但沒有必要的嵌套節(jié)點(diǎn)……改寫以后，輸出相對標(biāo)準(zhǔn)和統(tǒng)一的 HTML，傳給下游的信息抽取組件進(jìn)行內(nèi)容抽取。

這位同學(xué)的問題，就涉及到對源代碼進(jìn)行改寫。實(shí)際上，使用 lxml 在 DOM 樹中插入一個節(jié)點(diǎn)，這本來根本不是什么問題。任何一個會使用 Google 的同學(xué)，只要搜索lxml html insert element，自然就能找到大量的解決方法，如下圖所示：

但是，這個問題怪就怪在，它需要在文本節(jié)點(diǎn)的前面增加子節(jié)點(diǎn)。干講可能不好描述，我用一個例子來說明這個問題。

大家先來看這段代碼：

from lxml.html import fromstring, Element, etree 
from html import unescape 
html = ''' 
<div> 
    <p>你好</p> 
</div> 
''' 
 
node = fromstring(html) 
p_node = node.find('.//p') 
element = Element('span') 
element.text = '青南' 
p_node.insert(0, element) 
new_html = unescape(etree.tostring(node).decode()) 
print(new_html)

根據(jù)我們使用 Python 列表的經(jīng)驗(yàn)，如果一個列表a現(xiàn)在是['你好']，當(dāng)我們執(zhí)行a.insert(0, '青南')以后，得到的結(jié)果應(yīng)該是['青南', '你好']。但是我們來看看上面這段代碼的運(yùn)行效果：

可以看到，青南是在你好后面的。大家再看本文最開頭的圖，提問者舉出的例子中，他希望把子節(jié)點(diǎn)插入到文本之前。具體到這個例子中，應(yīng)該是青南你好。

大家可以試一試，你在 Google 上面無論怎么搜索，都找不到如何把節(jié)點(diǎn)插入到文本前面的方法。

但實(shí)際上，只要回歸官方文檔，你就會發(fā)現(xiàn)整個問題的解決方法并不困難。我們需要使用的，是lxml.html.builder[1]。

還是上面的例子，如何把 span 標(biāo)簽弄到文本前面呢?我們用 builder來實(shí)現(xiàn)：

from lxml.html import builder 
from html import unescape 
 
 
html = ''' 
<div></div> 
''' 
 
node = fromstring(html) 
new_node = builder.P(builder.SPAN('青南'), '你好') 
node.append(new_node) 
new_html = unescape(etree.tostring(node).decode()) 
print(new_html)

運(yùn)行效果如下圖所示：

看到這里，可能有同學(xué)會覺得我在耍無賴。這就像是讓我寫一個程序，計算斐波那契數(shù)列前5項(xiàng)的值，于是我5秒鐘寫出了答案print(1, 1, 2, 3, 5)。上面的代碼中，我直接使用builder.P(builder.SPAN('青南'), '你好')，這跟直接寫<p><span>青南</span>你好</p>有什么區(qū)別？這不是在作弊嗎？

我知道你很不服氣，但是，這就是真實(shí)的情況。通用爬蟲在做 HTML源碼改寫的時候，就是這樣做的。因?yàn)橹苯訉W(wǎng)頁的 Dom 樹進(jìn)行改寫是非常麻煩的事情。如果直接修改 Dom 樹，經(jīng)常會出現(xiàn)需要找一個節(jié)點(diǎn)的父節(jié)點(diǎn)，然后再找父節(jié)點(diǎn)的兄弟節(jié)點(diǎn)的子節(jié)點(diǎn)進(jìn)行修改。或者要判斷某個節(jié)點(diǎn)是否有子節(jié)點(diǎn)，有和沒有，需要兩種邏輯來處理，才能防止破壞 Dom 樹。

所以，我們一般不會直接修改 Dom 樹，而是一邊掃描原始的 Dom 樹，一邊使用 builder 重建一個新的 Dom 樹。重建 Dom 樹的過程比修改 Dom 樹的過程要簡單很多，畢竟寫過代碼的人都知道，寫新代碼比改別人的代碼容易很多。

參考資料

[1]lxml.html.builder: https://lxml.de/api/lxml.html.builder-module.html

本文轉(zhuǎn)載自微信公眾號「未聞Code」，可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系未聞Code公眾號。

責(zé)任編輯：武曉燕來源：未聞Code

爬蟲 Dom樹組件

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：九九av | 视频一区中文字幕 | 国产一区二区久久 | 亚洲成人一区二区三区 | 欧美a在线 | www.天天干.com | 国产精品99久久久久久大便 | 亚洲福利在线视频 | 免费看国产一级特黄aaaa大片 | 99视频入口| 久久久91精品国产一区二区精品 | 国产成人99久久亚洲综合精品 | 亚洲综合色视频在线观看 | 国产精品成人一区二区 | 国产精品高潮呻吟久久av野狼 | 伊人久久免费 | 在线观看国产网站 | 在线视频一区二区三区 | 日韩成人免费视频 | www.成人.com| 国内精品在线视频 | 韩日精品在线观看 | 国产精品日韩欧美一区二区 | 亚洲狠狠| 欧美福利 | 国产一区二区三区免费 | 亚洲人精品 | 中文字幕一区二区三区四区五区 | 亚洲91精品 | 久久久成人一区二区免费影院 | 欧美成人手机在线 | 亚洲男人天堂av | 国产福利网站 | 成人影音| 久久精品一区 | 久久精品久久综合 | 国产你懂的在线观看 | 2018国产大陆天天弄 | 国产精品久久毛片av大全日韩 | 亚洲欧美在线视频 | 久在线观看 |