[論文簡讀] Web Content Extraction Using Clustering

levinit 發布于2019-08-23 10:49 / 1657人閱讀

摘要：實驗結果實驗數據集數據集都是新聞類網頁，從五個中文新聞網站中收集一百個頁面這最多也就五類吧，而且也就五百個，好像有點少了吧結果與驗證性能指標這這這比較文本長度就了那不是只要包含新聞正文不就好了。

《Web Content Extraction Using Clustering with Web Structure》
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
華中科技大學 2017年 ISNN會議論文

簡介

該文章中文簡稱為基于WEB結構的聚類Web內容提取，我在通讀全文后發現，作者給聚類這件事的筆墨并不多，占文章篇幅更多的是如何比較網頁之間的相似性，聚類只是之后處理的一種手段。
該文章提出了一種內容提取算法，如下

從不同網站中收集網頁進行聚類

將網頁解析成DOM樹

根據節點的位置和相同深度的節點數量以及DOM樹的深度分配權重

根據給定的公式計算兩個頁面之間的相似度

從聚類得到的同一組頁面中，刪除相同的頁面部分，剩余的便是WEB內容。

聚類算法

K-means 需要在一開始時便分配聚簇數量，因此不適用
Canopy 聚類算法（一個快速，簡單，但沒有那么精確的算法，算法簡介參考這篇文章）

作者最終選擇了Canopy算法，因為該算法邏輯簡單，易于收斂，不過作者沒有給出Canopy算法中的T1和T2是如何取的，應該也知道這一塊會被編輯詬病吧。

網頁結構相似度量方法

這一塊就是全文的重點了，聚類只是用來獲得與目標頁面相似的一些頁面，便于第二步刪除相似部分（如頂欄/側欄/廣告）。

首先來看一下最簡單的一個分配權重和比較相似度的方法：

假設整個DOM樹的權重為1，深度為1的節點數量為N，因此，每個節點得到的權重為1 / N;

將節點獲得的權重平均分配給他的子節點。

迭代地分配權重到達葉節點。

對于葉節點x和y，如果x等于y，則x和y的相似度是它們得到的權重，否則，相似性為0.對于非葉節點x和y，如果x等于y，相似度是其子節點相似度的總和，如果不相似，則相似度為0。
定義：對于非葉節點x和y，如果標記名，元素集值和兩個節點的子節點數相同，則 x = y

兩個DOM樹的相似性等于其根節點的相似性。

這個算法會遇到一種情況，就是在兩個比較的dom樹中，當b和c分支都被判定相同，而a分支被判定不同（也就是說兩個網頁除了頂部欄之外其他都一樣），兩個網頁的相似度就會足夠的大，而被判定為相似的頁面（嗯？難道不是嗎？）

于是，作者提出了基于權重動態規劃的結構相似性測量方法（SMDPW）

作者發現靜態區域始終位于頁面的頂部和底部，而內容區域始終位于中心。換句話說，區域越靠近頁面的末端，它就越可能是靜態區域。因此，權重通過動態編程分配，越接近區域所在頁面的末端，權重越大。此分布策略僅適用于深度為1的節點。其他節點獲得的權重是通過平均分配其父節點的權重來計算的。（蛤？這不合理吧，那a的權重不就偏大了，你把b的權重調大我都能接受啊）

提取內容

emmm，作者只用了一小段文字描述，反正就是在找到相似的頁面的基礎上，沿著DOM樹進行對比，刪除相同的或者相似度高的內容，剩下的就是data了。

實驗結果 實驗數據集

數據集都是新聞類網頁，從五個中文新聞網站中收集一百個頁面（？？？這最多也就五類吧，而且也就五百個，好像有點少了吧）
結果與驗證

性能指標

what？這？這？這？比較文本長度就OK了？那不是只要包含新聞正文不就好了。

算法對比

說好的中文網頁呢……難道是CNN中文網？

總結

實在有好多槽點想吐一吐，算了，人家畢竟是985發表的ISNN會議文章，尊重作者吧。

GPU云服務器云服務器 Extraction Clustering using using_namespace_std

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/96723.html

[論文簡讀] Web Content Extraction Through Machine Lear

摘要：分塊效果如圖所示聚類由于不同網頁之間設計和布局存在較大差異，作者選擇了作為聚類算法來解決簇數目未知簇形狀未知噪聲等問題未給出距離函數。《Web Content Extraction Through Machine Learning》通過機器學習來提取網頁內容 2014年，未見期刊會議上登載，作者 Ziyan Zhou @stanford.edu 簡介數據集以新聞文章網站為主數...

leonardofed 2019-08-23 10:38 評論0 收藏0
【論文簡讀】 Deep web data extraction based on visual

摘要：第一階段設置卷積層和匯集層以學習圖像的特征。除了為輸出設置最后一個完全連接之外，第三階段設置多個連接層以過濾先前層學習的特征。據區域檢測的標準，如果，則數據區域被視為正樣本。《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學 2017 AIHC會議登載引用 Liu J, Li...

shiguibiao 2019-08-23 10:44 評論0 收藏0
[論文簡讀] Deep Neural Networks for Web Page Informati

摘要：將候選框的坐標投影到最終的特征張量，并使用提取結果向量。最后，使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取簡單介紹本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器（wrapper）本文的幾個貢獻o 提出...

kel 2019-08-22 18:30 評論0 收藏0
[論文簡讀] Deep Neural Networks for Web Page Informati

摘要：將候選框的坐標投影到最終的特征張量，并使用提取結果向量。最后，使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取簡單介紹本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器（wrapper）本文的幾個貢獻o 提出...

xiangzhihong 2019-07-30 16:58 評論0 收藏0