站群收录：面向网站群的主题爬虫研_黑帽蜘蛛池

站群收录：面向网站群的主题爬虫研

yupang 黑帽蜘蛛池 0条留言 973 次浏览 5年前 (2021-12-10) [编辑]

引言

从 Web 上收集特定主题数据的技术可分为两类：

①基于搜索的发现技术［1-3］，主要依靠搜索引擎查找网页；

②基于爬行的发现技术［4-6］，主要利用 Web 链接结构从已下载的网页中提取新链接，从而发现更多潜在的目标网页。

前者适用于存在一些关键字可区分主题数据和其它数据的情况，后者灵活性更强，代表技术就是聚焦爬虫。与普通爬虫相比，聚焦爬虫有明确的目标指向性，在爬取网页过程中能够丢弃不相关页面，并始终跟踪可能导向“相关”页面的超链接，因而能更有效地收集特定主题的数据。聚焦爬虫框架与一般爬虫基本相同，也即是说，它从几个种子链接（Seed URL）开始，下载相关页面并提取其中包含的超链接，然后跟踪这些超链接以获取更多页面。不断重复该过程，直到无法以这种方式找到更多网页。

聚焦爬虫的特殊之处在于，其会引入两个分类器——路径判别器和目标判别器，以决定某个超链接是否值得进一步访问，以及某页面是否值得保存。其中，路径判别器负责判断链接值得跟踪与否，目标判别器负责根据网页与主题相关与否对其进行归类。聚焦爬虫研究主要集中在 3 个方面：

一是如何获得更有效的分类器，例如使用在线学习策略构建路径判别器（目标判别器依然需要进行预训练）［7，14-18］；

二是如何获得更好的种子链接，

例如维埃拉等［3］利用 Bing 搜索引擎，使用相关反馈（Relevance Feedback）收集种子；

三是如何设计更好的爬行策略［8-12，19-22］。尽管这些研究从各个方面对聚焦爬虫进行了改进，预先训练分类器的工作仍不可省略，因此造成了爬虫使用的不便。

由于其分类器是任务相关的，换一个目标主题就要重新手动构建数据集进行训练。

最近，KIEN［13］将聚焦爬行描述为一个排序问题，其跳过分类器训练，只使用一些示例网站作为输入。从样本网站中提取关键词，再通过关键字搜索、前向爬行和后向爬行扩展样本网站集，其设计的系统根据与当前样本网站的相似性选择新的样本网站。结果表明，通过适当的相似性度量，基于排序的聚焦爬虫可取得与基于分类器的聚焦爬虫相似的性能表现。但其问题设置与本文不同，其目标是得到相关网站，而不是网页。因此，以上实践启发了本文用排序器替换预训练分类器构建自举聚焦爬虫，以解决网站群内部的主题网页发现问题。本文设计一种自举聚焦爬虫（Bootstrapping Focused Crawler，简称 BFC），该方法为聚焦爬虫提供一些示例网页，而不是预先训练的分类器，从而可略过繁复的分类器训练过程。该方法适用于特定网站群中的主题数据收集，例如收集各大学录取信息、各公司招聘信息、各政府网站的政策信息等。图 1 展示了两个爬取任务示例。任务难点在于，上千所高校、公司虽然网站架构类似，但每个节点对应的超链接文字用词千差万别，路径深度与目标页面特征也存在显著差异。因此，在不预训练分类器的前提下，只提供少量样例网页充当爬虫向导，是一种新的尝试。由于特定网站群是众多一手信息的源头，如果能及时、有效地收集相关信息并汇聚起来，将极大地降低信息浏览门槛，并催生出数据可视化等应用。因此，本文提出的网站群爬虫具有很强的现实意义。

图 1 网站群爬虫爬取任务示例

注：粗体字表示爬虫从网站根节点出发的最优爬行路径

1 自举聚焦爬虫自举聚焦爬虫框架如图 2 所示

图 2 自举聚焦爬虫框架程序有两个输入：

一个是网站群站点（Website）列表，一个是少量样例网页，每个样例网页包含其所在站点的根链接和自身链接这一对元素。

首先，对样例网页进行路径提取与特征提取。在传统聚焦爬虫框架下，需要一个能引导爬虫到目标节点的向导（路径判别器），以及能够区分目标节点与其它节点的评委（目标判别器）。路径提取目标是构建路径判别器，而特征提取目标是构建目标判别器。区别在于，本文提出的自举聚焦爬虫用相似度排序模块替代传统框架下的目标判别器，用类似于强化学习的手段在 · 110 ·第 8 期线构建路径判别器。然后利用两个判别器从输入的网站群根节点开始循环抓取网页，并不断把最相关的网页加入网页样例库，用于更新两个判别器。该流程循环进行，直到无法发现更多网页或达到迭代次数上限为止。 1.1 路径判别器

路径判别器本质上是一个二分类器：输入一个超链接短文本，输出其是否与要爬取的主题相关，或沿着该链接是否能找到与主题相关网页。在网站群爬虫这个具体应用场景中，存在一条从站点根节点到当前页面的超链接路径（见图 1），可利用这条路径上的前序文本增强当前链接短文本的判断准确度。因此，本文通过路径提取将传统路径判别器的单一短文本输入扩充为短文本列表。在页面爬取过程中，对每个待判别的路径 t 打分，如果分数大于阈值，则判定为相关链接。计算公式如下： f (t) = åw Î tαw 其中，超文本 w 是路径 t 中的词，αw 是 w 的权重，其初始化使用了样例库提供的信息。具体而言，本文把从样例网页中提取的路径集中起来，分词后统计每个词的词频，形成各词的初始权重。其它词默认初始权重为-1，以惩罚路径中存在过多未知词。在爬取过程中，αw 采用类似强化学习的策略进行更新。每当一个路径 t 被判定为相关，其包含词的对应权重都消耗 1；每当找到一个目标网页，其对应路径中的词权重奖励 2。

1.2 相似度排序

在目标判别环节，本文用排序器替换预训练的分类器。

具体而言，爬虫根据访问页面与示例网页的相似性对其进行排序，将相似度大于阈值的网页作为相关网页输出，并同时将排名前 p%的网页添加到示例库，开始下一轮迭代。在计算网页相似度时，采用以下公式： s( x) = -dcos( x x) 其中，dcos 是余弦距离，x 是从待评估网页标题和内容中提取文本的词袋模型（Bag of Words）向量表示，x 是样例网页整合成单一文档生成的词袋模型向量表示。该公式计算的相似度是目标网页与样例库的总体平均相似性。

2 爬取效果

2.1 实验任务与数据集

本文按照中国大学排行榜，收集了中国排名前 200 的大学官方网站页面集合作为实验数据集。为检验爬虫性能，定义主题爬取任务如下：获取高校历史录取分数相关页面。本文手动标记每个站点与所需主题相关页面（URL）作为真实标签，数据集页面总数为 41 600，其中正样本数量为 1 033。为得到样例网页库作为算法输入，本文从 200 个网站中随机抽取 3 个网站，并为每个网站标记一个示例页面，得到 3 个样例（每个样例含有一对数据，即目标网页的 URL 以及所在网站根节点的 URL）。通过对 4 组使用不同样例集的爬虫计算平均得分，得到 BFC 性能得分。

2.2 效果展示

本文选取传统聚焦爬虫（FC）作为基线算法进行对比。出于公平性考虑，FC 所需分类器基于样例网页库的少量正样本，采用 KNN 算法获得。本文提出的自举聚焦爬虫（BFC）与基线算法 FC 在高校历史录取分数爬取任务中的表现对比如表 1 所示。表 1 BFC 与 FC 在录取分数爬取任务中表现对比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到，BFC 的准确率（Precision）比传统方法 FC 低很多，其原因是 FC 爬取页面数量较少，以极低的召回率（Recall）为代价获得了较高准确率。然而，在爬虫实际使用过程中，召回率更为重要，因为要尽可能全面地收集所需信息，而在自动筛选环节一旦遗漏相关信息，就很难再找到目标网页。在召回率方面，BFC 的表现远好于 FC。综合准确率和召回率的指标 F1-Score 也显示 BFC 的性能优于 FC。爬取部分结果如

图 3 所示。图中 name 列输出爬取站点，url 列输出任务相关页面网址，path 列输出从网站根节点到页面的路径，score是该页面相关性得分

参考文献：

［1］ DISHENG Q，LUCIANO B，XIN L，et al. Dexter：large-scale discov⁃ ery and extraction of product specifications on the web［C］. Proceed⁃ ings of the VLDB Endowment，2015：2194-2205.

［2］ XUEZHI W，CONG Y，SIMON B，et al. Relevant document discovery for fact-checking articles［C］. In Companion Proceedings of the Web Conference，2018：525-533.

［3］ KARANE V，LUCIANO B，ALTIGRAN S D S，et al. Finding seeds to bootstrap focused crawlers［C］. In The World Wide Web Confer⁃ ence，2016：449-474.

［4］ LUCIANO B，SRINIVAS B，VIVEK K R S. Crawling back and forth： using back and out links to locate bilingual sites［C］. In Proceedings of 5th International Joint Conference on Natural Language Processing， 2011：429-437.

［5］ TSUYOSHI M. Finding related web pages based on connectivity infor⁃ mation from a search engine［C］. In WWW Posters，2001.

［6］ LUCIANO B. Harvesting forum pages from seed sites［C］. In Interna⁃ tional Conference on Web Engineering，2017：457-468.

［7］ MCCALLUM A，NIGAM K，RENNIE J，et al. A machine learning ap⁃ proach to building domain-specific search engines［C］. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli⁃ gence，1999：662-667.

［8］ MICHAEL H，MICHAL J，YOELLE S M，et al. The shark-search al⁃ gorithm. An application：tailored Web site mapping［J］. Computer Networks & Isdn Systems，1998，30（1-7）：317-326. ［9］ BERGMARK D，LAGOZE C，SBITYAKOV A. Focused crawls，tun⁃ neling，and digital libraries ［C］. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar⁃ ies，2002. ［10］ MARISTELLA A，COSTANTINO T. Research and Advanced Tech⁃ nology of digital libraries［M］. Springer Berlin Heidelberg，2002： 91-106.

［11］叶勤勇. 基于 URL 规则的聚焦爬虫及其应用［D］. 杭州：浙江大学，2007

［12］ BRA P M E D，POST R D J. Information retrieval in the World-Wide Web：making client-based searching feasible［J］. Computer Net⁃ works & Isdn Systems，1994，27（2）：183-192.

［13］ KIEN P，AECIO S，JULIANA F. Bootstrapping domain-specifific con⁃ tent discovery on the Web［C］. In The World Wide Web Conference， 2019：1476-1486.

［14］傅向华，冯博琴，马兆丰，等. 可在线增量自学习的聚焦爬行方法［J］. 西安交通大学学报，2004，38（6）：599-602.

［15］刘国靖，康丽，罗长寿. 基于遗传算法的主题爬虫策略［J］. 计算机应用，2007，27（12）：172-174.

［16］曾广朴，范会联. 基于遗传算法的聚焦爬虫搜索策略［J］. 计算机工程，2010，36（11）：167-169.

［17］童亚拉. 自适应动态演化粒子群算法在 Web 主题信息搜索中的应用［J］. 武汉大学学报（信息科学版），2008，33（12）：1296-1299.

［18］贺晟，程家兴，蔡欣宝. 基于模拟退火算法的主题爬虫［J］. 计算机技术与发展，2009，19（12）：55-58.

［19］宋海洋，刘晓然，钱海俊. 一种新的主题网络爬虫爬行策略［J］. 计算机应用与软件，2011，28（11）：264-267.

［20］谢志妮. 一种新的基于概念树的主题网络爬虫方法［J］. 计算机与现代化，2010，176（4）：103-106.

［21］左薇，张熹，董红娟，等. 主题网络爬虫研究综述［J］. 软件导刊， 2020，19（2）：278-281.

［22］韩瑞昕. 基于时效性的爬虫调度［J］. 软件导刊，2020，19（1）： 108-112.

|转载请注明来源地址：蜘蛛池出租 https://www.vikiseo.com/
专注于SEO培训，快速排名黑帽SEO https://www.heimao.wiki

原文链接：https://www.vikiseo.com/post/48718.html

设置Tag是个好习惯

评论列表

发表评论:

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

日历

« 2026年5月 »
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

搜索

控制面板

您好，欢迎到访网站！
查看权限

网站分类

作者列表

yupang (104)

站点信息

文章总数:12649
页面总数:3
分类总数:7
标签总数:40
评论总数:5520
浏览总数:4152389

蜘蛛池出租