引言
从 Web 上收集特定主题数据的技术可分为两类:
①基于搜索的发现技术[1-3],主要依靠搜索引擎查找网页;
②基 于爬行的发现技术[4-6],主要利用 Web 链接结构从已下载的 网页中提取新链接,从而发现更多潜在的目标网页。
前者 适用于存在一些关键字可区分主题数据和其它数据的情 况,后者灵活性更强,代表技术就是聚焦爬虫。 与普通爬虫相比,聚焦爬虫有明确的目标指向性,在 爬取网页过程中能够丢弃不相关页面,并始终跟踪可能导 向“相关”页面的超链接,因而能更有效地收集特定主题的 数据。聚焦爬虫框架与一般爬虫基本相同,也即是说,它 从几个种子链接(Seed URL)开始,下载相关页面并提取其 中包含的超链接,然后跟踪这些超链接以获取更多页面。 不断重复该过程,直到无法以这种方式找到更多网页。
聚 焦爬虫的特殊之处在于,其会引入两个分类器——路径判 别器和目标判别器,以决定某个超链接是否值得进一步访 问,以及某页面是否值得保存。其中,路径判别器负责判 断链接值得跟踪与否,目标判别器负责根据网页与主题相关与否对其进行归类。 聚焦爬虫研究主要集中在 3 个方面:
一是如何获得更 有效的分类器,例如使用在线学习策略构建路径判别器 (目标判别器依然需要进行预训练)[7,14-18];
二是如何获得更 好的种子链接,
例如维埃拉等[3] 利用 Bing 搜索引擎,使用相 关反馈(Relevance Feedback)收集种子;
三是如何设计更好 的爬行策略[8-12,19-22]。尽管这些研究从各个方面对聚焦爬 虫进行了改进,预先训练分类器的工作仍不可省略,因此 造成了爬虫使用的不便。
由于其分类器是任务相关的,换 一个目标主题就要重新手动构建数据集进行训练。
最近,KIEN[13] 将聚焦爬行描述为一个排序问题,其跳 过分类器训练,只使用一些示例网站作为输入。从样本网 站中提取关键词,再通过关键字搜索、前向爬行和后向爬 行扩展样本网站集,其设计的系统根据与当前样本网站的 相似性选择新的样本网站。结果表明,通过适当的相似性 度量,基于排序的聚焦爬虫可取得与基于分类器的聚焦爬 虫相似的性能表现。但其问题设置与本文不同,其目标是 得到相关网站,而不是网页。因此,以上实践启发了本文 用排序器替换预训练分类器构建自举聚焦爬虫,以解决网 站群内部的主题网页发现问题。 本 文 设 计 一 种 自 举 聚 焦 爬 虫(Bootstrapping Focused Crawler,简称 BFC),该方法为聚焦爬虫提供一些示例网页, 而不是预先训练的分类器,从而可略过繁复的分类器训练 过程。该方法适用于特定网站群中的主题数据收集,例如 收集各大学录取信息、各公司招聘信息、各政府网站的政 策信息等。图 1 展示了两个爬取任务示例。任务难点在 于,上千所高校、公司虽然网站架构类似,但每个节点对应 的超链接文字用词千差万别,路径深度与目标页面特征也 存在显著差异。因此,在不预训练分类器的前提下,只提 供少量样例网页充当爬虫向导,是一种新的尝试。 由于特定网站群是众多一手信息的源头,如果能及 时、有效地收集相关信息并汇聚起来,将极大地降低信息 浏览门槛,并催生出数据可视化等应用。因此,本文提出 的网站群爬虫具有很强的现实意义。
图 1 网站群爬虫爬取任务示例
注:粗体字表示爬虫从网站根节点出发的最优爬行路径
1 自举聚焦爬虫 自举聚焦爬虫框架如图 2 所示
图 2 自举聚焦爬虫框架 程序有两个输入:
一个是网站群站点(Website)列表, 一个是少量样例网页,每个样例网页包含其所在站点的根 链接和自身链接这一对元素。
首先,对样例网页进行路径 提取与特征提取。在传统聚焦爬虫框架下,需要一个能引 导爬虫到目标节点的向导(路径判别器),以及能够区分目 标节点与其它节点的评委(目标判别器)。路径提取目标 是构建路径判别器,而特征提取目标是构建目标判别器。 区别在于,本文提出的自举聚焦爬虫用相似度排序模块替 代传统框架下的目标判别器,用类似于强化学习的手段在 · 110 ·第 8 期 线构建路径判别器。然后利用两个判别器从输入的网站 群根节点开始循环抓取网页,并不断把最相关的网页加入 网页样例库,用于更新两个判别器。该流程循环进行,直 到无法发现更多网页或达到迭代次数上限为止。 1.1 路径判别器
路径判别器本质上是一个二分类器:输入一个超链接 短文本,输出其是否与要爬取的主题相关,或沿着该链接 是否能找到与主题相关网页。在网站群爬虫这个具体应 用场景中,存在一条从站点根节点到当前页面的超链接路 径(见图 1),可利用这条路径上的前序文本增强当前链接 短文本的判断准确度。因此,本文通过路径提取将传统路 径判别器的单一短文本输入扩充为短文本列表。 在页面爬取过程中,对每个待判别的路径 t 打分,如果 分数大于阈值,则判定为相关链接。计算公式如下: f (t) = åw Î tαw 其中,超文本 w 是路径 t 中的词,αw 是 w 的权重,其 初始化使用了样例库提供的信息。具体而言,本文把从样 例网页中提取的路径集中起来,分词后统计每个词的词 频,形成各词的初始权重。其它词默认初始权重为-1,以 惩罚路径中存在过多未知词。在爬取过程中,αw 采用类似 强化学习的策略进行更新。每当一个路径 t 被判定为相 关,其包含词的对应权重都消耗 1;每当找到一个目标网 页,其对应路径中的词权重奖励 2。
1.2 相似度排序
在目标判别环节,本文用排序器替换预训练的分类 器。
具体而言,爬虫根据访问页面与示例网页的相似性对 其进行排序,将相似度大于阈值的网页作为相关网页输 出,并同时将排名前 p%的网页添加到示例库,开始下一轮 迭代。 在计算网页相似度时,采用以下公式: s( x) = -dcos( x x) 其中,dcos 是余弦距离,x 是从待评估网页标题和内容 中提取文本的词袋模型(Bag of Words)向量表示,x 是样例 网页整合成单一文档生成的词袋模型向量表示。该公式 计算的相似度是目标网页与样例库的总体平均相似性。
2 爬取效果
2.1 实验任务与数据集
本文按照中国大学排行榜,收集了中国排名前 200 的 大学官方网站页面集合作为实验数据集。为检验爬虫性 能,定义主题爬取任务如下:获取高校历史录取分数相关 页面。本文手动标记每个站点与所需主题相关页面(URL) 作为真实标签,数据集页面总数为 41 600,其中正样本数量 为 1 033。 为得到样例网页库作为算法输入,本文从 200 个网站 中随机抽取 3 个网站,并为每个网站标记一个示例页面,得 到 3 个样例(每个样例含有一对数据,即目标网页的 URL 以 及所在网站根节点的 URL)。通过对 4 组使用不同样例集 的爬虫计算平均得分,得到 BFC 性能得分。
2.2 效果展示
本 文 选 取 传 统 聚 焦 爬 虫(FC)作 为 基 线 算 法 进 行 对 比。出于公平性考虑,FC 所需分类器基于样例网页库的少 量正样本,采用 KNN 算法获得。本文提出的自举聚焦爬虫 (BFC)与基线算法 FC 在高校历史录取分数爬取任务中的 表现对比如表 1 所示。 表 1 BFC 与 FC 在录取分数爬取任务中表现对比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到,BFC 的准确率(Precision)比传统方法 FC 低很多,其原因是 FC 爬取页面数量较少,以极低的召回 率(Recall)为代价获得了较高准确率。然而,在爬虫实际 使用过程中,召回率更为重要,因为要尽可能全面地收集 所需信息,而在自动筛选环节一旦遗漏相关信息,就很难 再找到目标网页。在召回率方面,BFC 的表现远好于 FC。 综合准确率和召回率的指标 F1-Score 也显示 BFC 的性能 优于 FC。 爬取部分结果如
图 3 所示。图中 name 列输出爬取站 点,url 列输出任务相关页面网址,path 列输出从网站根节 点到页面的路径,score是该页面相关性得分
参考文献:
[1] DISHENG Q,LUCIANO B,XIN L,et al. Dexter:large-scale discov⁃ ery and extraction of product specifications on the web[C]. Proceed⁃ ings of the VLDB Endowment,2015:2194-2205.
[2] XUEZHI W,CONG Y,SIMON B,et al. Relevant document discovery for fact-checking articles[C]. In Companion Proceedings of the Web Conference,2018:525-533.
[3] KARANE V,LUCIANO B,ALTIGRAN S D S,et al. Finding seeds to bootstrap focused crawlers[C]. In The World Wide Web Confer⁃ ence,2016:449-474.
[4] LUCIANO B,SRINIVAS B,VIVEK K R S. Crawling back and forth: using back and out links to locate bilingual sites[C]. In Proceedings of 5th International Joint Conference on Natural Language Processing, 2011:429-437.
[5] TSUYOSHI M. Finding related web pages based on connectivity infor⁃ mation from a search engine[C]. In WWW Posters,2001.
[6] LUCIANO B. Harvesting forum pages from seed sites[C]. In Interna⁃ tional Conference on Web Engineering,2017:457-468.
[7] MCCALLUM A,NIGAM K,RENNIE J,et al. A machine learning ap⁃ proach to building domain-specific search engines[C]. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli⁃ gence,1999:662-667.
[8] MICHAEL H,MICHAL J,YOELLE S M,et al. The shark-search al⁃ gorithm. An application:tailored Web site mapping[J]. Computer Networks & Isdn Systems,1998,30(1-7):317-326. [9] BERGMARK D,LAGOZE C,SBITYAKOV A. Focused crawls,tun⁃ neling,and digital libraries [C]. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar⁃ ies,2002. [10] MARISTELLA A,COSTANTINO T. Research and Advanced Tech⁃ nology of digital libraries[M]. Springer Berlin Heidelberg,2002: 91-106.
[11] 叶勤勇. 基于 URL 规则的聚焦爬虫及其应用[D]. 杭州:浙江大 学,2007
[12] BRA P M E D,POST R D J. Information retrieval in the World-Wide Web:making client-based searching feasible[J]. Computer Net⁃ works & Isdn Systems,1994,27(2):183-192.
[13] KIEN P,AECIO S,JULIANA F. Bootstrapping domain-specifific con⁃ tent discovery on the Web[C]. In The World Wide Web Conference, 2019:1476-1486.
[14] 傅向华,冯博琴,马兆丰,等. 可在线增量自学习的聚焦爬行方法 [J]. 西安交通大学学报,2004,38(6):599-602.
[15] 刘国靖,康丽,罗长寿. 基于遗传算法的主题爬虫策略[J]. 计算机 应用,2007,27(12):172-174.
[16] 曾广朴,范会联. 基于遗传算法的聚焦爬虫搜索策略[J]. 计算机 工程,2010,36(11):167-169.
[17] 童亚拉. 自适应动态演化粒子群算法在 Web 主题信息搜索中的应 用[J]. 武汉大学学报(信息科学版),2008,33(12):1296-1299.
[18] 贺晟,程家兴,蔡欣宝. 基于模拟退火算法的主题爬虫[J]. 计算机 技术与发展,2009,19(12):55-58.
[19] 宋海洋,刘晓然,钱海俊. 一种新的主题网络爬虫爬行策略[J]. 计 算机应用与软件,2011,28(11):264-267.
[20] 谢志妮. 一种新的基于概念树的主题网络爬虫方法[J]. 计算机与 现代化,2010,176(4):103-106.
[21] 左薇,张熹,董红娟,等. 主题网络爬虫研究综述[J]. 软件导刊, 2020,19(2):278-281.
[22] 韩 瑞 昕. 基 于 时 效 性 的 爬 虫 调 度[J]. 软 件 导 刊 ,2020,19(1): 108-112.
|转载请注明来源地址:蜘蛛池出租 https://www.vikiseo.com/专注于SEO培训,快速排名黑帽SEO https://www.heimao.wiki
评论列表