Focused Crawler
聚焦爬虫(Focused Crawler)
三个主要的组成部分:
- 主题爬行器
- 检索器
- 管理平台
主题爬行器
主题爬行器是实现基于主题的信息采集功能的核心组成部分,一般由爬行队列、网络连接器、主题模型、内容相关度分析以及链接相关度分析等功能模块组成
爬行队列是由一系列主题相关度较高的URL组成。爬行队列在主题搜索引擎进行主题搜索之初是由种子站点组成,这些种子站点可以由该行业领域的专家给出,也可以借助一些权威网站 自动生成。在搜索过程开始之后,系统发现新的URL,并根据主题相关度对其排序后补充到爬行队列中。网络连接器则根据爬行队列中的URL,与网络建立连接后以下载其所指页面内容。
网络连接器
主题模型由“主题建模”方法来实现,“主题词法”是常用的主题建模方法,“关键词法”以一组特征关键词来表示主题内容,包括“用户需求主题”以及“文档内容主题”,一个关键词可以是单个的词、短语, 包括“权重”、“语种”等属性,常用的相关度算法是“词频统计法”。
内容相关度分析是指系统对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何,过滤无关页面,保留相关度达到阈值的网页。
链接相关度分析是指系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求的URL加入到爬行队列 中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到。
检索器
检索器为用户提供查询界面,根据用户提出的检索式对索引数据库进行检索,按相关度高低对查询结果排序后将页面链接及相关信息返回给用户 。
管理平台
管理平台负责对整个系统进行监控和管理。主要实现确定主题、初始化爬行器、控制爬行过程、协调优化模块间功能实现、用户交互等功能。作为一个完善的搜索引擎,管理平台还应供跨平台应用网络服务应用接口。
URL队列(URL Frontier)
聚焦爬虫(Focused Crawler)
蜘蛛(Spider)
超级英雄(Super Hero)
蜘蛛侠(Spider Man)
钢铁侠(Iron Man)
蚁人(Ant Man)