雅虎开源web爬虫工具Anthelion,能解析网页结构化数据
雅虎近日宣布开源web爬虫工具Anthelion,该工具可以解析HTML页面中的结构化数据。
Web爬虫是雅虎的核心技术,因此雅虎在这个领域发布开源工具显得不同寻常。此前雅虎刚刚宣布将剥离一些核心业务(但不包括阿里巴巴的股份),此外雅虎首席执行官Marissa Mayer刚刚生下双胞胎。
去年在上海的一个信息知识管理会议上,雅虎曾在一篇 论文 中详细介绍了Anthelion。该论文的作者指出:“雅虎的爬虫技术开创了业界的先河,那就是专注于那些通过Microdata、Microformats或RDFa等markup语言嵌入HTML页面的语义数据。
Microdata和RDFa是标记不同结构化数据的句法格式,他们都兼容 Schema.org 的结构化数据词汇库,而Schema.org是谷歌、雅虎和Bing搜索引擎共同支持的项目。
雅虎研究人员还在论文中展示了Anthelion爬虫技术的部署如何提高了搜索查询的相关结果数量。
Anthelion的源代码目前已经托管到GitHub,作为Apache Nutch开源web爬虫项目的一个组件。
雅虎研究人员在Tumblr发 博文 指出,Anthelion能定向检索特定网页,例如那些使用markup标记电影名称和演员等至少两种属性的网页。
原文链接:http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。