雅虎開源解析HTML頁面數據的Web爬取工具Anthelion

2016-02-02 14:02 來源:venturebeat.com
瀏覽量: 收藏:0 分享

  2015年12月14日,Yahoo宣布開源解析HTML頁面結構數據的Web爬取工具Anthelion.Web爬行工具是Yahoo很重要的核心,甚至超過了其他應用:YahooMail,YahooFinance,YahooMessenger,Flickr和Tumblr。

  2014年在上海的一次會議中,Yahoo也詳細提到了Anthelion:“Anthelion最初專注于語義數據,使用標記語言嵌入到HTML頁面,比如Microdata,Microformat或者RDFa。”這次會議還提到了爬取技術是如何實現的,為什么能提供更高數量的特定搜索查詢相關的結果。

  Microdata和RDFa是結構數據關于不同主題的語法格式,兼容schema。org詞匯(一個Google,Yahoo和Bing搜索引擎都在研究的項目)aprojectthattheGoogle,Yahoo,andBingsearchenginesallworkon。

  Anthelion的代碼現在以Apache開源授權協議托管到GitHub:https://github。com/yahoo/anthelion,包含ApacheNutch完整源代碼。

  Anthelion可以根據設定目標爬取特定頁面,比如,包括標記描述影片和至少兩個不同屬性(比如電影標題和演員)。

標簽:

投稿人:admin
在線客服
11选5网赌哪个平台靠谱