不到兩個(gè)月,2018年春節(jié)要來(lái)了。
“今年我得早下手,搶張回家的低價(jià)機(jī)票。”在北京打工的小王對(duì)科技日?qǐng)?bào)記者說(shuō),由于老家在云南,春節(jié)機(jī)票太貴,他都選擇坐兩天兩夜的火車(chē)回去,長(zhǎng)途跋涉,苦不堪言。
然而,就在小王摩拳擦掌,準(zhǔn)備使出“洪荒之力”搶張便宜機(jī)票時(shí),看到網(wǎng)上曝出這樣一則消息:航空公司放出的低價(jià)機(jī)票,80%以上被票務(wù)公司的“爬蟲(chóng)”搶走,普通用戶(hù)很少能買(mǎi)到。
小王傻眼了,“爬蟲(chóng)”究竟是什么鬼?它又是怎么搶機(jī)票的?難道就沒(méi)有辦法治理嗎?
借助超鏈接信息抓取網(wǎng)頁(yè)
“‘爬蟲(chóng)’技術(shù)是實(shí)現(xiàn)網(wǎng)頁(yè)信息采集的關(guān)鍵技術(shù)之一,通俗來(lái)說(shuō),‘爬蟲(chóng)’就是一段用來(lái)批量、自動(dòng)化采集網(wǎng)站數(shù)據(jù)的程序,幾乎不需要人工干預(yù)。”北京理工大學(xué)網(wǎng)絡(luò)科學(xué)與技術(shù)研究院副教授閆懷志告訴科技日?qǐng)?bào)記者。
閆懷志介紹,“爬蟲(chóng)”又稱(chēng)網(wǎng)頁(yè)“蜘蛛”、網(wǎng)絡(luò)機(jī)器人,它是一種按照一定規(guī)則自動(dòng)抓取網(wǎng)頁(yè)信息的程序或者腳本,通常駐留在服務(wù)器上。在Web網(wǎng)頁(yè)中,既包含可供用戶(hù)閱讀的文字、圖片等信息,還包含一些超鏈接信息。網(wǎng)絡(luò)“爬蟲(chóng)”正是借助這些超鏈接信息來(lái)不斷抓取網(wǎng)絡(luò)上的其他網(wǎng)頁(yè)。
“這種信息采集過(guò)程很像一個(gè)爬蟲(chóng)或蜘蛛在網(wǎng)絡(luò)上漫游,網(wǎng)絡(luò)‘爬蟲(chóng)’或網(wǎng)頁(yè)‘蜘蛛’因此得名。”閆懷志說(shuō),“爬蟲(chóng)”最早應(yīng)用在搜索引擎領(lǐng)域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互聯(lián)網(wǎng)上數(shù)百億的網(wǎng)頁(yè),它們需要借助龐大的“爬蟲(chóng)”集群來(lái)實(shí)現(xiàn)搜索功能。
當(dāng)前,“爬蟲(chóng)”已被廣泛用于電子商務(wù)、互聯(lián)網(wǎng)金融等諸多領(lǐng)域。比如,“爬蟲(chóng)”可以抓取航空公司官網(wǎng)的機(jī)票價(jià)格,發(fā)現(xiàn)低價(jià)或緊俏機(jī)票后,“爬蟲(chóng)”可以利用虛假客源的真實(shí)身份信息實(shí)現(xiàn)搶先預(yù)訂。再有,很多互聯(lián)網(wǎng)瀏覽器都推出了自己的搶票插件,以高訂票成功率來(lái)推廣瀏覽器。
根據(jù)抓取任務(wù)和目標(biāo)的不同,網(wǎng)絡(luò)“爬蟲(chóng)”可大致分為批量型、增量型和垂直型。批量型“爬蟲(chóng)”的抓取范圍和目標(biāo)較為明確,可以是網(wǎng)頁(yè)的設(shè)定數(shù)量,也可以是消耗時(shí)間的設(shè)定。增量型“爬蟲(chóng)”主要用于持續(xù)抓取更新的網(wǎng)頁(yè),以適應(yīng)網(wǎng)頁(yè)的不斷變化。垂直型“爬蟲(chóng)”主要是用于特定主題內(nèi)容或特定行業(yè)的網(wǎng)頁(yè)。