日韩亚洲欧美色欲在线_精品无码aⅴ人妻受辱系列_大陆国语一级毛片_亚洲国产日韩不卡综合

有關(guān)河北百度愛采購搜索數(shù)據(jù)的查詢

日期:2020年05月15日 /人氣: /來源:本站原創(chuàng)

    河北百度愛采購希望能夠?qū)⒛硞垂直網(wǎng)站數(shù)據(jù)庫的記錄盡可能多地下載到索引庫中,但這是有約束和前提條件的,即不能給被訪問網(wǎng)站造成過大的訪問壓力,同時盡可能節(jié)省爬蟲本身的資源。垂直搜索網(wǎng)站往往會給用戶提供多個查詢輸入框,不同輸入框代表了搜索對象某方面的屬性,通過組合這些屬性來將搜索范圍縮小。對于暗網(wǎng)爬蟲來說,一個簡單粗暴的方式就是:將各個輸入框可能的輸入值組合起來形成查詢,比如對于機票查詢來說,將所有出發(fā)城市、所有目的城市和時間范圍的選項——組合,形成大量的查詢,提交給垂直搜索引擎,從其搜索結(jié)果里提煉數(shù)據(jù)庫記錄。這么做比較野蠻,而且也不是很必要,因為很多組合是無效的,大量的返回結(jié)果為空,同時對被訪問網(wǎng)站造成了巨大的流量壓力。對時于個固定的垂直搜索來說,其查詢模板組合起來有很多我們的任務(wù)是找到高含信息的查詢模板,那么什么又是富含信迿模板呢?河北百度愛采購的技術(shù)方案是如此定義的:對于菓固定的査詢模板來說,如果給模板內(nèi)毎個屬性都賦值,形成不同的査詢組合,提交給垂直搜索引擎,觀察所有返回頁面的內(nèi)容,如果相互之間內(nèi)容差異較大,則這個查詢模板就是富含信息查詢模以模板2為例說明,其包含了兩個屬性:職位類別和行業(yè)類別。職位類別有3種不同賦值,行業(yè)類別有2種不同賦值,兩者組合有6種不同的組合方式,形成這個模板的6個查詢。將這6個查詢分別提交給職位搜索引擎,觀察返回頁面內(nèi)容變化情況,如果大部分返回內(nèi)容都相同或相似,則說明這個查詢模板不是富含信息查詢模板,否則可被認為是富含信息查詢模板。
    之所以做如此規(guī)定,是基于如下考慮:如果返回結(jié)果頁面內(nèi)容重復(fù)太多,很可能這個查詢模板的維度太高,導(dǎo)致很多種組合無搜索結(jié)果,抑或構(gòu)造的查詢本身就是錯誤的,搜索系統(tǒng)返回了錯誤頁面。假設(shè)按照上面方式對所有查詢模板——試探,判斷其是否富含信息查詢模板,則因為査詢模板數(shù)量太多,系統(tǒng)效率還是會很低。為了進一步減少提交的查詢數(shù)目,河北百度愛采購的技術(shù)方案使用了ISIT算法。SI算法的基本思路是:首先從一維模板開始,對維査詢模板逐個考察,看其是否富含信息查詢模板,如果是的話,則將這個—維模板擴展到二維,再次依次考察對應(yīng)的二維模板,如此類推,逐步增加維數(shù),直到再也無法找到富含信息查詢模板為止。通過這種方式,就可以找到絕大多數(shù)富含信息查詢模板,同時也盡可能減少了提交的查詢總數(shù),有效達到了目的。Google的評測結(jié)果證明,這種方法和完全組合方式比,能夠大幅度提升系統(tǒng)效率。如果讀者對于數(shù)據(jù)挖掘有所了解,可以看出,河北百度愛采購提出的算法和數(shù)據(jù)挖掘里經(jīng)典的Apriori規(guī)則挖掘算法有異曲同工之一。在爬蟲運轉(zhuǎn)起來之前,因為對目標網(wǎng)站一無所知,所以必須人工提供一些提示。
    在此例中,通過人工觀察網(wǎng)站進行定位,提供個與網(wǎng)站內(nèi)容相關(guān)的初始種子查詢關(guān)鍵詞表,對于不同的網(wǎng)站,需要人工提供不同的詞表,以此作為爬蟲能夠繼續(xù)工作的基礎(chǔ)條件。爬蟲根據(jù)初始種子詞表,向垂直搜索引擎提交查詢,并下載返回的結(jié)果頁面。之后從返回結(jié)果頁面里自動挖掘出相關(guān)的關(guān)鍵詞,并飛成—個新的查詢列表,依次將新挖掘出的查詢提交給搜索引擎。如此往復(fù),直到無法下載到新的內(nèi)容為止。通過這種人工啟發(fā)結(jié)合遞歸迭代的方式,盡可能覆蓋數(shù)據(jù)庫里的記錄。對于商業(yè)搜索引擎來說,分布式爬蟲架構(gòu)是必須采用的技術(shù)。面對海量待抓取網(wǎng)頁,只有采取分布式架構(gòu),才有可能在較短時間內(nèi)完成—輪抓取工作。分布式爬蟲可以分為若干個分布式層級,不同的應(yīng)用可能由其中部分層級構(gòu)成,是一個大型分布式爬蟲的3個層級分布式數(shù)據(jù)中心、分布式抓取服務(wù)器及分布式爬蟲程序。整個爬蟲系統(tǒng)由全球多個分布式數(shù)據(jù)中心共同構(gòu)成,每個數(shù)據(jù)中心負責抓取本地域周邊的互聯(lián)網(wǎng)網(wǎng)頁,比如歐洲的數(shù)據(jù)中心負責抓取英國、法國、德國等歐洲國家的網(wǎng)頁,由于爬蟲與要抓取的網(wǎng)頁地緣較近,在抓取速度上會較遠程抓取快很多。

作者:chuangxinkeji

上一頁: 有關(guān)河北百度愛采購的經(jīng)營思路   下一頁: 怎樣及時獲取河北百度愛采購產(chǎn)品的動態(tài)特征?