日韩亚洲欧美色欲在线_精品无码aⅴ人妻受辱系列_大陆国语一级毛片_亚洲国产日韩不卡综合

有關(guān)河北百度愛采購的經(jīng)營思路

日期:2020年05月15日 /人氣: /來源:本站原創(chuàng)

    河北百度愛采購策略思路很直接:以網(wǎng)站為單位來衡量網(wǎng)頁重要性,對(duì)于待抓取URL隊(duì)列中的網(wǎng)頁,根據(jù)所屬網(wǎng)站歸類,如果哪個(gè)網(wǎng)站等待下載的頁面最多,則優(yōu)先下載這些鏈接。其本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站,因?yàn)榇笮途W(wǎng)站往往包含更多的頁面。鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容,其網(wǎng)頁質(zhì)量一般較高,所以這個(gè)思路雖然簡單,但是有一定依據(jù)。實(shí)驗(yàn)表明這個(gè)算法效果也要略優(yōu)于寬度優(yōu)先遍歷策略;ヂ(lián)網(wǎng)的動(dòng)態(tài)性是其顯著特征,隨時(shí)都有新出現(xiàn)的頁面,頁面的內(nèi)容被更改或者本來存在的頁面被刪除。對(duì)于爬蟲來說,并非將網(wǎng)頁抓取到本地就算完成任駑,也要體現(xiàn)出互聯(lián)網(wǎng)的這種動(dòng)態(tài)性。本地下載的網(wǎng)頁可被看做是互聯(lián)網(wǎng)頁面的“鏡像”,爬蟲要盡可能保證其一致性。可以假設(shè)種情況:某個(gè)網(wǎng)頁已被刪除或者內(nèi)容做岀重大變動(dòng),而搜索引擎對(duì)此惘然無知,仍然按其舊有內(nèi)容排序,將其作為搜索結(jié)果提供給用戶,其用戶體驗(yàn)之糟糕不言而喻。所以,對(duì)于已經(jīng)抓取過的網(wǎng)頁,河北百度愛采購還要負(fù)責(zé)保持其內(nèi)容和互聯(lián)網(wǎng)頁面內(nèi)容的同步,這取決于爬蟲所采用的網(wǎng)頁更新策略。網(wǎng)頁更新策略的任務(wù)是要決定何時(shí)重新抓取之前已經(jīng)下載過的網(wǎng)頁,以盡可能使得本地下載網(wǎng)頁和互聯(lián)網(wǎng)原始頁面內(nèi)容保持致。常用的網(wǎng)頁更新策略有3種:歷史參考策略、用戶體驗(yàn)策略和聚類抽樣策略。
    歷史參考策略是最直觀的_種更新策略,它建立于如下假設(shè)之上:過去頻繁更新的網(wǎng)頁,那么將來也會(huì)頻繁更新。所以,為了預(yù)估某個(gè)網(wǎng)頁何時(shí)進(jìn)行更新,可以通過參考其歷史更新情況來做出決定。這種方法往往利用泊松過程來對(duì)網(wǎng)頁的變化進(jìn)行建模,根據(jù)每個(gè)網(wǎng)頁過去的變動(dòng)情況,利用模型預(yù)測(cè)將來何時(shí)內(nèi)容會(huì)再次發(fā)生變化,以此來指導(dǎo)爬蟲的抓取過程。但是不同方法側(cè)重不盡相同,比如有的研究將一個(gè)網(wǎng)頁劃分成不同的區(qū)域,抓取策略應(yīng)該忽略掉廣告欄或者導(dǎo)航欄這種不重要區(qū)域的頻繁變化,而集中在主題內(nèi)容的變化探測(cè)和建模上。一般來說,搜索引擎用戶提交查詢后,相關(guān)的搜索結(jié)果可能成干上萬,而用戶沒有耐心查看排在后面的搜索結(jié)果,往往只查看前3頁搜索內(nèi)容。用戶體驗(yàn)策略就是利用搜索引擎用戶的這個(gè)特點(diǎn)來設(shè)計(jì)更新策略的。這種更新策略以用戶體驗(yàn)為核心,即使本地索引的網(wǎng)頁內(nèi)容是過時(shí)的,但是如果不影響用戶體驗(yàn),那么晚些更新這些過時(shí)網(wǎng)頁也未嘗不可。所以判斷個(gè)網(wǎng)頁何時(shí)更新為好,取決于這個(gè)網(wǎng)頁的內(nèi)容變化所帶來搜索質(zhì)量的變化(往往采用搜索結(jié)果排名的變化來衡量),影響越大的網(wǎng)頁,則應(yīng)該越快更新。
    河北百度愛采購用戶體驗(yàn)策略保存網(wǎng)頁的多個(gè)歷史版本,并根據(jù)過去每次內(nèi)容變化對(duì)搜索質(zhì)量的影響,得出一個(gè)平均值,以此作為判斷爬蟲重抓該網(wǎng)頁時(shí)機(jī)的參考依據(jù),對(duì)于影響越厲害的網(wǎng)頁,則越優(yōu)先調(diào)度重新抓取。上面介紹的兩種網(wǎng)頁更新策略嚴(yán)重依賴網(wǎng)頁的歷史更新信息,因?yàn)檫@是能夠進(jìn)行后續(xù)計(jì)算的基礎(chǔ)。但是在現(xiàn)實(shí)中,為每個(gè)網(wǎng)頁保存其歷史信息,搜索系統(tǒng)會(huì)大量增加額外負(fù)擔(dān)。從另外個(gè)角度考慮,如果是首次抓取到的網(wǎng)頁,因?yàn)闆]有歷史信息,所以也就無法按照這兩種思路去預(yù)估其更新周期。聚類抽樣策略即是為了解決上述缺點(diǎn)而提出的聚類抽樣策略認(rèn)為:網(wǎng)頁具有一些屬性,根據(jù)這些屬性可以預(yù)測(cè)其更新周期,具有相似屬性的網(wǎng)頁,其更新周期也是類似的。于是,可以根據(jù)這些屬性將網(wǎng)頁歸類,同一類別內(nèi)的網(wǎng)頁具有相同的更新頻率。為了計(jì)算某個(gè)類別的更新周期,只需對(duì)類別內(nèi)網(wǎng)頁進(jìn)行采樣,以這些被采樣網(wǎng)頁的更新周期作為類別內(nèi)所有其他網(wǎng)頁的更新周期。與之前敘述的兩種方法相比較,這種策略方面無須為每個(gè)網(wǎng)頁保存歷史信息;另一方面,對(duì)于新網(wǎng)頁,即使沒有歷史信息,也可以根據(jù)其所屬類別來對(duì)其進(jìn)行更新。

作者:chuangxinkeji

上一頁: 有關(guān)河北百度愛采購產(chǎn)業(yè)結(jié)構(gòu)的升級(jí)   下一頁: 有關(guān)河北百度愛采購搜索數(shù)據(jù)的查詢