最新国产麻豆aⅴ精品无码_少妇无码av无码线_一级A级毛片免费播放_一级A级毛片免费播放

有關(guān)河北百度愛采購的經(jīng)營思路

日期：2020年05月15日 /人氣： /來源：本站原創(chuàng)

    河北百度愛采購策略思路很直接：以網(wǎng)站為單位來衡量網(wǎng)頁重要性，對(duì)于待抓取URL隊(duì)列中的網(wǎng)頁，根據(jù)所屬網(wǎng)站歸類，如果哪個(gè)網(wǎng)站等待下載的頁面最多，則優(yōu)先下載這些鏈接。其本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站，因?yàn)榇笮途W(wǎng)站往往包含更多的頁面。鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容，其網(wǎng)頁質(zhì)量一般較高，所以這個(gè)思路雖然簡單，但是有一定依據(jù)。實(shí)驗(yàn)表明這個(gè)算法效果也要略優(yōu)于寬度優(yōu)先遍歷策略�；ヂ�(lián)網(wǎng)的動(dòng)態(tài)性是其顯著特征，隨時(shí)都有新出現(xiàn)的頁面，頁面的內(nèi)容被更改或者本來存在的頁面被刪除。對(duì)于爬蟲來說，并非將網(wǎng)頁抓取到本地就算完成任駑，也要體現(xiàn)出互聯(lián)網(wǎng)的這種動(dòng)態(tài)性。本地下載的網(wǎng)頁可被看做是互聯(lián)網(wǎng)頁面的“鏡像”，爬蟲要盡可能保證其一致性。可以假設(shè)種情況：某個(gè)網(wǎng)頁已被刪除或者內(nèi)容做岀重大變動(dòng)，而搜索引擎對(duì)此惘然無知，仍然按其舊有內(nèi)容排序，將其作為搜索結(jié)果提供給用戶，其用戶體驗(yàn)之糟糕不言而喻。所以，對(duì)于已經(jīng)抓取過的網(wǎng)頁，河北百度愛采購還要負(fù)責(zé)保持其內(nèi)容和互聯(lián)網(wǎng)頁面內(nèi)容的同步，這取決于爬蟲所采用的網(wǎng)頁更新策略。網(wǎng)頁更新策略的任務(wù)是要決定何時(shí)重新抓取之前已經(jīng)下載過的網(wǎng)頁，以盡可能使得本地下載網(wǎng)頁和互聯(lián)網(wǎng)原始頁面內(nèi)容保持致。常用的網(wǎng)頁更新策略有3種：歷史參考策略、用戶體驗(yàn)策略和聚類抽樣策略。
    歷史參考策略是最直觀的_種更新策略，它建立于如下假設(shè)之上：過去頻繁更新的網(wǎng)頁，那么將來也會(huì)頻繁更新。所以，為了預(yù)估某個(gè)網(wǎng)頁何時(shí)進(jìn)行更新，可以通過參考其歷史更新情況來做出決定。這種方法往往利用泊松過程來對(duì)網(wǎng)頁的變化進(jìn)行建模，根據(jù)每個(gè)網(wǎng)頁過去的變動(dòng)情況，利用模型預(yù)測(cè)將來何時(shí)內(nèi)容會(huì)再次發(fā)生變化，以此來指導(dǎo)爬蟲的抓取過程。但是不同方法側(cè)重不盡相同，比如有的研究將一個(gè)網(wǎng)頁劃分成不同的區(qū)域，抓取策略應(yīng)該忽略掉廣告欄或者導(dǎo)航欄這種不重要區(qū)域的頻繁變化，而集中在主題內(nèi)容的變化探測(cè)和建模上。一般來說，搜索引擎用戶提交查詢后，相關(guān)的搜索結(jié)果可能成干上萬，而用戶沒有耐心查看排在后面的搜索結(jié)果，往往只查看前3頁搜索內(nèi)容。用戶體驗(yàn)策略就是利用搜索引擎用戶的這個(gè)特點(diǎn)來設(shè)計(jì)更新策略的。這種更新策略以用戶體驗(yàn)為核心，即使本地索引的網(wǎng)頁內(nèi)容是過時(shí)的，但是如果不影響用戶體驗(yàn)，那么晚些更新這些過時(shí)網(wǎng)頁也未嘗不可。所以判斷個(gè)網(wǎng)頁何時(shí)更新為好，取決于這個(gè)網(wǎng)頁的內(nèi)容變化所帶來搜索質(zhì)量的變化（往往采用搜索結(jié)果排名的變化來衡量），影響越大的網(wǎng)頁，則應(yīng)該越快更新。
    河北百度愛采購用戶體驗(yàn)策略保存網(wǎng)頁的多個(gè)歷史版本，并根據(jù)過去每次內(nèi)容變化對(duì)搜索質(zhì)量的影響，得出一個(gè)平均值，以此作為判斷爬蟲重抓該網(wǎng)頁時(shí)機(jī)的參考依據(jù)，對(duì)于影響越厲害的網(wǎng)頁，則越優(yōu)先調(diào)度重新抓取。上面介紹的兩種網(wǎng)頁更新策略嚴(yán)重依賴網(wǎng)頁的歷史更新信息，因?yàn)檫@是能夠進(jìn)行后續(xù)計(jì)算的基礎(chǔ)。但是在現(xiàn)實(shí)中，為每個(gè)網(wǎng)頁保存其歷史信息，搜索系統(tǒng)會(huì)大量增加額外負(fù)擔(dān)。從另外個(gè)角度考慮，如果是首次抓取到的網(wǎng)頁，因?yàn)闆]有歷史信息，所以也就無法按照這兩種思路去預(yù)估其更新周期。聚類抽樣策略即是為了解決上述缺點(diǎn)而提出的聚類抽樣策略認(rèn)為：網(wǎng)頁具有一些屬性，根據(jù)這些屬性可以預(yù)測(cè)其更新周期，具有相似屬性的網(wǎng)頁，其更新周期也是類似的。于是，可以根據(jù)這些屬性將網(wǎng)頁歸類，同一類別內(nèi)的網(wǎng)頁具有相同的更新頻率。為了計(jì)算某個(gè)類別的更新周期，只需對(duì)類別內(nèi)網(wǎng)頁進(jìn)行采樣，以這些被采樣網(wǎng)頁的更新周期作為類別內(nèi)所有其他網(wǎng)頁的更新周期。與之前敘述的兩種方法相比較，這種策略方面無須為每個(gè)網(wǎng)頁保存歷史信息；另一方面，對(duì)于新網(wǎng)頁，即使沒有歷史信息，也可以根據(jù)其所屬類別來對(duì)其進(jìn)行更新。

作者：chuangxinkeji

上一頁：有關(guān)河北百度愛采購產(chǎn)業(yè)結(jié)構(gòu)的升級(jí) 下一頁：有關(guān)河北百度愛采購搜索數(shù)據(jù)的查詢

日韩亚洲欧美色欲在线_精品无码aⅴ人妻受辱系列_大陆国语一级毛片_亚洲国产日韩不卡综合

有關(guān)河北百度愛采購的經(jīng)營思路

推薦內(nèi)容Recommended