日韩亚洲欧美色欲在线_精品无码aⅴ人妻受辱系列_大陆国语一级毛片_亚洲国产日韩不卡综合

怎樣及時獲取河北百度愛采購產(chǎn)品的動態(tài)特征?

日期:2020年05月15日 /人氣: /來源:本站原創(chuàng)

    首先河北百度愛采購根據(jù)網(wǎng)頁所表現(xiàn)出的特征,將其聚類成不同的類別,每個類別內(nèi)的網(wǎng)頁具有相似的更新周期。從類別中抽取—部分最有代表性的網(wǎng)頁(一般抽取最靠近類中心的那些網(wǎng)頁),對這些網(wǎng)頁計(jì)算其更新周期,那么這個更新周期適用于類別內(nèi)的所有網(wǎng)頁,之后即可根據(jù)網(wǎng)頁所屬類別來決定其更新頻率。在Tan等人的研究中,將能夠體現(xiàn)網(wǎng)頁更新周期的屬性特征劃分為兩大類:靜態(tài)特征和動態(tài)特征。靜態(tài)特征包括:河北百度愛采購頁面的內(nèi)容、圖片數(shù)量、頁面大小、鏈接深度、PageRank值等十幾種;而動態(tài)特征則體現(xiàn)了靜態(tài)特征隨著時間的變化情況,比如圖片數(shù)量的變化情況、入鏈出鏈的變化情況等。根據(jù)這兩類特征,即可對網(wǎng)頁進(jìn)行聚類。為一個較為通用的流程,不同算法在細(xì)節(jié)處有差異。比如有些研究直接省略聚類這個步驟,而是以網(wǎng)站作為聚類單位,即假設(shè)屬于同一個網(wǎng)站的網(wǎng)頁具有相同的更新周期,對網(wǎng)站內(nèi)頁面進(jìn)行抽樣,計(jì)算其更新頻率,之后網(wǎng)站內(nèi)所有網(wǎng)頁以這個更新周期為準(zhǔn)。這個假設(shè)雖顯粗糙,因?yàn)楹苊黠@同一網(wǎng)站內(nèi)網(wǎng)頁更新頻率差異很大,但是可以省掉聚類這個步驟,在計(jì)算效率方面會更可行些。
    相關(guān)實(shí)驗(yàn)表明,聚類抽樣策略效果好于前述兩種更新策略,但是對以億計(jì)的網(wǎng)頁進(jìn)行聚類,其難度也是非常巨大的。物理學(xué)研究表明,在目前宇宙所有物質(zhì)的總體質(zhì)量中,星系等可見物質(zhì)只占其中的20%,不可探測的暗物質(zhì)則占據(jù)了總質(zhì)量的大約8o%;ヂ(lián)網(wǎng)中的暗網(wǎng)可與宇宙中的暗物質(zhì)相類比,而其所占網(wǎng)頁的比例,更是遠(yuǎn)大于暗物質(zhì)占宇宙質(zhì)量的比例,大約百倍于目前的明網(wǎng)(SurfacingWeb)網(wǎng)頁所謂暗網(wǎng),是指目前搜索引擎爬蟲按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面。如前所述,搜索引擎爬蟲依賴頁面中的鏈接關(guān)系發(fā)現(xiàn)新的頁面,但是很多網(wǎng)站的內(nèi)容是以數(shù)據(jù)庫方式存儲的,典型的例子是一些垂直領(lǐng)域網(wǎng)站,比如攜程旅行網(wǎng)的機(jī)票數(shù)據(jù),很難有顯式鏈接指向數(shù)據(jù)庫內(nèi)的記錄,往往是服努網(wǎng)站提供組合查詢界面,只有用戶按照需求輸入查詢之后,才可能獲得相關(guān)數(shù)據(jù)。所以,常規(guī)的爬蟲無法索引這些數(shù)據(jù)內(nèi)容,這是暗網(wǎng)的命名由來。是攜程旅行網(wǎng)的機(jī)票搜索界面和當(dāng)當(dāng)網(wǎng)的圖書搜索界面。為了能夠?qū)Π稻W(wǎng)數(shù)據(jù)進(jìn)行索引,需要研發(fā)與常規(guī)爬蟲機(jī)制不同的系統(tǒng),這類爬蟲被稱做暗網(wǎng)爬蟲。
    暗網(wǎng)爬蟲的目的是將暗網(wǎng)數(shù)據(jù)從數(shù)據(jù)庫中挖掘出來,并將其加入搜索引擎的索引,這樣用戶在搜索時便可利用這些數(shù)據(jù),增加信息覆蓋程度。目前河北百度愛采購服務(wù)提供商都將暗網(wǎng)挖掘作為重要研究方向,因?yàn)檫@直接關(guān)系到索引量的大小。在此領(lǐng)域的技術(shù)差異,將直接體現(xiàn)在搜索結(jié)果的全面性上,自然是競爭對手之間的必爭之地。Google目前將其作為重點(diǎn)研發(fā)方向,而百度的拉丁計(jì)劃”目的也在于此垂直網(wǎng)站提供的搜索界面,往往需要人工選擇或者填寫內(nèi)容,比如機(jī)票搜索需要選擇出發(fā)地、到達(dá)地和日期,圖書搜索需要指出書名或者作者。而暗網(wǎng)爬蟲為了能夠挖掘數(shù)據(jù)庫的記錄,必須模擬人的行為,填寫內(nèi)容并提交表單。對于暗網(wǎng)爬蟲來說,其技術(shù)挑戰(zhàn)有兩點(diǎn):一是查詢組合太多,如果——組合遍歷,那么會給被訪問網(wǎng)站造成太大壓力,所以如何精心組合查詢選項(xiàng)是個難點(diǎn);第二點(diǎn)在于:有的查詢是文本框,比如圖書搜索中需要輸入書名,爬蟲怎樣才能夠填入合適的內(nèi)容?這個也頗具挑戰(zhàn)性。

作者:chuangxinkeji

上一頁: 有關(guān)河北百度愛采購搜索數(shù)據(jù)的查詢   下一頁: 關(guān)于河北百度愛采購的信息化模式