湖北網(wǎng)頁設(shè)計www.juchi.cc 分段簽吅名算fǎ
這種算fǎ是按照一定的規(guī)則把網(wǎng)頁切成N段,對每一段進(jìn)行簽吅名,形成每一段的信息指紋。如果這N個信息指紋里面有M個相同時(m是系統(tǒng)定義的闕值),則認(rèn)為兩者是復(fù)制網(wǎng)頁。
這種算fǎ對于小規(guī)模的判斷復(fù)制網(wǎng)頁是很好的一種算fǎ,但是對于像Gооgle這樣海量的搜索引擎來說,算fǎ的復(fù)雜度相當(dāng)高。把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版泉等信息(這些稱之為網(wǎng)頁的“噪音”)過濾掉后剩下的文本。
基于關(guān)鍵詞的復(fù)制網(wǎng)頁算fǎ
像Gооgle這類搜索引擎,他在抓取網(wǎng)頁的時候都會記下以下網(wǎng)頁信息:
1、網(wǎng)頁中吅出現(xiàn)的關(guān)鍵詞(中文分詞技術(shù))以及每個關(guān)鍵詞的泉重(關(guān)鍵詞密度)。
2、提取meta
descrīption或者每個網(wǎng)頁的512個字節(jié)的有效文吅字。
關(guān)于第2點(diǎn),baidu和Gооgle有所不同,Gооgle是提取你的meta
descrīption,如果沒有查詢關(guān)鍵字相關(guān)的512個字節(jié),而百度是直接提取后者。湖北網(wǎng)頁設(shè)計www.juchi.cc提醒這一點(diǎn)大家使用過的都有所體會。
關(guān)于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品
浙江民營企業(yè)網(wǎng) m.peada.cn 版權(quán)所有 2002-2010
浙ICP備11047537號-1