在互聯(lián)網(wǎng)如此發(fā)達(dá)的今天,同一資料會(huì)在多個(gè)網(wǎng)站發(fā)布,同一新聞會(huì)被大部分媒體網(wǎng)站報(bào)道,再加上小站長(zhǎng)和SEO人員孜孜不倦的網(wǎng)絡(luò)采集,造成了網(wǎng)絡(luò)上擁有大量的重讀信息。然而當(dāng)用戶(hù)搜索某個(gè)關(guān)鍵詞時(shí),搜索引擎必定不想呈獻(xiàn)給用戶(hù)的搜索結(jié)果都是相同的內(nèi)容。抓取這些重復(fù)的網(wǎng)頁(yè),在一定意義上就是對(duì)搜索引擎自身資源的浪費(fèi),因此去除重復(fù)內(nèi)容的網(wǎng)頁(yè)也成了搜索引擎所面臨的一大問(wèn)題。

在一般的搜索引擎架構(gòu)中,網(wǎng)頁(yè)去重一般在spider抓取部分就存在了,“去重”步驟在整個(gè)搜索引擎架構(gòu)中實(shí)施的越早,越可以節(jié)約后續(xù)處理系統(tǒng)的資源使用。搜索引擎一般會(huì)對(duì)已經(jīng)抓取過(guò)的重復(fù)頁(yè)面進(jìn)行歸類(lèi)處理,比如,判斷某個(gè)站點(diǎn)是否包含大量的重復(fù)頁(yè)面,或者該站點(diǎn)是否完全采集其他站點(diǎn)的內(nèi)容等,以決定以后對(duì)該站點(diǎn)的抓取情況或是否直接屏蔽抓取。
去重的工作一般會(huì)在分詞之后和索引之前進(jìn)行,搜索引擎會(huì)在頁(yè)面已經(jīng)分出的關(guān)鍵詞中,提取部分具有代表性的關(guān)鍵詞,然后計(jì)算這些關(guān)鍵詞的“指紋”。每一個(gè)網(wǎng)頁(yè)都會(huì)有個(gè)這樣的特征指紋,當(dāng)新抓取的網(wǎng)頁(yè)的王建辭職文和已索引網(wǎng)頁(yè)的關(guān)鍵詞指紋有重合時(shí),那么該網(wǎng)頁(yè)就可能會(huì)被搜索引擎視為重復(fù)內(nèi)容而放棄索引。
實(shí)際工作中的搜索引擎,不僅僅使用分詞步驟所分出的有意義的關(guān)鍵詞,還會(huì)使用連續(xù)切割的方式提取關(guān)鍵詞,并進(jìn)行指紋計(jì)算。連續(xù)切割就是以單個(gè)字向后移動(dòng)的方式進(jìn)行切詞,比如,“百度開(kāi)始打擊買(mǎi)賣(mài)鏈接”會(huì)被切成“百度開(kāi)”“度開(kāi)始”“開(kāi)始打”“始打擊”“打擊買(mǎi)”“擊買(mǎi)賣(mài)”“買(mǎi)鏈接”“賣(mài)鏈接”。然后從這些詞中提取部分關(guān)鍵詞進(jìn)行指紋計(jì)算,參與是否重復(fù)內(nèi)容的對(duì)比,具體的可以參考搜索引擎原理之中文分詞技術(shù)這篇文章,這只是搜索引擎識(shí)別重復(fù)網(wǎng)頁(yè)的基本算法,還有很多其他對(duì)付重復(fù)網(wǎng)頁(yè)的算法。
因此網(wǎng)絡(luò)上流星的大部分偽原創(chuàng)工具,不是不能欺騙搜索引擎,就是把內(nèi)容做的鬼都讀不通,所以理論上使用普通偽原創(chuàng)工具不能得到搜索引擎的正常收錄和排名。但是由于搜索百度并不是對(duì)所有的重復(fù)頁(yè)面都直接拋棄不索引,而是會(huì)根據(jù)重復(fù)網(wǎng)頁(yè)所在網(wǎng)站的權(quán)重適當(dāng)放寬索引標(biāo)準(zhǔn),這樣使得部分作弊者有機(jī)可乘,利用網(wǎng)站的高權(quán)重,大量采集其他站點(diǎn)的內(nèi)容獲取搜索流量。不過(guò)經(jīng)過(guò)百度搜索多次升級(jí)算法,對(duì)采集重復(fù)信息,垃圾頁(yè)面進(jìn)行了多次重量級(jí)打擊。
所以SEO在面對(duì)網(wǎng)站內(nèi)容時(shí),不應(yīng)該再以偽原創(chuàng)的角度去建設(shè),而需要以對(duì)用戶(hù)游泳的角度去建設(shè),雖然后者的內(nèi)容不一定全是原創(chuàng),一般如果網(wǎng)站權(quán)重沒(méi)有大問(wèn)題,都會(huì)得到健康的發(fā)展。
另外,不僅僅是搜索引擎需要“網(wǎng)頁(yè)去重”,自己做網(wǎng)站也需要對(duì)站內(nèi)頁(yè)面進(jìn)行去重。比如分類(lèi)信息、B2B平臺(tái)等UGC類(lèi)的網(wǎng)站,如果不加以限制,用戶(hù)所發(fā)布的信息必然會(huì)有大量的重復(fù),這樣不僅在SEO方面表現(xiàn)不好,站內(nèi)用戶(hù)體驗(yàn)也會(huì)降很多。
又如SEOer在設(shè)計(jì)流量產(chǎn)品大批量產(chǎn)生頁(yè)面時(shí),也需要做一個(gè)重復(fù)過(guò)濾,否則就會(huì)大大降低產(chǎn)品質(zhì)量。seoer所設(shè)計(jì)的流量產(chǎn)品常見(jiàn)的一般以“聚合”為基礎(chǔ)的索引頁(yè)、專(zhuān)題頁(yè)或目錄頁(yè),“聚合”就必須有核心詞,不加以過(guò)濾,海量核心詞所擴(kuò)展出來(lái)的頁(yè)面就可能會(huì)有大量重復(fù),從而導(dǎo)致該產(chǎn)品效果不佳,甚至?xí)虼吮凰阉饕娼禉?quán)。



皖公網(wǎng)安備 34010202600669



