
①網(wǎng)站內(nèi)容:比較重要的一點(diǎn)就是上面說的內(nèi)容的質(zhì)量,網(wǎng)站內(nèi)容的質(zhì)量決定了是否可以穩(wěn)定的獲取抓取。
②網(wǎng)站結(jié)構(gòu):對(duì)于搜索引擎除了鏈接推送的時(shí)候有針對(duì)的抓取特定的鏈接,對(duì)于日常的爬取的時(shí)候,依然是從網(wǎng)站的首頁進(jìn)行抓取。所以一個(gè)設(shè)計(jì)合理的首頁和網(wǎng)站結(jié)構(gòu)是非常的重要的。
網(wǎng)站首頁最好采用聚合首頁的形式,可以承載網(wǎng)站各個(gè)模塊的入口。同時(shí)首頁需要保持一個(gè)活躍的更新狀態(tài),可以有利于搜索引擎的抓取。
網(wǎng)站的結(jié)構(gòu)則需要層次分明,并且隨著搜索引擎從淺到深的抓取,頁面內(nèi)容應(yīng)該是越來越豐富。同時(shí)的層級(jí)結(jié)構(gòu)需要清楚的反應(yīng)在URL的結(jié)構(gòu)上,網(wǎng)站結(jié)構(gòu)要做到簡(jiǎn)單明了清晰,不要去做過于復(fù)雜的結(jié)構(gòu),會(huì)造成抓取效率低下。
③鏈接提交:網(wǎng)站的內(nèi)容更新,一定需要去及時(shí)的向搜索引擎推送鏈接,可以加快頁面的發(fā)現(xiàn)速度。同時(shí)可以保證自己內(nèi)容的安全性,對(duì)于搜索引擎鑒定內(nèi)容的原創(chuàng)者是誰,主要還是根據(jù)哪個(gè)站點(diǎn)的索引建立更早。建議的鏈接推送方式,內(nèi)容更新之后立刻進(jìn)行主動(dòng)推送方式進(jìn)行推送,經(jīng)過實(shí)踐這種方式是最快的;同時(shí)結(jié)合自動(dòng)推送方式和sitemap方式進(jìn)行補(bǔ)充。
④網(wǎng)站性能:絕對(duì)搜索引擎抓取頻次大小的還要一個(gè)比較重要的因素就是抓取壓力。也就是服務(wù)器的帶寬以及相應(yīng)速度,我們需要把抓取時(shí)間控制在1500毫秒以下,否則搜索引擎就會(huì)為了保證站點(diǎn)的正常訪問降低對(duì)于站點(diǎn)抓取頻次。
⑤抓取診斷:比如百度站長(zhǎng)工具中的抓取異常模塊就是我們需要關(guān)注的,我們可以看相關(guān)的異常狀態(tài)碼,可以清楚的知道抓取時(shí)遇到的訪問問題。通過此處我們可以發(fā)現(xiàn)網(wǎng)站是否存在死鏈,以及頁面訪問是否穩(wěn)定正常,出現(xiàn)異常需要及時(shí)的處理。
⑥死鏈處理:當(dāng)網(wǎng)站出現(xiàn)死鏈的時(shí)候我們一定要做到在搜索引擎抓取到之前就進(jìn)行死鏈提交,一方面抓取到大量的死鏈會(huì)影響用戶體驗(yàn)導(dǎo)致站點(diǎn)的評(píng)級(jí)降低。另外一個(gè)站點(diǎn)每日的抓取數(shù)量是有限的死鏈也會(huì)浪費(fèi)站點(diǎn)的抓取數(shù)量。
⑦robots:合理的設(shè)置robots.txt文件可以防止隱私信息被抓取到,同時(shí)可以很大程度提供抓取的有效性,屏蔽了無效頁面的抓取。 很多站點(diǎn)會(huì)去屏蔽js和CSS文件的抓取,建議不要這個(gè)做如果這些js和css文件參與了頁面效果的渲染,那么不應(yīng)該去屏蔽。我們只去屏蔽不需要被抓取的頁面目錄就可以了。



皖公網(wǎng)安備 34010202600669



