蜘蛛每天抓取的頁面非常非常多,但這麽多的頁面谷歌不可能全部保存。谷歌會通過它的預處理也稱索引機製,將蜘蛛所抓取到源代碼數據中的核心關鍵詞信息挑選出來。那麽谷歌是怎麽挑選呢?
1、提取文字
蜘蛛抓取的頁面中包含很多源代碼,預處理要做的事情首先是先把代碼中的文字信息提取出來,包含Meta標簽文字、圖片替代文字、鏈接錨文字、正文。
2、去停止詞
在提取的文字信息中會包含很多例如the, a, an, to ,of的詞,這些詞就像我們中文的啊、哈、呀的感嘆詞,出現頻率很高,但有沒有都不會內容中的主要意思,這些詞稱為停止詞,也會被過濾掉的。
3、消除噪聲
在網站的頁頭、導航、正文、頁腳中會存在大量的重復內容,在這些頁面中幾乎都會有相同的源代碼,谷歌會把重復的內容去掉,只留下不重復部分。
4、去重復頁面
我們在做B2B平臺時,往往將一個產品覆蓋很多關鍵詞重復發布,幾乎產品的詳情頁都是一樣的。但這種方法並不適用谷歌,因為當用戶在搜索瀏覽前幾頁內容時多次看到同樣的內容,對用戶的體驗會很差,谷歌是不會對重復內容重復收錄的。
從這些過程中谷歌可以出判斷你的網站質量是如何。