谷歌優化排名頁面的預處理篩選

蜘蛛每天抓取的頁面非常非常多，但這麽多的頁面谷歌不可能全部保存。谷歌會通過它的預處理也稱索引機製，將蜘蛛所抓取到源代碼數據中的核心關鍵詞信息挑選出來。那麽谷歌是怎麽挑選呢？

1、提取文字

蜘蛛抓取的頁面中包含很多源代碼，預處理要做的事情首先是先把代碼中的文字信息提取出來，包含Meta標簽文字、圖片替代文字、鏈接錨文字、正文。

2、去停止詞

在提取的文字信息中會包含很多例如the, a, an, to ,of的詞，這些詞就像我們中文的啊、哈、呀的感嘆詞，出現頻率很高，但有沒有都不會內容中的主要意思，這些詞稱為停止詞，也會被過濾掉的。

3、消除噪聲

在網站的頁頭、導航、正文、頁腳中會存在大量的重復內容，在這些頁面中幾乎都會有相同的源代碼，谷歌會把重復的內容去掉，只留下不重復部分。

4、去重復頁面

我們在做B2B平臺時，往往將一個產品覆蓋很多關鍵詞重復發布，幾乎產品的詳情頁都是一樣的。但這種方法並不適用谷歌，因為當用戶在搜索瀏覽前幾頁內容時多次看到同樣的內容，對用戶的體驗會很差，谷歌是不會對重復內容重復收錄的。

從這些過程中谷歌可以出判斷你的網站質量是如何。