搜索引擎的工作原理可以大致分為三個部分:
1.爬取 (crawling):檢索互聯網上的內容,找到內容對應的代碼/URL。
2.索引 (indexing):有序地存儲爬取過程中找到的內容;如果頁面在索引中,就會作為相關搜索結果顯示出來。
3.排名 (ranking):按照相關度由高到低排列檢索結果。
爬取過程中,搜索引擎會通過一組程序(稱為「爬蟲」或「蜘蛛」)在互聯網上發現/更新內容。所謂的內容,可以指網頁、圖片、視頻、網頁附件——所有這些內容都有一個「身份證號」,叫做統一資源定位符(Uniform Resource Locator, URL)。爬蟲找到網頁內容與對應的URL並存儲,再根據網頁內容中的其它URL跳轉至別的內容,一步步操作下來就像是結了一張網,連接了網絡當中的海量資源。
搜索引擎存儲的內容就像一本詞典,而索引就是拼音或者偏旁查字法。爬取的內容需要經過分析,存入索引數據庫中。數據庫內的網頁文字內容都進行專門分析。
當用戶進行搜索時,搜索引擎會檢索索引數據庫中高度相關的內容,然後對其進行排序。這種根據相關性對搜索結果進行排序的方法就是排名。一般可以認為網站排名越高,搜索引擎就越相信網站與查詢的相關性越高。
1.1 告訴搜索引擎:「你過來啊」
有時候公司不想讓一些網頁出現在搜索引擎中,例如網頁內廣告、過期內容、隱私內容等。網站開發者可以通過一些方法 (如robots.txt) 告知爬蟲不要爬取此類網頁的內容。當然,宣傳產品的時候公司肯定希望產品介紹網頁能夠被搜索引擎檢索到。因此,若想讓內容被搜索引擎發現,首先確保它可以被爬蟲程序訪問並且是可索引的。否則,它就像隱形一樣。
以谷歌為例,使用高級檢索方法「site:domain.com」就可以返回某個站點在谷歌索引中的所有結果。通過谷歌搜索控製臺 (Google Search Console)還可以實現更精確的索引結果查詢與監控。這其實就是搜索引擎優化的第一步:檢驗自己的網頁是否被索引,哪些被索引,重要的頁面是否被索引了。
爬取預算
爬取預算(crawl budget) 可理解為搜索引擎爬蟲在離開某一站點前爬取的平均URL數量。合理的爬取預算能夠讓爬蟲抓取更重要的頁面,避免在無用的信息/頁面上浪費時間。同時這也意味著用戶檢索時內容相關度能夠更加集中。
用戶最終還是需要在搭建網站時,通過HTML代碼,給搜索引擎指示如何對待你的網頁。這種指示叫做元指令(meta directives) 或元標簽(meta tags)。它們一般存在於HTML頁面的標簽中。感興趣的讀者可以自行了解。
1.2 搜索引擎:排排坐 吃果果
搜索引擎根據內容相關度對結果進行排名的技術是基於復雜的算法實現的。谷歌幾乎每周,甚至每隔幾天就會更新排名算法。如今機器學習、自然語言處理也都幫助搜索引擎更好地實現排名。
RankBrain是Google搜索引擎核心算法的機器學習組件。機器學習也是一種技術,它通過大量數據不斷改進預測。換句話說,它總是在學習。因為它總是在學習,所以搜索排名結果會不斷進步。
用戶與搜索結果的交互行為也會影響搜索引擎的改進。一般有以下四個因素:
點擊率(用戶看到某搜索結果並點擊進入該結果的百分比)
頁面停留時間(用戶點擊進入到離開這個搜索結果的時間)
跳出率(點擊某搜索結果且只看1個頁面的用戶所占百分比)
*跳出率的高低並不能直接反應搜索結果的質量優劣。用戶有可能僅在這一個網頁下就達成了自己的目的,也有可能看了一番沒有達成目的而轉而繼續搜索。好比我們去美妝店只逛了一個品牌專櫃就走了——我們既有可能僅在這一個專櫃就買到了心儀商品,也有可能沒買東西轉而去其它專櫃。
Pogo-sticking(指用戶點擊某搜索結果後快速返回頁面並瀏覽其它結果的這一行為)
這四項指標構成了用戶粘性指標(engagement metrics)。
不同的搜索引擎需要各自進行SEO
不同的搜索引擎,其排名算法各不相同。國際產品的本地化,理論上需要針對不同的搜索引擎分別執行SEO策略,但是國際範圍內谷歌占據絕大多數市場份額,在預算有限的情況下,產品優先針對谷歌進行SEO。不過放眼中國內地,SEO就需要瞄準百度了。
讀到這裏,一個公司就可以做到讓自己的網站被搜索引擎捕捉到,並通過一些辦法檢測網站的流量了。接下來T君要介紹的便是,如何通過合理編排網站內容,使得用戶在使用關鍵詞檢索時,網站能夠精確地被搜索引擎捕捉到,並呈現出用戶滿意的內容。