上面已經介紹了搜索引擎收錄頁面的流程及原理。然而,在互聯網數以億計的頁面中,搜索
引擎怎樣才能從中抓取到更多相對重要的頁面呢?這就涉及搜索引擎的頁面收錄方式。
頁面收錄方式是指搜索引擎抓取頁面時所使用的策略,目的是為了能在互聯網中篩選出更多
相對重要的信息。頁面收錄方式的制定取決于搜索引擎對網站結構的理解。如果使用相同的抓取
策略,搜索引擎在同樣的時間內可以在某一網站中抓取到更多的頁面資源,則會在該網站上停留
更長的時間,收錄的頁面數自然也就更多。因此,加深對搜索引擎頁面收錄方式的認識,有利于
為網站建立友好的結構,提高頁面被收錄的數量。
常見的搜索引擎收錄頁面的方式主要有廣度優先、深度優先及用戶提交三種,接下來將詳細
介紹這三種頁面收錄方式及各自的優缺點。
●廣度優先
如果把整個網站看作是一棵樹,首頁就是根,每個頁面就是葉子。廣度優先是一種橫向的頁
面抓取方式,先從樹的較淺層開始抓取頁面,直至抓取完同一層次上的所有頁面后才進入下一層。
因此,在對網站進行優化的時候,我們應該把網站中相對重要的信息展示在層次較淺的頁面上(例
如,在首頁上推薦一些熱門產品或者內容)。反過來,通過廣度優先的抓取方式,搜索引擎就可
以優先抓取到網站制作中相對重要的頁面。
我們來看一下廣度優先的抓取流程。首先,搜索引擎從網站的首頁出發,抓取首頁上所有鏈
接指向的頁面,形成頁面集合(A),并解析出集合(A)中所有頁面的鏈接;再跟蹤這些鏈接抓
取下一層的頁面,形成頁面集合(B)。就這樣遞歸地從淺層頁面中解析出鏈接,從而抓取深層頁
面,直至滿足了某個設定的條件后才停止抓取進程,如圖2-3所示。
圖2-3廣度優先抓取流程
●深度優先
與廣度優先的抓取方式恰恰相反,深度優先是一種縱向的頁面抓取方式,首先跟蹤的是淺層
頁面中的某一個鏈接從而逐步抓取深層次頁面,直至抓取完最深層次的頁面后才返回淺層頁面,
再跟蹤其另一鏈接繼續向深層頁面抓取。使用深度優先的抓取方式,搜索引擎可以抓取到網站中
較為隱蔽、冷門的頁面,這樣才能滿足更多用戶的需求。
我們來看一下深度優先的抓取流程。首先,搜索引擎會抓取網站的首頁,并提取首頁中的鏈
接;再沿著其中的一個鏈接抓取到頁面1-1,同時提取其中的鏈接;接著,沿著頁面1_1中的一個
鏈接A—1抓取到頁面2-1,同時提取其中的鏈接;再沿著頁面2-1中的一個鏈接B-l繼續抓取更深一
層的頁面。這樣遞歸地執行,直至抓取到網站最深層的頁面或者滿足了某個設定的條件才轉回到
首頁繼續抓取,如圖2-4所示。
圖2 4深度優先抓取流程
●用戶提交
為了抓取到更多的網頁,搜索引擎還允許站管理員主動提交頁面。網站管理員只需把剛站
中頁面URL按照指定的格式制作成文件,提交給搜索引擎,搜索引擎就可以通過該文件對網站
中的頁面進行抓取及更新。
這種由網站管理員主動提交頁面的方式大大提高了搜索引擎抓取頁面的效率及質量;而對于
網站本身來說,也大大提高了網站頁面被收錄的數量(目Google及Yahoo!都支持這種頁面抓取
方式)。
為了提高抓取頁面的效率及質量,搜索引擎會結合多種方式去抓取頁面。例如,先使用廣度
優先的方式,把抓取范圍鋪得盡可能寬,獲取到盡可能多的重要頁面;再使用深度優先的方式,
抓取更多隱蔽的頁面;最后,結合用戶提交的信息,抓取那些被遺漏的頁面。
本文由上海專業網站建設公司藝覺網絡(m.gxxmybkw.com www.mywebseo.net)