搜索引擎的計(jì)算過程可以說是最復(fù)雜的程序之一,之前曾經(jīng)講過其大致的工作原理.不過還是不夠通俗,很多SEO新手朋友感覺有些不容易理解.今天筆者再用另外的一種形式為廣大網(wǎng)站建設(shè)與優(yōu)化的新手朋友們?cè)僬f說了.可能對(duì)于真正的搜索引擎技術(shù)人員或者優(yōu)化人員是皮毛.不過對(duì)于很多不從事網(wǎng)站建設(shè)不接觸程序,負(fù)責(zé)外圍的SEO推廣人員來說比較有用.
搜索引擎的大致工作過程
搜索引擎的工作大致上可以分成下面的3個(gè)階段:1,爬行和抓取.,這個(gè)階段,搜索引擎的蜘蛛會(huì)通過鏈接來訪問網(wǎng)頁,獲取頁面的HTML代碼,將這些代碼存在自己的數(shù)據(jù)庫;2,頁面代碼的預(yù)處理,這個(gè)過程是對(duì)所存的頁面的一些數(shù)據(jù)進(jìn)行文字提取,分詞,建立索引等操作,這樣以備后面的排名程序的調(diào)用.3,接下來就是排名了,用戶在輸入關(guān)鍵詞,排名的程序會(huì)根據(jù)數(shù)據(jù)庫里面的索引,相關(guān)性的計(jì)算等處理,然后按照重要性生成搜索操作結(jié)果呈現(xiàn)給用戶.
蜘蛛的爬行和抓取
搜索引擎的爬行和訪問頁面程序被通俗的稱為蜘蛛.搜索引擎蜘蛛訪問會(huì)模擬用戶使用的瀏覽,蜘蛛程序發(fā)出頁面訪問請(qǐng)求后,網(wǎng)頁服務(wù)器會(huì)返回HTML代碼,搜索引擎就會(huì)把代碼存到自己的原始數(shù)據(jù)庫里面.蜘蛛訪問每個(gè)網(wǎng)站的時(shí)候,都會(huì)先訪問網(wǎng)站的ROBOTS.TXT文件.如果有的ROBOTS.TXT文件不想被搜索引擎抓取,比如一些保密的信息,那么搜索引擎就不會(huì)抓取這些頁面.
鏈接的跟蹤
理解了鏈接的跟蹤,就會(huì)明白為什么大家在進(jìn)行網(wǎng)站制作的時(shí)候,要遵守一些優(yōu)化的原則.搜索引擎的蜘蛛從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,很象蜘蛛網(wǎng)的爬行,互聯(lián)網(wǎng)的鏈接就象蜘蛛網(wǎng)一樣.雖然計(jì)算機(jī)的速度很快,但再快也是有時(shí)間的,理論上雖然說不管是鏈接有多深,只要時(shí)間足夠,蜘蛛都能夠爬完所有的頁面,但實(shí)際上,網(wǎng)上資源實(shí)在太多,加上帶寬的限制,不可能爬完所有的頁面.
所以大家在布局鏈接的時(shí)候,要讓蜘蛛程序很清晰的判斷出你的網(wǎng)站架構(gòu),避免一些死鏈接,使用扁平的價(jià)格,這樣蜘蛛就會(huì)比較容易比較快速的對(duì)你網(wǎng)站所有的頁面進(jìn)行訪問抓取,并能夠通過自己的程序,很快的分析出你的網(wǎng)站內(nèi)容,這樣就能起到很好的優(yōu)化的效果.
了解了以上上海網(wǎng)站制作的小編所述,相信大家也從原理上了解了搜索引擎的爬行訪問收錄原理,就能明白自己的網(wǎng)站該如何在優(yōu)化的角度來展開.
本文由上海藝覺網(wǎng)絡(luò)科技有限公司(http://m.gxxmybkw.com)原創(chuàng)編輯轉(zhuǎn)載請(qǐng)注明。