robots.txt是搜索引擎中訪問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒有被口令保護(hù)的頁(yè)面。下面為大家列出在網(wǎng)站優(yōu)化時(shí)robots.txt文件所起到的一些作用:
首先,在線建站提供方便之路。當(dāng)我們將域名解析到服務(wù)器,可以訪問(wèn)站點(diǎn)了,可是這個(gè)時(shí)候站點(diǎn)還沒有布局好,meta標(biāo)簽還一塌糊涂。如果此時(shí)的站點(diǎn)被搜索引擎蜘蛛抓取收錄了,到時(shí)再更改就很不利于推廣優(yōu)化。這時(shí)就可以利用robots.txt文件來(lái)設(shè)置所有搜索引擎蜘蛛不允許查詢站點(diǎn)的所有內(nèi)容。
其次,定制搜索引擎蜘蛛抓取指定內(nèi)容,能讓你根據(jù)站點(diǎn)情況來(lái)選擇怎樣和搜索引擎打交道。這里主要有兩層意思。
(1)定制搜索引擎。網(wǎng)站優(yōu)化,首先最先應(yīng)該做的便是定制搜索引擎,這里不再多講。
(2)定制站點(diǎn)內(nèi)容。也就是說(shuō)你可以指定某個(gè)目錄允許spider爬行,某個(gè)目錄禁止spide
爬行。如所有搜索引擎蜘蛛,允許抓取目錄abc下的內(nèi)容,禁止抓取目錄def下的內(nèi)容。
再次,引導(dǎo)搜索引擎抓取網(wǎng)站內(nèi)容。這里最典型的做法有:
(1)引導(dǎo)蜘蛛抓取你的網(wǎng)站地圖。
(2)防止蜘蛛抓取你的網(wǎng)站重復(fù)內(nèi)容。
最后,404錯(cuò)誤頁(yè)面問(wèn)題。如果你的服務(wù)器自定應(yīng)了404錯(cuò)誤頁(yè)面而在你站點(diǎn)根目錄沒有配置robots.txt文件,那么搜索引擎蜘蛛會(huì)將其視為robots.txt文件,這將影響搜索引擎對(duì)你網(wǎng)站頁(yè)面的收錄。