用戶在搜索引擎中的行為主要包括搜索及點(diǎn)擊。搜索是用戶獲取信息的過程,點(diǎn)擊是用戶得到需要信息后的表現(xiàn)。
用戶的搜索及點(diǎn)擊行為中蘊(yùn)含著非常豐富、重要的信息。例如,在用戶搜索行為中包含了“提交的關(guān)鍵字,,、。提交時(shí)間”、“用戶IP地址”等信息;而在點(diǎn)擊行為中則包含了“每個(gè)結(jié)果的點(diǎn)擊次數(shù)”等信息。
搜索引擎通過對(duì)用戶行為的分析可以進(jìn)一步發(fā)掘用戶的需求,提高搜索結(jié)果的精準(zhǔn)度。例如,從用戶的搜索行為中,搜索引擎還可以發(fā)現(xiàn)新詞匯;而從用戶對(duì)搜索結(jié)果的點(diǎn)擊行為中,可以分析出用戶對(duì)每個(gè)搜索結(jié)果的偏好等。
·搜索
搜索是用戶獲取信息的途徑,是搜索引擎最基本的功能。搜索引擎可以在得知某.關(guān)鍵字被搜索的次數(shù),通過對(duì)關(guān)鍵字被搜索的次數(shù)的分析,可以發(fā)現(xiàn)新詞匯及進(jìn)一步了解用戶的搜索習(xí)慣。
由于語(yǔ)言是不斷發(fā)展的,隨著時(shí)間的推移會(huì)產(chǎn)生更多的新詞匯。特別是在互聯(lián)網(wǎng)環(huán)境中,某個(gè)熱點(diǎn)的事件也有可能成為一個(gè)新的詞語(yǔ),例如“艷照門”等。
對(duì)搜索引擎而言,新生詞匯主要是指那些目前搜索引擎詞典系統(tǒng)里不存在、但是又被頻繁搜索的關(guān)鍵字。如果某一關(guān)鍵字在搜索引擎詞典系統(tǒng)里不存在,則切詞時(shí)就不會(huì)產(chǎn)生該關(guān)鍵字'這樣用戶在查詢?cè)撽P(guān)鍵字時(shí)就返回不了相關(guān)的信息,也就不能滿足用戶的需求。因此,搜索引擎對(duì)新詞匯的學(xué)習(xí)能力從一定程度上反映了搜索引擎對(duì)語(yǔ)言的理解能力,是衡量搜索引擎好壞的重要指標(biāo)之一。
結(jié)合用戶搜索習(xí)慣與頁(yè)面內(nèi)容發(fā)掘新關(guān)鍵字是搜索引擎學(xué)習(xí)新詞匯的主要方式之一。
(1)對(duì)用戶查詢?nèi)罩具M(jìn)行分析,篩選出日志中查詢相對(duì)頻繁的詞匯;
(2)如果某個(gè)查詢相對(duì)頻繁的關(guān)鍵字不存在于詞典系統(tǒng)中,就把這個(gè)關(guān)鍵字與部分頁(yè)面的內(nèi)容進(jìn)行匹配;如果命中,則表明該關(guān)鍵字是存在的,加入詞典系統(tǒng);否則,對(duì)下一個(gè)查詢頻繁詞
語(yǔ)進(jìn)行匹配。
●點(diǎn)擊
點(diǎn)擊是用戶找到所需信息后的表現(xiàn),反映了用戶對(duì)信息的關(guān)注。因此,用戶對(duì)鏈接的點(diǎn)擊也是衡量頁(yè)面相關(guān)性的因素之一,是衡量頁(yè)面相關(guān)性的一個(gè)重要補(bǔ)充。
在同一個(gè)關(guān)鍵字的搜索結(jié)果列表中,不同的用戶會(huì)有不同的選擇。但是,如果某一個(gè)結(jié)果的點(diǎn)擊次數(shù)明顯多于其他結(jié)果,則從一定程度上反映了該頁(yè)面是大部分用戶所需要的(特別是當(dāng)該
鏈接處在比較靠后的位置時(shí))。
眾所周知,搜索結(jié)果中越靠前的鏈接得到點(diǎn)擊的幾率就會(huì)越高。按照這樣的邏輯,那么在排在第二、第三甚至第四的頁(yè)面被點(diǎn)擊的機(jī)會(huì)就會(huì)變得越來越小,但這并不代表這些頁(yè)面就不比排在前而的頁(yè)面重要,只是在目前的排序結(jié)果中,用戶還沒機(jī)會(huì)發(fā)現(xiàn)它們而已。所以,對(duì)于不同位置上鏈接的點(diǎn)擊,搜索引擎會(huì)對(duì)其權(quán)重值進(jìn)行相應(yīng)的補(bǔ)償。假設(shè)排在第一位的結(jié)果每被點(diǎn)擊一次會(huì)產(chǎn)生1分的補(bǔ)償,而排名在100名的結(jié)果被點(diǎn)擊一次則會(huì)產(chǎn)生10分甚至更多的補(bǔ)償。
3緩存機(jī)制
為了能在極短的時(shí)間內(nèi)響應(yīng)用戶的查詢請(qǐng)求,搜索引擎除了在用戶提交查詢信息前就生成關(guān)鍵字對(duì)應(yīng)的頁(yè)面排序列表以外,還需要為那些查詢最頻繁的關(guān)鍵字對(duì)應(yīng)的頁(yè)面排序列表建立緩存機(jī)制。
經(jīng)過統(tǒng)計(jì),搜索引擎發(fā)現(xiàn)關(guān)鍵字查詢的集中現(xiàn)象非常明顯。查詢次數(shù)最多的前20 010的關(guān)鍵字大約占了總查詢次數(shù)的80a/o(就這是著名的80/20法則)。因此,只要我們對(duì)這20左右的關(guān)鍵字建立緩存就可以滿足80u/o的查詢需求。
由于用戶查詢時(shí)返回的信息主要是與關(guān)鍵字相關(guān)的頁(yè)面排序列表,因此關(guān)鍵字緩存機(jī)制的建立主要是針對(duì)與關(guān)鍵字相關(guān)的頁(yè)面排序列表。在對(duì)常用關(guān)鍵字的頁(yè)面排序列表建立緩存后,搜索引擎就可以把緩存中的信息返回給用戶,這樣速度就會(huì)非常快,也就能滿足絕大部分用戶的需求。
由于互聯(lián)網(wǎng)中的信息是時(shí)刻都在增長(zhǎng)的,如果搜索引擎每次都向用戶返回同樣的信息,則不但用戶得不到更高質(zhì)量的信息,其他網(wǎng)站也不能向用戶展示最新的高質(zhì)量信息,從而造成信息滯后。因此,搜索引擎還會(huì)對(duì)緩存中的內(nèi)容進(jìn)行定期更新。
本文由上海專業(yè)網(wǎng)站建設(shè)公司藝覺網(wǎng)絡(luò)(m.gxxmybkw.com www.mywebseo.net),轉(zhuǎn)載請(qǐng)注明。