用戶在搜索引擎中的行為主要包括搜索及點擊。搜索是用戶獲取信息的過程,點擊是用戶得到需要信息后的表現。
用戶的搜索及點擊行為中蘊含著非常豐富、重要的信息。例如,在用戶搜索行為中包含了“提交的關鍵字,,、。提交時間”、“用戶IP地址”等信息;而在點擊行為中則包含了“每個結果的點擊次數”等信息。
搜索引擎通過對用戶行為的分析可以進一步發掘用戶的需求,提高搜索結果的精準度。例如,從用戶的搜索行為中,搜索引擎還可以發現新詞匯;而從用戶對搜索結果的點擊行為中,可以分析出用戶對每個搜索結果的偏好等。
·搜索
搜索是用戶獲取信息的途徑,是搜索引擎最基本的功能。搜索引擎可以在得知某.關鍵字被搜索的次數,通過對關鍵字被搜索的次數的分析,可以發現新詞匯及進一步了解用戶的搜索習慣。
由于語言是不斷發展的,隨著時間的推移會產生更多的新詞匯。特別是在互聯網環境中,某個熱點的事件也有可能成為一個新的詞語,例如“艷照門”等。
對搜索引擎而言,新生詞匯主要是指那些目前搜索引擎詞典系統里不存在、但是又被頻繁搜索的關鍵字。如果某一關鍵字在搜索引擎詞典系統里不存在,則切詞時就不會產生該關鍵字'這樣用戶在查詢該關鍵字時就返回不了相關的信息,也就不能滿足用戶的需求。因此,搜索引擎對新詞匯的學習能力從一定程度上反映了搜索引擎對語言的理解能力,是衡量搜索引擎好壞的重要指標之一。
結合用戶搜索習慣與頁面內容發掘新關鍵字是搜索引擎學習新詞匯的主要方式之一。
(1)對用戶查詢日志進行分析,篩選出日志中查詢相對頻繁的詞匯;
(2)如果某個查詢相對頻繁的關鍵字不存在于詞典系統中,就把這個關鍵字與部分頁面的內容進行匹配;如果命中,則表明該關鍵字是存在的,加入詞典系統;否則,對下一個查詢頻繁詞
語進行匹配。
●點擊
點擊是用戶找到所需信息后的表現,反映了用戶對信息的關注。因此,用戶對鏈接的點擊也是衡量頁面相關性的因素之一,是衡量頁面相關性的一個重要補充。
在同一個關鍵字的搜索結果列表中,不同的用戶會有不同的選擇。但是,如果某一個結果的點擊次數明顯多于其他結果,則從一定程度上反映了該頁面是大部分用戶所需要的(特別是當該
鏈接處在比較靠后的位置時)。
眾所周知,搜索結果中越靠前的鏈接得到點擊的幾率就會越高。按照這樣的邏輯,那么在排在第二、第三甚至第四的頁面被點擊的機會就會變得越來越小,但這并不代表這些頁面就不比排在前而的頁面重要,只是在目前的排序結果中,用戶還沒機會發現它們而已。所以,對于不同位置上鏈接的點擊,搜索引擎會對其權重值進行相應的補償。假設排在第一位的結果每被點擊一次會產生1分的補償,而排名在100名的結果被點擊一次則會產生10分甚至更多的補償。
3緩存機制
為了能在極短的時間內響應用戶的查詢請求,搜索引擎除了在用戶提交查詢信息前就生成關鍵字對應的頁面排序列表以外,還需要為那些查詢最頻繁的關鍵字對應的頁面排序列表建立緩存機制。
經過統計,搜索引擎發現關鍵字查詢的集中現象非常明顯。查詢次數最多的前20 010的關鍵字大約占了總查詢次數的80a/o(就這是著名的80/20法則)。因此,只要我們對這20左右的關鍵字建立緩存就可以滿足80u/o的查詢需求。
由于用戶查詢時返回的信息主要是與關鍵字相關的頁面排序列表,因此關鍵字緩存機制的建立主要是針對與關鍵字相關的頁面排序列表。在對常用關鍵字的頁面排序列表建立緩存后,搜索引擎就可以把緩存中的信息返回給用戶,這樣速度就會非常快,也就能滿足絕大部分用戶的需求。
由于互聯網中的信息是時刻都在增長的,如果搜索引擎每次都向用戶返回同樣的信息,則不但用戶得不到更高質量的信息,其他網站也不能向用戶展示最新的高質量信息,從而造成信息滯后。因此,搜索引擎還會對緩存中的內容進行定期更新。
本文由上海專業網站建設公司藝覺網絡(m.gxxmybkw.com www.mywebseo.net),轉載請注明。