F-IDF(詞頻-逆文檔頻率)算法是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。該算法在數(shù)據(jù)挖掘、文本處理和信息檢索等領(lǐng)域得到了廣泛的應用,如從一篇文章中找到它的關(guān)鍵詞。
TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF實際上就是
TF*IDF,其中 TF(Term Frequency),表示詞條在文章Document 中出現(xiàn)的頻率;IDF(Inverse Document
Frequency)。
其主要思想就是,如果包含某個詞
Word的文檔越少,則這個詞的區(qū)分度就越大,也就是 IDF 越大。對于如何獲取一篇文章的關(guān)鍵詞,我們可以計算這邊文章出現(xiàn)的所有名詞的
TF-IDF,TF-IDF越大,則說明這個名詞對這篇文章的區(qū)分度就越高,取 TF-IDF 值較大的幾個詞,就可以當做這篇文章的關(guān)鍵詞。
PageRank通過網(wǎng)絡浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。
基于PageRank算法衍生出來的外鏈時代,那時候多瀏覽器多窗口同時運行,CtrlC加CtrlV無限循環(huán),我們被親切地稱為CV工程師;而后黑馬博客群發(fā)、蟲蟲營銷助手,又如劍客手中的劍攝取著搜索引擎這個大流量池;當然還有大量的各式各樣友情鏈接交換手法以及鏈輪手法。
以是我們,上海網(wǎng)站建設(shè),公司整理關(guān)于科技的消息,我們提供百度優(yōu)化,SEO優(yōu)化,網(wǎng)站建設(shè),關(guān)于這些方面的問題,歡迎咨詢我們。
本文由上海藝覺網(wǎng)絡科技有限公司(http://m.gxxmybkw.com)原創(chuàng)編輯轉(zhuǎn)載請注明
網(wǎng)絡營銷專題
SEO每日流量如何做上去
來源:
上海網(wǎng)站建設(shè)
發(fā)布日期:
2018-08-21 14:12
點擊量:
3355
上一篇:
頁面制作多重引導如何處理
下一篇:
如何快速診斷競爭對手網(wǎng)站 SEO