在SEO的衍生應用中,我們可以這么去理解上面這段話(huà):在一個(gè)公司里,有10個(gè)SEOer,每個(gè)人都寫(xiě)了一篇關(guān)于SEO的文章,并且把這些文章都放在了一個(gè)文檔集里。我們可以預料到的是,基本每篇文章中都會(huì )重復多次出現SEO這個(gè)詞,意味著(zhù)這十篇文章都與SEO有關(guān)?,F在我要查找一篇關(guān)于網(wǎng)站權重的SEO文章。那么我會(huì )在搜索引擎中輸入“SEO 網(wǎng)站權重”。

最終我找到兩篇同時(shí)出現了這兩個(gè)詞的文章,先進(jìn)篇里面出現了2次“網(wǎng)站權重”和10次“SEO,另一篇出現了10次“網(wǎng)站權重”和2次“SEO”?,F在的問(wèn)題是:拋開(kāi)作者的素質(zhì)(網(wǎng)站整體權重)、文章質(zhì)量(頁(yè)面權重)、公司內專(zhuān)家的推薦(高質(zhì)量外鏈)以及其他種種因素的影響后,誰(shuí)的文章應該排在搜索結果的前面?

帶著(zhù)這個(gè)問(wèn)題,我們來(lái)學(xué)習TF-IDF算法以及TF-IDF算法在SEO中衍生的應用。

TF-IDF的核心概念

如果某個(gè)詞或短語(yǔ)在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語(yǔ)具有很好的類(lèi)別區分能力,適合用來(lái)分類(lèi)。

同時(shí),如果一篇文章中出現了我們要查詢(xún)的詞,我們就會(huì )認為該文章與我們要查的詞有比較大的相關(guān)性。延續這種思路,就是如果一篇文檔中出現要查詢(xún)的詞的次數越多,該文章與要查詢(xún)的詞之前的相關(guān)性應該越大。

我們在以往的SEO工作中,運用到的關(guān)鍵詞密度技術(shù),基于的就這個(gè)TF原理。

那么我們在TF-IDF算法中,先定義一個(gè)TF(t,d)表示詞語(yǔ)t在文章d中的出現次數。

我們可以通過(guò)關(guān)鍵詞密度查詢(xún)工具來(lái)查詢(xún)TF值:http://tool.chinaz.com/Tools/Density.aspx

但僅僅考慮詞出現的次數是不行的,因為常常我們查詢(xún)的都是兩個(gè)以上的詞,比如“AA BB”或者“XX YY ZZ”等形式。如果是這種形式的查詢(xún),哪個(gè)詞出現的次數應該做為重要性的依據呢?這就引出了IDF來(lái)測量詞的稀缺度,這里我們定義IDF為IDF(t) = log(N / DF(t))。其中:

DF(t):該詞(以t為代表)在多少篇文章中出現過(guò)。查詢(xún)辦法是通過(guò)google搜索某一個(gè)詞t,得到的搜索結果我們可以理解DF(t)。

N:總文章數。這個(gè)數值在我們SEO工作中沒(méi)有什么實(shí)際的用處,因為我們不可能知道搜索引擎索引了多少文章。但是對于搜索引擎來(lái)說(shuō),N卻是一個(gè)判定詞權重的數據。

log:這個(gè)也不是我們SEO工作中需要考慮的數值,一般而言,log的底數可以隨便設定。一般而言,我們采用+1的方式來(lái)抑制上述“網(wǎng)站權重 SEO”例子中第二篇出現10次“網(wǎng)站權重”的文章比先進(jìn)篇出現2次“網(wǎng)站權重”的文章重要5倍的夸張情況出現。

TF-IDF的SEO應用實(shí)戰

看到這里,是不是覺(jué)得很煩躁?我們來(lái)進(jìn)入一段廣告……呃,不,進(jìn)入一段實(shí)例:

TF-IDF值 = TF×IDF(TF乘以IDF) = 1+log tf(t,d) × log(N / DF(t))

以《網(wǎng)站權重 SEO》和《SEO學(xué)習:什么是網(wǎng)站權重》這篇文章為例:

“網(wǎng)站權重”TF值為:w=1+log 31(次出現)=2.49

“網(wǎng)站權重”IDF值為:23,200,000篇/1萬(wàn)億(假設值,08年數據)=4.63

“網(wǎng)站權重”TF-IDF值為:2.49*4.63=11.53

“SEO”TF值為:w=1+log 34(次出現)=2.53

“SEO”IDF值為:1,220,000,000篇/1萬(wàn)億(假設值,08年數據)=2.91

“SEO”TF-IDF值為:2.53*2.91=7.36

我們得到了“網(wǎng)站權重”TF-IDF值11.53和“SEO”TF-IDF值7.36。這有什么用呢?

TF-IDF值越大,文章與索引詞越相關(guān);

只有當“網(wǎng)站權重”這個(gè)詞權重高的頁(yè)面,才有可能在“網(wǎng)站權重 SEO”這個(gè)搜索結果的排名上有比較好的效果;

錨文本鏈接需要加強“網(wǎng)站權重”這個(gè)詞;

如果我們針對這個(gè)頁(yè)面做“SEO”的錨文本,則不會(huì )有太好的表現;

在沒(méi)有其他因素加權或降權的情況下,小于該頁(yè)面的總計詞權值18.89(11.53+7.36)的頁(yè)面將排名較低,大于18.89的頁(yè)面將排名比次文章高

TF-IDF在SEO應用的總結

以上只是一個(gè)TF-IDF在SEO衍生應用中的一個(gè)例子。無(wú)論是TF-IDF的計算方式,或者是該案例的假設條件,都是不嚴謹和準確的。但這不妨礙我們明白“關(guān)鍵詞密度”這一SEO技術(shù)的原理。同時(shí),也在關(guān)鍵詞排名方面,跟競爭對手有了一個(gè)可以量化的參考。

無(wú)論百度還是谷歌又或者其他搜索引擎,TF-IDF只是其搜索排名算法中很小的一部分。同時(shí)為了打擊關(guān)鍵詞堆砌,各大搜索引擎又都會(huì )對TF值做一定的限制。SEOMoz給的一個(gè)安全的詞頻數為每篇頁(yè)面不重復15詞關(guān)鍵詞。而不是簡(jiǎn)單的用2%-8%的關(guān)鍵詞密度。當然這個(gè)建議是基于國外的搜索引擎。

我們在學(xué)習SEO時(shí),的確需要了解一些技術(shù)和理論的知識,這些知識有助于我們更好的開(kāi)展工作。但同時(shí),我們也無(wú)需糾結于一些純理論和技術(shù)方面的問(wèn)題,畢竟,在SEO這個(gè)行業(yè)中,實(shí)戰和經(jīng)驗同樣無(wú)比重要。

 

•END•