:TF-IDF算法網站標題怎麼寫適合優化-景東SEO
排列三官網-排列三|注冊|app|安卓版|下載一站式SEO服務,幫助企業網站快速排名,快速上首頁!| 網站地圖
首頁

主頁 > SEO問題解答 > TF-IDF算法網站標題怎麼寫適合優化

2020-03-23 SEO問題解答 89 ℃


百度內部的搜索算法,已經非常復雜了,能全面了解整個搜索算法的人屈指可數,google應該也是同樣的情況,普通員工一般只了解自己負責的一小部分,而同時全面了解兩個公司算法的人,需要在兩個公司搜索部門都干很長時間,而且都做到很高職位,這樣的人,還沒听說過,即使有這樣的人,對兩個公司的算法都了如指掌 ,你覺得這種核心的東西,他會在公開場合說出來嗎?下面帶你詳細了解TF-IDF算法及原理

網站標題優化

TF-IDF及其算法

TF-IDF概念
 

TF-IDF(term frequency–inverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外,因特網上的搜尋引擎還會使用基于連結分析的評級方法,以確定文件在搜尋結果中出現的順序。
 

TF-IDF計算
 

TF-IDF反映了在文檔集合中一個單詞對一個文檔的重要性,經常在文本數據挖據與信息提取中用來作為權重因子。在一份給定的文件里,詞頻(termfrequency-TF)指的是某一個給定的詞語在該文件中出現的頻率。逆向文件頻率(inversedocument frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。
 

TF-IDF原理
 

在一份給定的文件里,詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化(分子一般小于分母 區別于IDF),以防止它偏向長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞頻,而不管該詞語重要與否。)

逆向文件頻率 (inverse document frequency, IDF) 是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。

某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

TFIDF的主要思想是︰如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。TFIDF實際上是︰TF * IDF,TF詞頻(Term Frequency),IDF反文檔頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現的頻率(另一說︰TF詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現的次數)。IDF的主要思想是︰如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區分能力。如果某一類文檔C中包含詞條t的文檔數為m,而其它類包含t的文檔總數為k,顯然所有包含t的文檔數n=m+k,當m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區分能力不強。(另一說︰IDF反文檔頻率(Inverse Document Frequency)是指果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區分能力。)但是實際上,如果一個詞條在一個類的文檔中頻繁出現,則說明該詞條能夠很好代表這個類的文本的特征,這樣的詞條應該給它們賦予較高的權重,並選來作為該類文本的特征詞以區別與其它類文檔。這就是IDF的不足之處。
 

TF-IDF向量空間模型Vector Space Model計算

寫一個testscikit.py文件,內容如下︰

 

<p># coding:utf-8
 

from sklearn.feature_extraction.text import CountVectorizer
 

from sklearn.feature_extraction.text import TfidfTransformer

 

corpus=["杭州  SEO  TF-IDF",

        "算法  網站",

        "標題   怎麼  寫  適合  優化 "]

 

vectorizer=CountVectorizer()

 

print type(vectorizer.fit_transform(corpus))
 

print vectorizer.fit_transform(corpus)
 

print vectorizer.fit_transform(corpus).todense()

 

這里面CountVectorizer是一個向量計數器

 

第一個print type(vectorizer.fit_transform(corpus))輸出結果如下︰
 

<class 'scipy.sparse.csr.csr_matrix'>
 

這說明fit_transform把corpus二維數組轉成了一個csr_matrix類型(稀疏矩陣)

 

第二個print vectorizer.fit_transform(corpus)輸出結果如下︰
 

  (0, 0)    1

  (0, 4)    1

  (0, 7)    1

  (1, 7)    1

  (1, 1)    1

  (2, 0)    1

  (2, 2)    1

  (2, 3)    1

  (2, 6)    1

  (2, 5)    1
 

這就是稀疏矩陣的表示形式,即把二維數組里的所有詞語組成的稀疏矩陣的第幾行第幾列有值

 

第三個print vectorizer.fit_transform(corpus).todense()輸出如下︰
 

[[1 0 0 0 1 0 0 1]

 [0 1 0 0 0 0 0 1]

 [1 0 1 1 0 1 1 0]]
 

這就是把稀疏矩陣輸出成真實矩陣

 

下面我們把代碼改成︰
 

# coding:utf-8
 

from sklearn.feature_extraction.text import CountVectorizer
 

from sklearn.feature_extraction.text import TfidfTransformer

 

 

corpus=["杭州  SEO  TF-IDF",

        "算法  網站",

        "標題   怎麼  寫  適合  優化 "]

 

 

vectorizer=CountVectorizer()
 

csr_mat = vectorizer.fit_transform(corpus)
 

transformer=TfidfTransformer()
 

tfidf=transformer.fit_transform(csr_mat)
 

print type(tfidf)
 

print tfidf
 

print tfidf.todense()

 

TF-IDF算法輸出如下︰

 

<class 'scipy.sparse.csr.csr_matrix'>

  (0, 7)    0.517856116168

  (0, 4)    0.680918560399

  (0, 0)    0.517856116168

  (1, 1)    0.795960541568

  (1, 7)    0.605348508106

  (2, 5)    0.467350981811

  (2, 6)    0.467350981811

  (2, 3)    0.467350981811

  (2, 2)    0.467350981811

  (2, 0)    0.35543246785
 

[[ 0.51785612  0.                 0.                 0.                 0.68091856   0.                 0.              0.51785612]

 [ 0.                0.79596054  0.                 0.                 0.                 0.                 0.               0.60534851]

 [ 0.35543247  0.                0.46735098  0.46735098  0.                 0.46735098     0.46735098  0.        ]]


以上就是TF-IDF算法了解這些可以幫助人們知道怎麼很好的寫網站標題,網站標題在關鍵詞優化上面可謂是佔比非常大滴,成功的優化人員選好網站標題,關鍵詞優化能事半功倍哦。。
 

原標題︰TF-IDF算法網站標題怎麼寫適合優化

tag標簽︰ 網站標題 算法 TF-IDF

搜索
網站分類
標簽列表
?


15361814016

需要搜索引擎優化服務,請聯系客服︰

微信二維碼

添加QQ,提升網站排名︰加好友