SEO核心算法:依據(jù)余弦相似性找主題相關(guān)文章

      2023-10-22 未知 黑帽SEO
      SEO核心算法:依據(jù)余弦相似性找主題相關(guān)文章

      SEO的核心其實(shí)是由一個個算法組成的,無論是最開始的pagerank,還是后來的hits算法、hilltop算法、trustrank算法等都是搜索引擎最底層的算法。而算法問題又是一個個的數(shù)學(xué)問題,想要深層次的理解SEO算法就要去理解各種數(shù)學(xué)問題。不過還好,我們都不是SEO研究者,沒必要非要弄懂,我們只要知道這個算法是如何來的如何運(yùn)用就可以了!今天我們講的是相關(guān)性算法的一個底層邏輯:余弦相似性!
      有些時候,除了找到關(guān)鍵詞,我們還希望找到與原文章相似的其他文章。比如,在文章“linux軟件安裝方法”的正文下方,有很多文章也是與正文相關(guān)的文章。

      為了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我舉一個例子來說明,什么是"余弦相似性"。
      為了簡單起見,我們先從句子著手。
        句子A:我喜歡看電視,不喜歡看電影。
        句子B:我不喜歡看電視,也不喜歡看電影。
      請問怎樣才能計(jì)算上面兩句話的相似程度?
      基本思路是:如果這兩句話的用詞越相似,它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。
      第一步,分詞。
        句子A:我/喜歡/看/電視,不/喜歡/看/電影。
        句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。
      第二步,列出所有的詞。
        我,喜歡,看,電視,電影,不,也。
      第三步,計(jì)算詞頻。
        句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。
        句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。
      第四步,寫出詞頻向量。
        句子A:[1, 2, 2, 1, 1, 1, 0]
        句子B:[1, 2, 2, 1, 1, 2, 1]
      到這里,問題就變成了如何計(jì)算這兩個向量的相似程度。
      我們可以把它們想象成空間中的兩條線段,都是從原點(diǎn)([0, 0, ...])出發(fā),指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

      以二維空間為例,上圖的a和b是兩個向量,我們要計(jì)算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:


      假定a向量是[x1, y1],b向量是[x2, y2],那么可以將余弦定理改寫成下面的形式:


      數(shù)學(xué)家已經(jīng)證明,余弦的這種計(jì)算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的余弦等于:

      使用這個公式,我們就可以得到,句子A與句子B的夾角的余弦。

      余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事實(shí)上它們的夾角大約為20.3度。
      由此,我們就得到了"找出相似文章"的一種算法:
        (1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;
        (2)每篇文章各取出若干個關(guān)鍵詞(比如20個),合并成一個集合,計(jì)算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);
        (3)生成兩篇文章各自的詞頻向量;
        (4)計(jì)算兩個向量的余弦相似度,值越大就表示越相似。
      "余弦相似度"是一種非常有用的算法,只要是計(jì)算兩個向量的相似程度,都可以采用它。
      "余弦相似性"在谷歌搜索引擎中應(yīng)用的特別多,谷歌的搜索引擎優(yōu)化白皮書中也明確說明了應(yīng)用余弦相似性原理。雖然百度搜索引擎沒有公布,但百度也肯定應(yīng)用了這個或者類似的算法。我們理解了余弦相似性原理,就可以更好的找出文章的相關(guān)內(nèi)容,提高搜索相關(guān)性,從而提高內(nèi)頁排名!

      責(zé)任編輯:SEO核心算法:依據(jù)余弦相似性找主題相關(guān)文章

      相關(guān)文章

      樂天SEO培訓(xùn)中心

      主站蜘蛛池模板: 亚洲av无码一区二区三区人妖| 国产成人一区二区三区在线观看| 日韩精品一区二区三区中文版| 人妻精品无码一区二区三区 | 国产精品一区二区在线观看| 午夜性色一区二区三区免费不卡视频| 精品午夜福利无人区乱码一区| 亚洲欧美国产国产一区二区三区 | 亚洲AV成人精品日韩一区18p| 色欲AV无码一区二区三区| 日本强伦姧人妻一区二区| 一区二区乱子伦在线播放| 亚洲综合无码一区二区| 麻豆va一区二区三区久久浪| 91国在线啪精品一区| 偷拍激情视频一区二区三区| 国产AV一区二区精品凹凸| 久久人妻内射无码一区三区 | 日本一区二区三区在线网| 国偷自产av一区二区三区| 一区二区传媒有限公司| 又硬又粗又大一区二区三区视频 | 亚洲高清成人一区二区三区| 国产AV午夜精品一区二区入口| 麻豆精品人妻一区二区三区蜜桃| 一本岛一区在线观看不卡| 亚洲AV无码一区二区三区在线| 久久国产精品无码一区二区三区| 人成精品视频三区二区一区| 精品无码人妻一区二区三区品| 一区二区精品视频| 欲色aV无码一区二区人妻 | 国产一区二区三区乱码| 成人区人妻精品一区二区不卡| 亚洲AV无码一区东京热| 午夜无码视频一区二区三区| 亚洲性无码一区二区三区| 日韩免费观看一区| 国产福利电影一区二区三区,日韩伦理电影在线福| 无码av免费一区二区三区试看 | 日韩免费无码一区二区三区|