TF-IDF算法详解,和TF-IDF对SEO优化的重要性

从事SEO行业时间比较长的人应该听说过TF-IDF算法,TF-IDF算法属于搜索引擎中的核心部分。TF-IDF算法是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取超高分值。本文将深入为大家解析TF-IDF算法原理及公式和对seo的重要性,有兴趣请往下深度阅读。

  一、什么是TF-IDF

先来看百度百科对TF-IDF的解释:

“TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。”

文章链接:https://baike.baidu.com/item/tf-idf

tf-idf算法公式
tf-idf算法公式

  大家看了定义之后跟我一样是懵的吧,为了便于大家理解,作者再举一个简单易懂的栗子。

假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?

内容1: 水果有水果,水果,水果,水果,水果内容2: 水果有苹果,桃子,西瓜,菠萝,梨子内容3: 蔬菜都很好吃,我最爱吃茄子了内容4: 苹果,梨子都是很好吃的水果内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃相信很多人心里面有了答案,大家凭直觉,内容2 跟 内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。

最终的排名顺序为52413,至于为什么呢?核心词为“水果”,5和2里都有“水果”和“苹果”两个关键词且5里有出现两次“水果”,4比2少了一个苹果关键词,1里面包括有“水果”这个关键词但有堆砌行为,3和核心词没有相关性。

其实按照TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请大家跟上我的步伐。

  二、TF-IDF算法的计算步骤

  第1步:计算逆文档频率

我们先统计各个词语被包含的文章数。比如“水果”被4篇文章(内容1、2、4、5)引用,4就是“水果”的逆文档频率。

分词后,各个单词的逆文档频率如下:

水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1

idf
idf

PS: IDF= log(语料库中的文件总数 / 包含词语 t 的文件数目),为了便于理解,这里做了精简。

按照我们的直觉,如果一篇文章把逆文档频率最高的前面的词都包含了,说明这篇文章内容更贴合用户意图,更受到搜索引擎喜欢。回到例子,”水果、苹果”是本例中重要性最高的2个词,如果内容中包含“水果、苹果”,那么这篇内容质量就越好。

所以把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

内容2: 水果有苹果,桃子,西瓜,菠萝,梨子内容4: 苹果,梨子都是很好吃的水果内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃第2步:计算词频(TF)

我们把内容1、内容3砍掉了,剩下的内容2、内容4、内容5怎么排序。我们想一下,一个词语在内容中出现的次数越高,也说明这个词语对这篇文章更重要。回到本例,“水果”是我们的核心词,那么因为内容5中出现“水果”两次,内容2、内容4次数是1,那么内容5胜出。最后的排序结果如下

内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)内容4: 苹果,梨子都是很好吃的水果(第三名)内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )以上是砍了又砍的TF-IDF算法简化解读版,真实的TFIDF算法比这个要正规复杂很多,这里只是让大家get到重点,码迷的目的就达到了。

  三、TF-IDF对SEO的重要性

TF-IDF对SEO非常非常非常重要,重要的事情说三遍!

我们可以看到,TFIDF算法,不仅可以衡量关键词对页面的重要性,更能衡量文章的广度相关性。对于百度、360、google来说,TFIDF算法的出现屏蔽了一大批用关键词密度来获取排名的SEO小白,同时提升了搜索质量啊,真是一箭双雕。

百度百科里面说了:“除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。”。意思是什么?你排名可以由下面的公式决定。文章得分=TFIDF得分+链接得分,百度搜索引擎在用TFIDF!!

那么有人站出来问了,人家只是在百度百科里面说,百度也没有说用TFIDF算法啊,有本事亮出实锤来。

好吧~咱往下接着看。

  1、百度在用TFIDF算法

百度专利中使用TFIDF的实锤,请查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》。搜索算法来去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有点不同,它是目前最核心的搜索算法之一。TF-IDF算法详解,和TF-IDF对SEO优化的重要性

TF-IDF算法详解,和TF-IDF对SEO优化的重要性
百度在用TF-IDF算法

  2、GOOGLE也用TFIDF算法

google承认在搜索中使用的TFIDF算法:原文链接:https://www.searchenginejournal.com/google-tf-idf/304361

TF-IDF算法详解,和TF-IDF对SEO优化的重要性
谷歌说明文件

  3、TFIDF得分比重极高

如果搜索引擎确定使用TF-IDF对网页内容作为评判质量的因子,那么这个比重有多大?码迷知道,现在的搜索引擎一般用如下的算法计算网站页面得分:score(页面得分) = TFIDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

TF-IDF算法详解,和TF-IDF对SEO优化的重要性
排名公式

TF-IDF算法详解,和TF-IDF对SEO优化的重要性

  大约在2G左右的谷歌搜索资料中,码迷做了人工智能训练,预测TFIDF分值大约占百度40%左右的权重,谷歌更是达到了50%。

链接分,通过快排朋友透露,权重大约占百度20%左右,谷歌尚不清楚。

用户体验得分(可以通过刷快排提高)的比率,百度在40%左右,Google则没有找到相关快排技术文档。

所以说,在中国做SEO:排名得分=40%的内容质量(TFIDF)+40%的用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度不言而喻。

文章来源:https://baijiahao.baidu.com/s?id=1655757317657228565&wfr=spider&for=pc

版权声明:原创文章,作者(大鹏),如若转载,请注明出处。TF-IDF算法详解,和TF-IDF对SEO优化的重要性:https://www.31seo.com/286.html

(0)
打赏 支付宝扫一扫 支付宝扫一扫
大鹏的头像大鹏
上一篇 2020-07-19 21:43:36
下一篇 2020-07-22 11:35:34

相关推荐

  • seo要学ps吗?

    今天看到一个有趣的问题:seo要学ps吗?这个问题显得深度不够,但对于刚接触seo的朋友来讲也许真是问题。自古有技多不压身这一个说法,学好ps能处理并制作包含大量劳动力的图片素

    2020-07-09
    4.3K0
  • 经常搜索并点击自己排名,会有什么后果?

    在做SEO的过程中,我们总是会有一个小习惯,那就是当我们刚开始做网站排名的时候,总是习惯性的去搜索自己的关键词,并且去点击相关的页面。  其中,主要的目的就是:  ①看看网站特定关键词,目前在什么位置,顺手点击一下。  ②添加内链锚文本,不知道自己的URL是什

    2020-08-18
    3.0K0
  • SEO对于网站的效果为什么见效慢?

    SEO为什么见效慢?很多刚刚接触seo优化的人,都会希望赶快见到效果,在对网站进行优化的过程中感到着急和焦虑,这可以说是很多新手都会遇到的问题,今天小编就来聊聊这个问题。希

    2020-07-09
    3.3K0
  • 「关键词seo培训」黑帽seo多久可以学会

    网站优化SEO如何进行绩效考核-百度知道【黑帽seo多久可以学会】 SEO的工作内容主要负责哪些事情-百度知道【黑帽seo多久可以学会】 1、seo优化专家,seo是一个基本功,需…

    2020-08-22
    1.8K0
  • 什么是SEO搜索引擎优化?

    SEO搜索引擎优化,是一种常见的网站优化手段。它是利用搜索引擎收录规则,使网站在百度、谷歌等搜索引擎平台上的自然排名得到提高。SEO优化的目的是让网站在相关关键词排名结果中占据领先…

    2020-07-27
    3.4K0
  • web前端开发工程师,需要知道的三点SEO知识!

    一名优秀的web前端开发工程师,对于公司而言是非常难得的珍宝,他往往在很大角度上影响公司的销售业绩,他们的薪资也相对很高,一般来讲web前端开发工程师,需要了解CSS、HTML、SEO、DOM、BOM、Ajax、JavaScript等相关知识,其中星空seo认

    2020-08-19
    2.8K0

发表回复

登录后才能评论