搜索引擎是怎样来判断文章是否原创呢

wvn599
2013-10-14 · TA获得超过3517个赞
知道小有建树答主
回答量:927
采纳率:71%
帮助的人:621万
展开全部
当然,我也知道一直采集也不是办法,可是人力有限,不可能去一条条加,也不现实。所以想搜索一下搜索引擎是怎么判断原创与否的,但很可惜,这方面的内容其实未几。然后我去以搜索工程师的角度去想了想,不禁一身冷汗啊,由于判断原创与否其实太简朴了。我就按我的思维顺序分析一下,供参考。   下面我以这个文章为例来讲解。标题:南昊北京科技有限公司是专业的光标阅读机出产商。内容:南昊科技研发的光标阅读机读卡快,质量优,服务好。我们的公司地址在北京市XXXX。蜘蛛通过超链接文本来到我们的网站,并通过站内链接来到此篇文章页。搜索引擎判定分析开始。  1.标题的分析:   现在好多的网页都有显著的优化痕迹,带有良多的长尾词,但是这些在后边位置的长尾词应该只是告诉引擎本页面这是关于什么内容的,由于这样的话引擎会以为有太多重复,显然这是一个不准确的做法。实际应该为有一个截取函数,好比只截取前边40个字符作为分析内容。终极,假设引擎截取的是:南昊北京科技有限公司是专业的光标阅读机。首先要做的就是判定这个标题是不是独一,怎么判定呢,放心有办法。我们都知道引擎分类是按词条目来分的,那条目要怎么来呢。简朴:相关搜索词条目。引擎会把截取到的标题按这个相关搜索词去他的数据库中一一分析匹对。举个例子吧,从标题中取到光标阅读机这个词,然后和相关搜索词匹对,假如数据库中已经存有了这个标题,就会以为此标题不独一,待匹对文章内容。假如光标阅读机这个词匹对完毕,再会截取南昊北京,再会以此类推,进行匹对直到分析完引擎以为标题所含全部的枢纽词。终极标题的匹对结果有两种:一,标题数据库暂无此内容,待考察内容。二,标题数据库中已存在此内容,待考察内容。   2.内容的分析:   基本思路应该和标题的分析是差未几的,但是也有差别,困为内容包含的信息究竟比标题要复杂,五花八门的多,也要有更复杂的算法。前边已经说了我们的内容是:南昊科技研发的光标阅读机读卡快,质量优,服务好。我们的公司地址在北京市XXXX。由于文章内容一般很长,所以不可能去对枢纽词进行分析,他只好去对一句话或者一段话进行分析匹对。但是这个匹对范围应该仍是标题中有相关搜索词的文章数据库中进行分析匹对。先大体说一下他的分析方法:随机截取随机长的字段,然后就行此字段前后内容的分析,假如当前页与引擎内容数据库中有相同字段的且前后段也相同的话,就会以为这个文章有抄袭,非原创的嫌疑。这个分析过程一般要重复几回,如果分析了10次,有9次在截取字段前后都能在已有内容数据库中有相同内容,再加上标题又相同,这样的话,你这篇文章就会被认定为非原创了。  下面我们来模拟一下   引擎第一次截取到了光标阅读机读卡快,,然后通过相关搜索词来到文章数据库,已有数据库字段前为科技研发的,字段后为质量优,掏出这两个字段与我们当前页面进行匹对。若有相同内容,记为0,没有相同内容,记为1。一次匹对完毕。然后再截取公司地址,进行操纵,再次得到一个结果0或1,以此类推。直到完成引擎设置的匹对轮回次数。假如匹对10次,有7次,或8次,或10次都能找到相同内容,那么就会以为你的这篇不是原创了再往远了说,假如判断这是一篇原创,那么引擎会在他的域名权重数据库中对该域名进行+1操纵,显然,越来越多的原创,权重也就越来越高,排名也就越来越好了。我想通过标题与内容的这样枢纽词匹对,只要进行足够次数的匹对,大胆勇敢扩展相关数据库匹对范围,一篇文章是不是原创就能分辨出来了。事实上,现在的处理器是越来越快又便宜,再加上搜索引擎工程师都是高学历的,算法的进步改善,还有那经验的积累。搜索引擎对文章原创与否进行判定,就像剁大白菜一样简朴。不想还行,一想真是吓一跳,得到的结论是采集站必死!原创吧仍是,最不济标题最少也要改吧。看看吧,要是有时间了再分享一下如何做好引擎分析不出来的伪原创文章。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式