有什么好方法防止自己网页的内容被采集

 我来答

2个回答

#热议# 什么是淋病？哪些行为会感染淋病？

百里随笔
2017-09-27 · TA获得超过1018个赞

知道小有建树答主

回答量：130

采纳率：59%

帮助的人：63.5万

我也去答题访问个人页

关注

展开全部

防止自己网页的内容被采集有非常多的方法

方法一：内容配图加水印

当你的文章中含有图片时候，可以给图片打上水印，这样就留下了你的信息，对方要采集或者复制您文章后，不可能一张一张的去处水印，这样也算是变相地帮助我们宣传网站。

方法二：内容随机穿插版权信息

在不影响用户阅读体验的情况下，尽量在内容段落之间随机插入一些之间的信息，比如：网站名字，链接，版权作者，QQ等，这样的话，就算对方使用采集器过滤也不可能每篇文章都能过滤得掉。

方法三：作品结尾留作者信息及链接

不过这个方法作用不是很大，因为很多人复制或转载内容时直接去掉了，可以参考方法二，适当在段落结尾处不影响阅读的情况下下随机插入较好。

方法四：主动推送网址给百度收录

百度给出的链接提交方式有以下三种：

1、主动推送：最为快速的提交方式，推荐您将站点当天新产出链接立即通过此方式推送给百度，以保证新链接可以及时被百度收录。

2、sitemap：您可以定期将网站链接放到sitemap中，然后将sitemap提交给百度。百度会周期性的抓取检查您提交的sitemap，对其中的链接进行处理，但收录速度慢于主动推送。

3、手工提交：一次性提交链接给百度，可以使用此种方式。

方法五：利用JS加密网页内容

这个方法是在个别网站上看到的，非常暴力。缺点：搜索引擎爬虫无法识别收录和通杀所有采集器，针对极度讨厌搜索引擎和采集器的网站的站长使用，量力而行，您能豁出去了，别人也就没办法采集你了。

方法六：网站随机采用不同模版

分析：因为采集器是根据网页结构来定位所需要的内容，一旦先后两次模版更换，采集规则就失效，不错。而且这样对搜索引擎爬虫没影响。

适用网站：动态网站，并且不考虑用户体验。

采集器会怎么做：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。如果多于10个模版了，既然目标网站都那么费劲的更换模版，成全他，撤。

方法七：利用脚本语言做分页（隐藏分页）

分析：还是那句，搜索引擎爬虫不会针对各种网站的隐藏分页进行分析，这影响搜索引擎对其收录。但是，采集者在编写采集规则时，要分析目标网页代码，懂点脚本知识的人，就会知道分页的真实链接地址。

适用网站：对搜索引擎依赖度不高的网站，还有，采集你的人不懂脚本知识。

采集器会怎么做：应该说采集者会怎么做，他反正都要分析你的网页代码，顺便分析你的分页脚本，花不了多少额外时间。

方法八：限制IP地址单位时间的访问次数

分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。

弊端：一刀切，这同样会阻止搜索引擎对网站的收录。

适用网站：不太依靠搜索引擎的网站。

采集器会怎么做：减少单位时间的访问次数，减低采集效率。

希望可以帮到你！

已赞过 已踩过<

评论收起

匿名用户
2016-11-26

展开全部

　　作为一个刚上线的小站，我们都知道需要大量的原创内容，不少站长都在坚持撰写原创内容，虽然原创内容写起来比较耗费时间和精力，但对于新站的意义是很大的，百度喜欢原创内容，新站更不能去抄袭和伪原创，否则很容易被百度认为是采集站。那么离网站被K也就不远了，不过几乎所有的小站都面临一个头疼的问题：自己辛苦撰写的原创内容被采集或者盗用，一旦小站上的内容被采集或盗用了，由于刚上线的小站根本没有什么权重，所有收录本来就比较慢，可以说随便一个网站采集你的内容，那么首先收录内容的都不会是自己的站点。这样自己的辛苦也就算是白费了，可是现在还没有很好的办法去彻底杜绝这种现象，当然有些方法还是可以使用的，至少在一定程度上有作用。下面笔者整理了几种，当然你要有更好的方法不妨分享一下：　　第一：从网站程序入手，禁止大规模的采集　　在互联网上抄袭和被抄袭都是司空见惯的事情，笔者自己也采集过其他网站上的内容，但是有些站点是防止采集的，原理说起来也比较简单，就是如果碰到使用火车头等采集器，那么程序就能判断出这不是人工在点击页面，因为软件运行的速度非常快。然后程序就能对采集者的网络IP进行屏蔽，这样你就无法采集到内容了，这种方法是防止大规模的采集内容。还有一种情况是人工的采集，也就是去别的站上直接复制和粘贴，这样情况是最难杜绝的，当然也可以使用JS代码去屏蔽一下，具体来说就是禁止用户按复制、粘贴，或者干脆禁止查看源代码，这些JS代码网上也有很多，不过说实话还是不能彻底去杜绝抄袭的现象。有的采集软件非常厉害，甚至你的站点上页面还没放出来，都能被采集到。　　第二：在文章内容中隐藏锚文本链接或版权　　通常情况下，我们写完一篇原创文章都喜欢在末尾加上版权信息，可是这样的版权信息没有实际意义，别人既然选择了抄袭或采集，自然不会去管那些东西。而且文章末尾加链接或锚文本也不是一个好习惯，最好是在文章内容中自然出现关键词或锚文本链接，如果别人采集你网站上的内容能够带上链接，那样的话损失也不算大，也就是免费给你做外部链接了，关键是如何隐藏好链接，避免被别人给删掉，在文章结尾的地方加链接肯定一眼就能看到，所以我建议尽量在文章内容中加链接，另外还可以把锚文本的颜色设置跟普通文字的颜色一样，这样不容易被别人发现，其实有很多的站长比较懒惰，有时候不会去检查的那么仔细。总之，这也是一种治标不治本的方法。　　第三：更新网站内容后将URL提交给百度　　之所以防止别人抄袭或采集，根本原因还是担心百度不再收录自己站点的内容，因此我们在更新网站后可以把文章URL直接提交给百度，ping一下没有坏处，虽然百度不会马上收录这些URL，但是通过ping或外链吸引确实可以让百度蜘蛛快点过来。2012年百度推出原创星火计划，这是一套完善的原创内容识别系统，当然也会涉及到小站上的优质内容，目的就是鼓励原创内容，打击采集或抄袭的现象，让原创内容最快的收录。不过目前看来原创星火计划还处于初期试验阶段，至少在小站上没有什么好的体现，本文介绍了三种途径或方法去杜绝内容被盗用，可惜的是没办法从根本上去解决这个问题，最后笔者只能说根据自己情况去选择吧。只希望百度能够在技术上有所提升，尽可能的让原创内容收录更快。　　身为一个站长或SEO人，抄袭和伪原创几乎谁都接触过，也许你很痛恨别人抄袭你的文章，尤其是抄袭后把链接都给删掉，可想想自己是否也这么做过呢?抄袭别人的内容确实不好，但事实上互联网上有太多抄袭的内容。我们只能用一个淡定的心态去看待这个问题，除非百度的原创星火计划真的很给力，从根本上解决这个历史遗留下的问题，否则抄袭和反抄袭将会一直存在，笔者就写到此，原创内容还得继续去写! 　　文章来源：化妆学校makeup/ 原创撰写转载保留地址

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网页被劫持了怎么处理?专业解决dns被劫持，dns被污染

网页被劫持了怎么处理?华纳云，免费检测，先测试，1h极速生效，快速恢复网站访问!华纳云，域名安全专家，一站式域名污染检测/分析/污染处理/防护!

www.hncloud.com广告

有什么好方法防止自己网页的内容被采集

您可能关注的内容

其他类似问题

为你推荐：