静态网页为什么容易被搜索引擎收录
简单的说就是:动态的网页百度的蜘蛛有可能看不懂或者抓取不到有价值的内容,这样蜘蛛就会降低对这个网页的兴趣。
百度通过一个叫做Baiduspider的程序抓取互联网上的网页,经过处理后建入索引中。目前Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度无法识别。
建议使用文字而不是flash、图片、Javascript等来显示重要的内容或链接,搜索引擎暂时无法识别Flash、图片、Javascript中的内容,这部分内容无法搜索到;仅在flash、Javascript中包含链接指向的网页,百度可能无法收录。
关于网站url的设定,百度官方给出的原则是:规范、简单的URL
创建具有良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的网站。网站设计之初,就应该有合理的url规划。
我们建议:
• 如果网站中同一网页,只对应一个url
如果网站上多种url都能访问同样的内容,会有如下危险:
1、搜索引擎会选一种url为标准,可能会和正版不同
2、用户可能为同一网页的不同url做推荐,多种url形式分散了该网页的权重
如果你的网站上已经存在多种url形式,建议按以下方式处理:
1、在系统中只使用正常形式url,不让用户接触到非正常形式的url
2、不把Session id、统计代码等不必要的内容放在url中
3、不同形式的url,301永久跳转到正常形式
4、防止用户输错而启用的备用域名,301永久跳转到主域名
5、使用robots.txt禁止Baiduspider抓取您不想向用户展现的形式
• 让用户能从url判断出网页内容以及网站结构信息,并可以预测将要看到的内容
• URL尽量短,长URL不仅不美观,用户还很难从中获取额外有用的信息。另一方面,短url还有助于减小页面体积,加快网页打开速度,提升用户体验。
• 正常的动态url对搜索引擎没有影响。url是动态还是静态对搜索引擎没有影响,但建议尽量减少动态url中包含的变量参数,这样即有助于减少url长度,也可以减少让搜索引擎掉入黑洞的风险
• 不添加不能被系统自动识别为url组成部分的字符