百度输入关键词,用python抓取前N个页面,网址后面的怎么去掉?百度版本和以前不一样,怎么修改正则表达式
2个回答
展开全部
如果要去除/后面的东西
找到的字符串 用正则匹配 ([^/]+)/.* 不含/后面的东西的字符串在 捕获括号中,
如果要去除 &后面的东西 也类似:
([^&]+)&.*
看了你的代码,更改如下:
匹配表达式的一部分:
class="f13"><span class="g">(.*?)</span>
如果要去掉 ...
改为:
ass="f13"><span class="g">(.*?)\.{3} </span>
如果要去掉 /后面的东西,改为:
ass="f13"><span class="g">([^/]+).*?</span>
找到的字符串 用正则匹配 ([^/]+)/.* 不含/后面的东西的字符串在 捕获括号中,
如果要去除 &后面的东西 也类似:
([^&]+)&.*
看了你的代码,更改如下:
匹配表达式的一部分:
class="f13"><span class="g">(.*?)</span>
如果要去掉 ...
改为:
ass="f13"><span class="g">(.*?)\.{3} </span>
如果要去掉 /后面的东西,改为:
ass="f13"><span class="g">([^/]+).*?</span>
更多追问追答
追答
~~我运行的没问题。
你的结果大部分都去掉了,有几个个别的可以打开源文件看看是不是有什么特别之处?
难道有的网址后面有 两个 ...
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询