百度输入关键词，用python抓取前N个页面,网址后面的怎么去掉？百度版本和以前不一样，怎么修改正则表达式

 我来答

2个回答

#热议# 空调使用不当可能引发哪些疾病？

cnbubble
2015-07-29 · TA获得超过2607个赞

知道大有可为答主

回答量：1990

采纳率：83%

帮助的人：765万

我也去答题访问个人页

关注

展开全部

如果要去除/后面的东西
找到的字符串用正则匹配 ([^/]+)/.* 不含/后面的东西的字符串在捕获括号中，
如果要去除 &后面的东西也类似：
([^&]+)&.*

看了你的代码，更改如下：
匹配表达式的一部分：
class="f13">(.*?)
如果要去掉 ...
改为：
ass="f13">(.*?)\.{3} 

如果要去掉 /后面的东西，改为：
ass="f13">([^/]+).*?

更多追问追答

追问

我用了你的方法，可是还是会这样！可能正则要重新修改匹配过

追答

~~我运行的没问题。
你的结果大部分都去掉了，有几个个别的可以打开源文件看看是不是有什么特别之处？
难道有的网址后面有  两个  ...

知道了，因为有的网页里面没有/符号。，可以将两个正则结合在一起

"g">([^/]+).*?\.{3}

本回答由提问者推荐

已赞过 已踩过<

评论收起

日TimE寸
2015-07-28 · TA获得超过9568个赞

知道大有可为答主

回答量：1358

采纳率：83%

帮助的人：477万

我也去答题访问个人页

关注

展开全部

把你现在的程序传到网盘上，发出来看一下

追问

追答

在HTML里就是空格的意思
你可以在打印出来的时候直接切片去掉就好了
把x[1]替换成x[1][:-6]
至于链接原本本身就只有一部分，如果要获取完成的链接的话，可能会麻烦很多

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

百度输入关键词，用python抓取前N个页面,网址后面的怎么去掉？百度版本和以前不一样，怎么修改正则表达式

其他类似问题

为你推荐：