百度输入关键词,用python抓取前N个页面,网址后面的怎么去掉?百度版本和以前不一样,怎么修改正则表达式

 我来答
cnbubble
2015-07-29 · TA获得超过2607个赞
知道大有可为答主
回答量:1990
采纳率:83%
帮助的人:765万
展开全部
如果要去除/后面的东西
找到的字符串 用正则匹配 ([^/]+)/.* 不含/后面的东西的字符串在 捕获括号中,
如果要去除 &后面的东西 也类似:
([^&]+)&.*

看了你的代码,更改如下:
匹配表达式的一部分:
class="f13"><span class="g">(.*?)</span>
如果要去掉 ...
改为:
ass="f13"><span class="g">(.*?)\.{3} </span>

如果要去掉 /后面的东西,改为:
ass="f13"><span class="g">([^/]+).*?</span>
更多追问追答
追问

我用了你的方法,可是还是会这样!可能正则要重新修改匹配过

追答
~~我运行的没问题。
你的结果大部分都去掉了,有几个个别的可以打开源文件看看是不是有什么特别之处?
难道有的网址后面有 两个 ...
日TimE寸
2015-07-28 · TA获得超过9568个赞
知道大有可为答主
回答量:1358
采纳率:83%
帮助的人:477万
展开全部
把你现在的程序传到网盘上,发出来看一下
追问

追答
在HTML里就是空格的意思
你可以在打印出来的时候直接切片去掉就好了
把x[1]替换成x[1][:-6]
至于链接原本本身就只有一部分,如果要获取完成的链接的话,可能会麻烦很多
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式