网页爬虫怎么提取网页信息

我现在能写出一个爬虫,抓取到URL,但是要怎么提取网页信息呢?比如想抓取淘宝上的内容,需要把页面下载下来解析吗?我可以把标签项都去掉,但是要怎么做才能更进一步的提取所需要... 我现在能写出一个爬虫,抓取到URL,但是要怎么提取网页信息呢?比如想抓取淘宝上的内容,需要把页面下载下来解析吗?我可以把标签项都去掉,但是要怎么做才能更进一步的提取所需要的信息呢? 展开
 我来答
archyly
2013-05-21 · TA获得超过1318个赞
知道小有建树答主
回答量:389
采纳率:50%
帮助的人:433万
展开全部
正则表达式或者可以使用第三方工具包。
例如html parser ,jsoup 等。
jsoup推荐使用。功能比较强大。简单使用下载请参考
http://zhidao.baidu.com/question/552336025?&oldq=1#answer-1391273085
如有疑问可发私信给我
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
yinweidns
2013-05-21 · TA获得超过106个赞
知道小有建树答主
回答量:212
采纳率:0%
帮助的人:127万
展开全部
你的思路是正确的,你可以写正则表达式把页面里需要的信息提取出来
追问
嗯,不过我不太会用正则表达式,我看了看打算用HTMLParser
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
数阔八爪鱼采集器丨RPA机器人
2021-07-28 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
网页信息利用采集器工具也可以进行爬取,这类工具也可以实现正则格式化处理,通过正则表达式提取自己所需要的信息,
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式