网页爬虫怎么提取网页信息

我现在能写出一个爬虫，抓取到URL，但是要怎么提取网页信息呢？比如想抓取淘宝上的内容，需要把页面下载下来解析吗？我可以把标签项都去掉，但是要怎么做才能更进一步的提取所需要... 我现在能写出一个爬虫，抓取到URL，但是要怎么提取网页信息呢？比如想抓取淘宝上的内容，需要把页面下载下来解析吗？我可以把标签项都去掉，但是要怎么做才能更进一步的提取所需要的信息呢？展开

 我来答

3个回答

#热议# 为什么有人显老，有人显年轻？

archyly
2013-05-21 · TA获得超过1318个赞

知道小有建树答主

回答量：389

采纳率：50%

帮助的人：433万

我也去答题访问个人页

关注

展开全部

正则表达式或者可以使用第三方工具包。
例如html parser ，jsoup 等。
jsoup推荐使用。功能比较强大。简单使用下载请参考
http://zhidao.baidu.com/question/552336025?&oldq=1#answer-1391273085
如有疑问可发私信给我

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

yinweidns
2013-05-21 · TA获得超过106个赞

知道小有建树答主

回答量：212

采纳率：0%

帮助的人：127万

我也去答题访问个人页

关注

展开全部

你的思路是正确的，你可以写正则表达式把页面里需要的信息提取出来

追问

嗯，不过我不太会用正则表达式，我看了看打算用HTMLParser

已赞过 已踩过<

评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-28 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

网页信息利用采集器工具也可以进行爬取，这类工具也可以实现正则格式化处理，通过正则表达式提取自己所需要的信息，

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

网页爬虫怎么提取网页信息

其他类似问题

为你推荐：