网页爬虫怎么提取网页信息
我现在能写出一个爬虫,抓取到URL,但是要怎么提取网页信息呢?比如想抓取淘宝上的内容,需要把页面下载下来解析吗?我可以把标签项都去掉,但是要怎么做才能更进一步的提取所需要...
我现在能写出一个爬虫,抓取到URL,但是要怎么提取网页信息呢?比如想抓取淘宝上的内容,需要把页面下载下来解析吗?我可以把标签项都去掉,但是要怎么做才能更进一步的提取所需要的信息呢?
展开
3个回答
展开全部
正则表达式或者可以使用第三方工具包。
例如html parser ,jsoup 等。
jsoup推荐使用。功能比较强大。简单使用下载请参考
http://zhidao.baidu.com/question/552336025?&oldq=1#answer-1391273085
如有疑问可发私信给我
例如html parser ,jsoup 等。
jsoup推荐使用。功能比较强大。简单使用下载请参考
http://zhidao.baidu.com/question/552336025?&oldq=1#answer-1391273085
如有疑问可发私信给我
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
你的思路是正确的,你可以写正则表达式把页面里需要的信息提取出来
追问
嗯,不过我不太会用正则表达式,我看了看打算用HTMLParser
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
网页信息利用采集器工具也可以进行爬取,这类工具也可以实现正则格式化处理,通过正则表达式提取自己所需要的信息,
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询