如何通过Shell+Curl抓取远程页面中的链接并存入文本
若以下回答无法解决问题,邀请你更新回答
2个回答
2016-07-11
展开全部
1、要用程序抓取网页自动保存到本地,就要会用socket编程,或者学习使用libcurl库,不做网页抓取的时候,这些知识依然非常有用。而且,不同的网页,内容不同,规律可能也不同。
2、网页分析,本质是字符串处理和分析。所以需要掌握正则表达式和字符串处理相关的函数,以及函数库,比如tidy库等。正则表达式是用来匹配一类字符串的,方便找规律,也方便处理。而且,正则表达式跟语言无关,什么语言都能用得到。标准C库中没有正则表达式相关的函数,一般来说C中使用两种正则表达式库,一为POSIX C正则库,二为perl正则库PCRE。相比较而言PCRE要强大些,POSIX C正则库就足够使用。
3、例程,将下载下来的网页源代码处理成没有标签的纯文字文本。
2、网页分析,本质是字符串处理和分析。所以需要掌握正则表达式和字符串处理相关的函数,以及函数库,比如tidy库等。正则表达式是用来匹配一类字符串的,方便找规律,也方便处理。而且,正则表达式跟语言无关,什么语言都能用得到。标准C库中没有正则表达式相关的函数,一般来说C中使用两种正则表达式库,一为POSIX C正则库,二为perl正则库PCRE。相比较而言PCRE要强大些,POSIX C正则库就足够使用。
3、例程,将下载下来的网页源代码处理成没有标签的纯文字文本。
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
1、要用程序抓取网页自动保存到本地,就要会用socket编程,或者学习使用libcurl库,不做网页抓取的时候,这些知识依然非常有用。而且,不同的网页,内容不同,规律可能也不同。
2、网页分析,本质是字符串处理和分析。所以需要掌握正则表达式和字符串处理相关的函数,以及函数库,比如tidy库等。正则表达式是用来匹配一类字符串的,方便找规律,也方便处理。而且,正则表达式跟语言无关,什么语言都能用得到。标准C库中没有正则表达式相关的函数,一般来说C中使用两种正则表达式库,一为POSIX C正则库,二为perl正则库PCRE。相比较而言PCRE要强大些,POSIX C正则库就足够使用。
3、例程,将下载下来的网页源代码处理成没有标签的纯文字文本。
2、网页分析,本质是字符串处理和分析。所以需要掌握正则表达式和字符串处理相关的函数,以及函数库,比如tidy库等。正则表达式是用来匹配一类字符串的,方便找规律,也方便处理。而且,正则表达式跟语言无关,什么语言都能用得到。标准C库中没有正则表达式相关的函数,一般来说C中使用两种正则表达式库,一为POSIX C正则库,二为perl正则库PCRE。相比较而言PCRE要强大些,POSIX C正则库就足够使用。
3、例程,将下载下来的网页源代码处理成没有标签的纯文字文本。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询