C++ 正则表达式匹配curl爬取网页的指定内容

急急急急急急!!!!用C++实现curl爬取网页,但是怎么用正则表达式匹配其中想要的内容已经实现爬取好网页了... 急急急急急急!!!!用C++实现curl爬取网页,但是怎么用正则表达式匹配其中想要的内容
已经实现爬取好网页了
展开
 我来答
瘦成一导闪电呀
高粉答主

推荐于2016-10-23 · 每天分享健身知识,希望每位小仙女走路带风
瘦成一导闪电呀
采纳数:1266 获赞数:52259

向TA提问 私信TA
展开全部

程序如下:

$pattern = '/<div class="nav" monkey="nav">(.+?)<div class="head-ad">/is';
preg_match($pattern, $string, $match);
//$match[0] 即为<div class="nav" monkey="nav">和<div class="head-ad">之间的所有源码
echo $match[0];

//然后再提取<li></li>之间的内容
$pattern = '/<li.*?>(.+?)<\/li>/is';

preg_match_all($pattern, $match[0], $results);
$new_arr=array_unique($results[0]);

foreach($new_arr as $kkk){
    echo $kkk;

}
十九个萨满
2013-06-25 · 超过32用户采纳过TA的回答
知道答主
回答量:99
采纳率:0%
帮助的人:77.2万
展开全部
http://www.cnblogs.com/deerchao/archive/2006/08/24/zhengzhe30fengzhongjiaocheng.html

可以跟着自学哦,不太难,测试工具呢可以用RegexBuddy,搜破解版就ok了
追问
你爬取过网页,然后用正则表达式匹配过吗?
追答
用过,我是用java写的,正则就用来匹配页面中的url   一般都是href标签,还是很好写的,自己学习下吧
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
西洲zxquq
2021-07-26
知道答主
回答量:5
采纳率:0%
帮助的人:2207
展开全部

C++正则表达式库

正则表达式库提供表示正则表达式的类,正则表达式是一种用于在字符串中匹配模式的微型语言。下列数种对象上的操作能刻画几乎所有带正则表达式的操作:

  • 目标序列。为模式而搜索到的字符序列。这可以是二个迭代器所指定的范围、空终止字符串或一个 std::string 。

  • 模式。这是正则表达式自身。它确定构成匹配者。它是从带特定语法的字符串构成的 std::basic_regex 类型对象。受支持的语法变体的描述见 syntax_option_type 。

  • 匹配的数组。关于匹配的信息可作为 std::match_results 类型对象获取。

  • 替换字符串。这是确定如何替换匹配的字符串,受支持的语法变体的描述见 match_flag_type 。

  • 主类

    这些类封装正则表达式和在字符的目标序列中匹配正则表达式的结果。

    basic_regex

    (C++11)

  • 正则表达式对象


  • (类模板)     

  • sub_match

    (C++11)

  • 标识子表达式所匹配的字符序列


  • (类模板)     

  • match_results

    (C++11)

  • 标识一个正则表达式匹配,包含所有子表达式匹配


  • (类模板)     

  • 算法

    这些算法将封装于 regex 的正则表达式应用到字符的目标序列。

    regex_match

    (C++11)

  • 尝试匹配一个正则表达式到整个字符序列


  • (函数模板)     

  • regex_search

    (C++11)

  • 尝试匹配一个正则表达式到字符序列的任何部分


  • (函数模板)     

  • regex_replace

    (C++11)

  • 以格式化的替换文本来替换正则表达式匹配的出现位置  


  • (函数模板)     

  • 迭代器

    regex_iterator 用于遍历在序列中找到的匹配正则表达式的整个集合。

    regex_iterator

    (C++11)

  • 迭代一个字符序列中的所有正则表达式匹配


  • (类模板)     

  • regex_token_iterator

    (C++11)

  • 迭代给定字符串中的所有正则表达式匹配中的指定子表达式,或迭代未匹配的子字符串  


  • (类模板)     

  • 异常

    此类定义作为异常抛出以报告来自正则表达式库错误的类型。

    regex_error

    (C++11)

  • 报告正则表达式库生成的错误


  • (类)     

  • 特征

    regex_traits 类用于封装 regex 的本地化方面。

    regex_traits

    (C++11)

  • 提供正则表达式库所需的关于字符类型的元信息


  • (类模板)     

  • 常量

    定义于命名空间 std::regex_constants

  • syntax_option_type

    (C++11)

  • 控制正则表达式行为的通用选项


  • (typedef)     

  • match_flag_type

    (C++11)

  • 特定于匹配的选项


  • (typedef)     

  • error_type

    (C++11)

  • 描述不同类型的匹配错误


  • (typedef)     

  • 示例

    运行此代码

  • #include <iostream>#include <iterator>#include <string>#include <regex> int main(){


  • std::string s = "Some people, when confronted with a problem, think "


  • "\"I know, I'll use regular expressions.\" "


  • "Now they have two problems.";     std::regex self_regex("REGULAR
    EXPRESSIONS",            std::regex_constants::ECMAScript |
    std::regex_constants::icase);


  • if (std::regex_search(s, self_regex)) {


  • std::cout << "Text contains the phrase 'regular expressions'\n";


  • }     std::regex word_regex("(\\w+)");


  • auto words_begin =


  • std::sregex_iterator(s.begin(), s.end(), word_regex);


  • auto words_end = std::sregex_iterator();     std::cout << "Found "


  • << std::distance(words_begin, words_end)


  • << " words\n";     const int N = 6;


  • std::cout << "Words longer than " << N << " characters:\n";


  • for (std::sregex_iterator i = words_begin; i != words_end; ++i) {


  • std::smatch match = *i;


  • std::string match_str = match.str();


  • if (match_str.size() > N) {


  • std::cout << "  " << match_str << '\n';


  • }


  • }     std::regex long_word_regex("(\\w{7,})");


  • std::string new_s = std::regex_replace(s, long_word_regex, "[$&]");


  • std::cout << new_s << '\n';}


  • 输出:

  • Text contains the phrase 'regular expressions'


  • Found 20 words


  • Words longer than 6 characters:


  • confronted


  • problem


  • regular


  • expressions


  • problems


  • Some people, when [confronted] with a [problem], think


  • "I know, I'll use [regular] [expressions]." Now they have two [problems].

借助采集器工具采集不懂代码也能轻松采集、格式化,个人使用的八爪鱼采集器感觉蛮不错的

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式