C++ 正则表达式匹配curl爬取网页的指定内容
已经实现爬取好网页了 展开
程序如下:
$pattern = '/<div class="nav" monkey="nav">(.+?)<div class="head-ad">/is';
preg_match($pattern, $string, $match);
//$match[0] 即为<div class="nav" monkey="nav">和<div class="head-ad">之间的所有源码
echo $match[0];
//然后再提取<li></li>之间的内容
$pattern = '/<li.*?>(.+?)<\/li>/is';
preg_match_all($pattern, $match[0], $results);
$new_arr=array_unique($results[0]);
foreach($new_arr as $kkk){
echo $kkk;
}
可以跟着自学哦,不太难,测试工具呢可以用RegexBuddy,搜破解版就ok了
你爬取过网页,然后用正则表达式匹配过吗?
用过,我是用java写的,正则就用来匹配页面中的url 一般都是href标签,还是很好写的,自己学习下吧
C++正则表达式库
正则表达式库提供表示正则表达式的类,正则表达式是一种用于在字符串中匹配模式的微型语言。下列数种对象上的操作能刻画几乎所有带正则表达式的操作:
目标序列。为模式而搜索到的字符序列。这可以是二个迭代器所指定的范围、空终止字符串或一个 std::string 。
模式。这是正则表达式自身。它确定构成匹配者。它是从带特定语法的字符串构成的 std::basic_regex 类型对象。受支持的语法变体的描述见 syntax_option_type 。
匹配的数组。关于匹配的信息可作为 std::match_results 类型对象获取。
替换字符串。这是确定如何替换匹配的字符串,受支持的语法变体的描述见 match_flag_type 。
正则表达式对象
(类模板)
标识子表达式所匹配的字符序列
(类模板)
标识一个正则表达式匹配,包含所有子表达式匹配
(类模板)
尝试匹配一个正则表达式到整个字符序列
(函数模板)
尝试匹配一个正则表达式到字符序列的任何部分
(函数模板)
以格式化的替换文本来替换正则表达式匹配的出现位置
(函数模板)
迭代一个字符序列中的所有正则表达式匹配
(类模板)
迭代给定字符串中的所有正则表达式匹配中的指定子表达式,或迭代未匹配的子字符串
(类模板)
报告正则表达式库生成的错误
(类)
提供正则表达式库所需的关于字符类型的元信息
(类模板)
控制正则表达式行为的通用选项
(typedef)
特定于匹配的选项
(typedef)
描述不同类型的匹配错误
(typedef)
#include <iostream>#include <iterator>#include <string>#include <regex> int main(){
std::string s = "Some people, when confronted with a problem, think "
"\"I know, I'll use regular expressions.\" "
"Now they have two problems."; std::regex self_regex("REGULAR
EXPRESSIONS", std::regex_constants::ECMAScript |
std::regex_constants::icase);if (std::regex_search(s, self_regex)) {
std::cout << "Text contains the phrase 'regular expressions'\n";
} std::regex word_regex("(\\w+)");
auto words_begin =
std::sregex_iterator(s.begin(), s.end(), word_regex);
auto words_end = std::sregex_iterator(); std::cout << "Found "
<< std::distance(words_begin, words_end)
<< " words\n"; const int N = 6;
std::cout << "Words longer than " << N << " characters:\n";
for (std::sregex_iterator i = words_begin; i != words_end; ++i) {
std::smatch match = *i;
std::string match_str = match.str();
if (match_str.size() > N) {
std::cout << " " << match_str << '\n';
}
} std::regex long_word_regex("(\\w{7,})");
std::string new_s = std::regex_replace(s, long_word_regex, "[$&]");
std::cout << new_s << '\n';}
Text contains the phrase 'regular expressions'
Found 20 words
Words longer than 6 characters:
confronted
problem
regular
expressions
problems
Some people, when [confronted] with a [problem], think
"I know, I'll use [regular] [expressions]." Now they have two [problems].
主类
这些类封装正则表达式和在字符的目标序列中匹配正则表达式的结果。
basic_regex
(C++11)
sub_match
(C++11)
match_results
(C++11)
算法
这些算法将封装于 regex 的正则表达式应用到字符的目标序列。
regex_match
(C++11)
regex_search
(C++11)
regex_replace
(C++11)
迭代器
regex_iterator 用于遍历在序列中找到的匹配正则表达式的整个集合。
regex_iterator
(C++11)
regex_token_iterator
(C++11)
异常
此类定义作为异常抛出以报告来自正则表达式库错误的类型。
regex_error
(C++11)
特征
regex_traits 类用于封装 regex 的本地化方面。
regex_traits
(C++11)
常量
定义于命名空间 std::regex_constants
syntax_option_type
(C++11)
match_flag_type
(C++11)
error_type
(C++11)
示例
运行此代码
输出:
借助采集器工具采集不懂代码也能轻松采集、格式化,个人使用的八爪鱼采集器感觉蛮不错的