PHP preg_match_all函数中的正则表达式问题

我想爬取新浪体育网页的信息,网页中内容格式为<li><atitle=""target="_blank"href="http://sports.sina.com.cn/cb... 我想爬取新浪体育网页的信息,网页中内容格式为
<li>
<a title="" target="_blank" href="http://sports.sina.com.cn/cba/2014-11-10/17327404918.shtml">马布里:连续客场非输球借口</a>
</li>
使用preg_match_all函数,正则表达式为:
'#<a title="" target="_blank" href="(.*?)">(.*?)</a>#si';
为什么得不到结果
展开
 我来答
dayinspring
高粉答主

2016-01-08 · 繁杂信息太多,你要学会辨别
知道大有可为答主
回答量:2.3万
采纳率:92%
帮助的人:3454万
展开全部
分析:字符串是一个基本的HTML元素,每一个DIV元素对应该一个ID和内容,并且是独立的,首先考虑如何 取出一个DIV内的ID值和内容,如:jb51.net,然后匹配其它类似的元素。一个DIV中须要取出两个值,也就是两个匹配的表达式,第一个表达式用于匹配ID值(biuuu),第二个表达式用于匹配ID的内容(jb51.net),正则表达式常用的表达式运用小括号,那么前面的元素将会变成如下形式:
<div id="(biuuu)">(jb51.net)</div>
<div id="(表达式1)">(表达式2)</div>

运用如上小括号把须要匹配的区域执行 了划分,接下来就是如何 匹配各个表达式内的内容,猜想一个ID可能是字母,数字或下划线,那这就变得基本,运用中括号就可以实现,如下:
表达式1:[a-zA-Z0-9_]+ (表示匹配大小写字母,数字和下划线)
那如何 匹配表达式2,因为ID的内容可以是任意的字符,但是要留心,不能匹配<或>字符,因为如果匹配这两个字符将会把后面运用的DIV都匹配出来,因此须要排除这两个字符开始的元素,也就是不匹配以<或>字符,如下:
表达式2:[^<>]+ (表示不匹配<和>字符)
这样,须要匹配的子表达式就实现了,但是还要须要匹配一个 的表达式,要领如下:
表达式:/ '\"(表达式1)\"'>(表达式2)<\/div>/
留心其中的双引号"和/须要运用 \转义字符转义,然后把前面两个表达式放进去。
轻候月桂S4
2014-11-11 · 超过47用户采纳过TA的回答
知道答主
回答量:102
采纳率:100%
帮助的人:38.1万
展开全部
php自学网2< /div< div id="biuuu_3"php自学网3< /div';   PHP函数preg_match_all实例要求:分别将每一个DIV元素的ID和内容取出,如biuuu,biuuu_2,biuuu_3,php自学网,php自学网2和php自学网3(一些常用的抓站方法就是这样匹配的)   分析:字符串是一个简单的HTML元素,每一个DIV元素对应该一个ID和内容,并且是独立的,首先考虑如何取出一个DIV内的ID值和内容, 如:php自学网,然后匹配其它类似的元素。一个DIV中需要取出两个值,也就是两个匹配的表达式,第一个表达式用于匹配ID值(biuuu),第二个表 达式用于匹配ID的内容(php自学网),正则表达式常用的表达式使用小括号,那么前面的元素将会变成如下形式:   < div id="(biuuu)"(php自学网)< /div < div id="(表达式1)"(表达式2)< /div   表达式1:[a-zA-Z0-9_]+ (表示匹配大小写字母,数字和下划线)   表达式2:[^<]+ (表示不匹配<和字符)   这样,PHP函数preg_match_all需要匹配的子表达式就实现了,但是还要需要匹配一个的表达式,方法如下:   表达式:/ '"(表达式1)"'(表达式2)/   注意其中的双引号"和/需要使用转义字符转义,然后把前面两个表达式放进去,如下:
希望能解决您的问题。
追问
我太看明白,不能用我写的.*?的方式来匹配吗?必须写成[]的形式吗?
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
睡着的糖葫芦
2014-11-11 · TA获得超过124个赞
知道小有建树答主
回答量:172
采纳率:0%
帮助的人:149万
展开全部
$parten = '/<li>.*href="(.*)">(.*)<\/a><\/li>/isU';
追问
谢谢你,你的表达式可以提取出信息,但是因为把title="" target="_blank"的匹配要求给省略了,得到的结果不是我想要的,我自己修改正则表达式,添加成$pattern = '/.*title="".*href="(.*)">(.*)/isU';就不能得到结果,这是为什么,应该怎么改呢?
追答
是要 必须有title和target 属性的 ?
$parten = '/.*title=""\s+target="_blank"\s+href="(.*)">(.*).*/isU';
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式