VB.net 正则表达式提取网页内容
比如一个网页,有以下片断:<tdclass="d">53</td><tdclass="d">6</td><tdclass="s"><aclass=thref="/f?kz...
比如一个网页,有以下片断:
<td class="d">53</td>
<td class="d">6</td>
<td class="s"><a class=t href="/f?kz=321365024" target=_blank > 听过哪些草原歌</a>[<font class="gr">投票</font>] </td>
<td class="u"><a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%D6%D0%B9%FA%A1%A4%BA%F4%C2%D7%B1%B4%B6%FB" target=_blank><font color='#000000'>中国·呼伦贝尔</font></a></td>
<td class="u">15:46 <a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%C9%A3%C3%C0%BA%CD%D2%C1%C5%B7%BF%AD" target=_blank><font color='#000000'> 桑美和伊欧凯</font></a></td>
</tr><script>c(10);</script>
<td class="d">39</td>
<td class="d">10</td>
<td class="s"><a class=t href="/f?kz=321633164" target=_blank > 受不了这里了!</a></td>
<td class="u"><a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%C9%A3%C3%C0%BA%CD%D2%C1%C5%B7%BF%AD" target=_blank><font color='#000000'>桑美和伊欧凯</font></a></td>
<td class="u">15:45 <a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%D6%F7%B0%E5%B5%C4%C0%D6" target=_blank><font color='#000000'> 主板的乐</font></a></td>
</tr><script>c(11);</script>
我想把处于“听过哪些草原歌”位置的字符串提取出来,再把“中国·呼伦贝尔”位置的字符串提取出来,然后把"桑美和伊欧凯"位置的字符提取出来.....一段代码存入一个文本文件,怎样实现?我在网上找教程只有匹配的没有提取的,希望高手解答一下 ,谢谢!!
解答正确加分! 展开
<td class="d">53</td>
<td class="d">6</td>
<td class="s"><a class=t href="/f?kz=321365024" target=_blank > 听过哪些草原歌</a>[<font class="gr">投票</font>] </td>
<td class="u"><a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%D6%D0%B9%FA%A1%A4%BA%F4%C2%D7%B1%B4%B6%FB" target=_blank><font color='#000000'>中国·呼伦贝尔</font></a></td>
<td class="u">15:46 <a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%C9%A3%C3%C0%BA%CD%D2%C1%C5%B7%BF%AD" target=_blank><font color='#000000'> 桑美和伊欧凯</font></a></td>
</tr><script>c(10);</script>
<td class="d">39</td>
<td class="d">10</td>
<td class="s"><a class=t href="/f?kz=321633164" target=_blank > 受不了这里了!</a></td>
<td class="u"><a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%C9%A3%C3%C0%BA%CD%D2%C1%C5%B7%BF%AD" target=_blank><font color='#000000'>桑美和伊欧凯</font></a></td>
<td class="u">15:45 <a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un=%D6%F7%B0%E5%B5%C4%C0%D6" target=_blank><font color='#000000'> 主板的乐</font></a></td>
</tr><script>c(11);</script>
我想把处于“听过哪些草原歌”位置的字符串提取出来,再把“中国·呼伦贝尔”位置的字符串提取出来,然后把"桑美和伊欧凯"位置的字符提取出来.....一段代码存入一个文本文件,怎样实现?我在网上找教程只有匹配的没有提取的,希望高手解答一下 ,谢谢!!
解答正确加分! 展开
2个回答
2008-02-16
展开全部
楼上的说法不对,正则式的作用就是匹配未知的一些东西,可以提取.
代码如下:
-----------
Imports System.Text.RegularExpressions
dim sHtml as string=网页内容'自己想办法获取,比如Doc.Body.InnerHtml
dim sResult1 as string=""'“听过哪些草原歌”
sResult1=Regex.Match(sHtml, "\<[aA]{1}[ ]{1}class\=t[ ]{1}href.+\>(.+)\<\/[aA]{1}\>").Groups(1).Value
'其余类推...
'保存进文件
大哥把分给我吧.求你了.祝你好运中500万
代码如下:
-----------
Imports System.Text.RegularExpressions
dim sHtml as string=网页内容'自己想办法获取,比如Doc.Body.InnerHtml
dim sResult1 as string=""'“听过哪些草原歌”
sResult1=Regex.Match(sHtml, "\<[aA]{1}[ ]{1}class\=t[ ]{1}href.+\>(.+)\<\/[aA]{1}\>").Groups(1).Value
'其余类推...
'保存进文件
大哥把分给我吧.求你了.祝你好运中500万
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询