c# 怎么截取网页代码中的指定字符串 100

假设获取了一个网页的代码并赋值给string变量html,网页代码有两种情况:只包括一个OLDSRC="123.jpg",怎么获取字符串123,jpg?(也可能是其他不同... 假设获取了一个网页的代码并赋值给string变量html,网页代码有两种情况:
只包括一个OLDSRC="123.jpg",怎么获取字符串123,jpg ?(也可能是其他不同长度的字符串,如OLDSRC="23333.jpg",要求获取23333.jpg)
包括多个src=,但是只有一个是src="/oldimage/xxxxx.jpg",怎么获取字符串"/oldimage/xxxxx.jpg"?
的一种情况是网页代码里面只有一个“OLDSRC=”字符串
展开
 我来答
xiangjuan314
2016-01-18 · TA获得超过3.3万个赞
知道大有可为答主
回答量:2.9万
采纳率:0%
帮助的人:2873万
展开全部
C#获取指定网页HTML原代码可使用 WebClient WebRequest HttpWebRequest 三种方式来实现。
当然也可使用webBrowse!在此就不研究webBrowse如何获取了。
WebClient

private string GetWebClient(string url)
{
string strHTML = "";
WebClient myWebClient = new WebClient();
Stream myStream = myWebClient.OpenRead(url);
StreamReader sr = new StreamReader(myStream, System.Text.Encoding.GetEncoding("utf-8"));
strHTML = sr.ReadToEnd();
myStream.Close();
return strHTML;
}

WebRequest

private string GetWebRequest(string url)
{
Uri uri = new Uri(url);
WebRequest myReq = WebRequest.Create(uri);
WebResponse result = myReq.GetResponse();
Stream receviceStream = result.GetResponseStream();
StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
string strHTML = readerOfStream.ReadToEnd();
readerOfStream.Close();
receviceStream.Close();
result.Close();
return strHTML;
}

HttpWebRequest

private string GetHttpWebRequest(string url)
{
Uri uri = new Uri(url);
HttpWebRequest myReq = (HttpWebRequest)WebRequest.Create(uri);
myReq.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";
myReq.Accept = "*/*";
myReq.KeepAlive = true;
myReq.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");
HttpWebResponse result = (HttpWebResponse)myReq.GetResponse();
Stream receviceStream = result.GetResponseStream();
StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
string strHTML = readerOfStream.ReadToEnd();
readerOfStream.Close();
receviceStream.Close();
result.Close();
return strHTML;
}

注意“utf-8”应与指定网页的编码对应。
总结
可以看到HttpWebRequest 方式最复杂,但确提供了更多的选择性。
xtfnpgy
2014-06-11 · TA获得超过1784个赞
知道大有可为答主
回答量:1989
采纳率:76%
帮助的人:1102万
展开全部
你是用什么得到的网页源代码?
httpwebrequest还是Webbrowser?
第一种情况就很简单:
string s="你的内容";
int i=s.IndexOf("OLDSRC=\"");
int j=s.LastIndexOf("\"");
s=s.Substring(i,j-i);

第二种情况:
可以用循环来截取,然后来判断
追问
我用的是WebClient,另外LastIndexOf("\"");不行的,因为OLDSRC=“xxxxx,jpg”的后面还有其他引号
追答
肯定可以的,找到关键字,先删除到关键字,然后再截取;我就是通过原有的函数自己写了几个截取字符串的函数,任何截取不成问题;

例如:
A:123,b:456,C:789,D:123
关键是要找到关键字,找到关键字先移除再截取,当然原有的字符串要保留的话,可以另外再定义个字符串等于移除后的字符串;
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
怪蜀黍CHEN
2014-06-11
知道答主
回答量:8
采纳率:0%
帮助的人:5.4万
展开全部
用正规表达式很好搞定的

string text = "DSRC=\"23333.jpg\"";
string pat = "\"(.+?)\"";

Regex r = new Regex(pat, RegexOptions.IgnoreCase);

Match m = r.Match(text);

while (m.Success)
{
........

}
追问
第一种情况是 OLDSRC="xxxxx.jpg"(只是xxxxx一般是数字,所以我的提问用的是数字),要取出字符串xxxxx.jpg,并且OLDSRC=在网页代码只出现一次
追答
有问题吗?正规是取引号中间的东西..不管你里面是什么内容.都可以的.
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式