c# 怎么截取网页代码中的指定字符串 100
假设获取了一个网页的代码并赋值给string变量html,网页代码有两种情况:只包括一个OLDSRC="123.jpg",怎么获取字符串123,jpg?(也可能是其他不同...
假设获取了一个网页的代码并赋值给string变量html,网页代码有两种情况:
只包括一个OLDSRC="123.jpg",怎么获取字符串123,jpg ?(也可能是其他不同长度的字符串,如OLDSRC="23333.jpg",要求获取23333.jpg)
包括多个src=,但是只有一个是src="/oldimage/xxxxx.jpg",怎么获取字符串"/oldimage/xxxxx.jpg"?
的一种情况是网页代码里面只有一个“OLDSRC=”字符串 展开
只包括一个OLDSRC="123.jpg",怎么获取字符串123,jpg ?(也可能是其他不同长度的字符串,如OLDSRC="23333.jpg",要求获取23333.jpg)
包括多个src=,但是只有一个是src="/oldimage/xxxxx.jpg",怎么获取字符串"/oldimage/xxxxx.jpg"?
的一种情况是网页代码里面只有一个“OLDSRC=”字符串 展开
3个回答
展开全部
C#获取指定网页HTML原代码可使用 WebClient WebRequest HttpWebRequest 三种方式来实现。
当然也可使用webBrowse!在此就不研究webBrowse如何获取了。
WebClient
private string GetWebClient(string url)
{
string strHTML = "";
WebClient myWebClient = new WebClient();
Stream myStream = myWebClient.OpenRead(url);
StreamReader sr = new StreamReader(myStream, System.Text.Encoding.GetEncoding("utf-8"));
strHTML = sr.ReadToEnd();
myStream.Close();
return strHTML;
}
WebRequest
private string GetWebRequest(string url)
{
Uri uri = new Uri(url);
WebRequest myReq = WebRequest.Create(uri);
WebResponse result = myReq.GetResponse();
Stream receviceStream = result.GetResponseStream();
StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
string strHTML = readerOfStream.ReadToEnd();
readerOfStream.Close();
receviceStream.Close();
result.Close();
return strHTML;
}
HttpWebRequest
private string GetHttpWebRequest(string url)
{
Uri uri = new Uri(url);
HttpWebRequest myReq = (HttpWebRequest)WebRequest.Create(uri);
myReq.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";
myReq.Accept = "*/*";
myReq.KeepAlive = true;
myReq.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");
HttpWebResponse result = (HttpWebResponse)myReq.GetResponse();
Stream receviceStream = result.GetResponseStream();
StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
string strHTML = readerOfStream.ReadToEnd();
readerOfStream.Close();
receviceStream.Close();
result.Close();
return strHTML;
}
注意“utf-8”应与指定网页的编码对应。
总结
可以看到HttpWebRequest 方式最复杂,但确提供了更多的选择性。
当然也可使用webBrowse!在此就不研究webBrowse如何获取了。
WebClient
private string GetWebClient(string url)
{
string strHTML = "";
WebClient myWebClient = new WebClient();
Stream myStream = myWebClient.OpenRead(url);
StreamReader sr = new StreamReader(myStream, System.Text.Encoding.GetEncoding("utf-8"));
strHTML = sr.ReadToEnd();
myStream.Close();
return strHTML;
}
WebRequest
private string GetWebRequest(string url)
{
Uri uri = new Uri(url);
WebRequest myReq = WebRequest.Create(uri);
WebResponse result = myReq.GetResponse();
Stream receviceStream = result.GetResponseStream();
StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
string strHTML = readerOfStream.ReadToEnd();
readerOfStream.Close();
receviceStream.Close();
result.Close();
return strHTML;
}
HttpWebRequest
private string GetHttpWebRequest(string url)
{
Uri uri = new Uri(url);
HttpWebRequest myReq = (HttpWebRequest)WebRequest.Create(uri);
myReq.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";
myReq.Accept = "*/*";
myReq.KeepAlive = true;
myReq.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");
HttpWebResponse result = (HttpWebResponse)myReq.GetResponse();
Stream receviceStream = result.GetResponseStream();
StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
string strHTML = readerOfStream.ReadToEnd();
readerOfStream.Close();
receviceStream.Close();
result.Close();
return strHTML;
}
注意“utf-8”应与指定网页的编码对应。
总结
可以看到HttpWebRequest 方式最复杂,但确提供了更多的选择性。
展开全部
你是用什么得到的网页源代码?
httpwebrequest还是Webbrowser?
第一种情况就很简单:
string s="你的内容";
int i=s.IndexOf("OLDSRC=\"");
int j=s.LastIndexOf("\"");
s=s.Substring(i,j-i);
第二种情况:
可以用循环来截取,然后来判断
httpwebrequest还是Webbrowser?
第一种情况就很简单:
string s="你的内容";
int i=s.IndexOf("OLDSRC=\"");
int j=s.LastIndexOf("\"");
s=s.Substring(i,j-i);
第二种情况:
可以用循环来截取,然后来判断
追问
我用的是WebClient,另外LastIndexOf("\"");不行的,因为OLDSRC=“xxxxx,jpg”的后面还有其他引号
追答
肯定可以的,找到关键字,先删除到关键字,然后再截取;我就是通过原有的函数自己写了几个截取字符串的函数,任何截取不成问题;
例如:
A:123,b:456,C:789,D:123
关键是要找到关键字,找到关键字先移除再截取,当然原有的字符串要保留的话,可以另外再定义个字符串等于移除后的字符串;
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
用正规表达式很好搞定的
string text = "DSRC=\"23333.jpg\"";
string pat = "\"(.+?)\"";
Regex r = new Regex(pat, RegexOptions.IgnoreCase);
Match m = r.Match(text);
while (m.Success)
{
........
}
string text = "DSRC=\"23333.jpg\"";
string pat = "\"(.+?)\"";
Regex r = new Regex(pat, RegexOptions.IgnoreCase);
Match m = r.Match(text);
while (m.Success)
{
........
}
追问
第一种情况是 OLDSRC="xxxxx.jpg"(只是xxxxx一般是数字,所以我的提问用的是数字),要取出字符串xxxxx.jpg,并且OLDSRC=在网页代码只出现一次
追答
有问题吗?正规是取引号中间的东西..不管你里面是什么内容.都可以的.
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询