C#只获取网页的普通文字,怎么做???

 我来答
满城H颛6匐
2014-07-31 · TA获得超过439个赞
知道答主
回答量:123
采纳率:0%
帮助的人:145万
展开全部
解析HTML, 可以看看 HtmlParser 当然, 最好是自己逐字符分析,将所以 < .... > 都去年。 var s = html; StringBuilder result = new StringBuilder(); int lastIndex = 0; while (lastIndex < s.Length) { int index = s.IndexOf('<', lastIndex); if (index < 0) { result.Append(s.Substring(lastIndex)); break; } if(index > lastIndex) result.Append(s.Substring(lastIndex, index - lastIndex)); int index2 = s.IndexOf('>', index); if (index2 < 0) { break; } else { lastIndex = index2 + 1; } } return result.ToString(); 当然这里还有些细活, 比如在替换div tr br 等块元素时, 最好能插入换行, 而另有些元素可能需要插入空格或制表符等。

求采纳
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式