C#只获取网页的普通文字，怎么做？？？

 我来答

1个回答

#热议# 普通体检能查出癌症吗？

满城H颛6匐
2014-07-31 · TA获得超过439个赞

知道答主

回答量：123

采纳率：0%

帮助的人：145万

我也去答题访问个人页

关注

展开全部

解析HTML，可以看看 HtmlParser 当然，最好是自己逐字符分析，将所以 < .... > 都去年。 var s = html; StringBuilder result = new StringBuilder(); int lastIndex = 0; while (lastIndex < s.Length) { int index = s.IndexOf('<', lastIndex); if (index < 0) { result.Append(s.Substring(lastIndex)); break; } if(index > lastIndex) result.Append(s.Substring(lastIndex, index - lastIndex)); int index2 = s.IndexOf('>', index); if (index2 < 0) { break; } else { lastIndex = index2 + 1; } } return result.ToString(); 当然这里还有些细活，比如在替换div tr br 等块元素时，最好能插入换行，而另有些元素可能需要插入空格或制表符等。

求采纳

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

C#只获取网页的普通文字，怎么做？？？

为你推荐：