C#只获取网页的普通文字,怎么做???
1个回答
展开全部
解析HTML, 可以看看 HtmlParser 当然, 最好是自己逐字符分析,将所以 < .... > 都去年。 var s = html; StringBuilder result = new StringBuilder(); int lastIndex = 0; while (lastIndex < s.Length) { int index = s.IndexOf('<', lastIndex); if (index < 0) { result.Append(s.Substring(lastIndex)); break; } if(index > lastIndex) result.Append(s.Substring(lastIndex, index - lastIndex)); int index2 = s.IndexOf('>', index); if (index2 < 0) { break; } else { lastIndex = index2 + 1; } } return result.ToString(); 当然这里还有些细活, 比如在替换div tr br 等块元素时, 最好能插入换行, 而另有些元素可能需要插入空格或制表符等。
求采纳
求采纳
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询