关于C#从Word文件中提取内容(包括样式文字,图片,公式,表格)等信息,解析分字段写入数据库的问题。 20
如图所示的文档,需要把题型、分数、题干、选项、答案、题解分别存入数据库,但不能丢失格式;后续需要读取数据库显示到网页上,格式不变强调:难点在图片的位置、化学、数学公式的显...
如图所示的文档,
需要把题型、分数、题干、选项、答案、题解 分别存入数据库,但不能丢失格式;
后续需要读取数据库显示到网页上,格式不变
强调:难点在图片的位置、化学、数学公式的显示。
目前只有这么多分,全部贡献出来,如果不够,另行感谢! 展开
需要把题型、分数、题干、选项、答案、题解 分别存入数据库,但不能丢失格式;
后续需要读取数据库显示到网页上,格式不变
强调:难点在图片的位置、化学、数学公式的显示。
目前只有这么多分,全部贡献出来,如果不够,另行感谢! 展开
2个回答
展开全部
Word 转 html 想要保证格式完全不变的话基本没可能,多少都要变些的,特别是图片的处理。
公式显示我认为不是什么问题,你可以测试看看文档另存为,另存为htm文件后公式已经变成图片了(通过word插入的公式)。
我认为你的问题的核心是怎么去匹配各个元素(题干、选项之类的),先将Word文件另存为htm文件,然后分析各个元素,正则提取元素内容吧,格式能不要就尽量不要了,以后放到页面浏览时统一制定格式还好处理些,实在不行就在取题目元素时将转换后的htm样式定义保存下来统一处理。
总之,问题铁定是可以解决的,看你怎么处理了,另外,office2007的文档信息可以通过 xml 处理,那样应该要好办很多,结合 htm 看看吧。
公式显示我认为不是什么问题,你可以测试看看文档另存为,另存为htm文件后公式已经变成图片了(通过word插入的公式)。
我认为你的问题的核心是怎么去匹配各个元素(题干、选项之类的),先将Word文件另存为htm文件,然后分析各个元素,正则提取元素内容吧,格式能不要就尽量不要了,以后放到页面浏览时统一制定格式还好处理些,实在不行就在取题目元素时将转换后的htm样式定义保存下来统一处理。
总之,问题铁定是可以解决的,看你怎么处理了,另外,office2007的文档信息可以通过 xml 处理,那样应该要好办很多,结合 htm 看看吧。
追问
我导出xml分析了,垃圾样式一大堆,公式显示有问题,比如上面化学公式 “等号上的光” 就不见了!
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询