从pdf复制的文字中的fi全都变成了®,是怎么回事?
如题,看一篇英文文献,有些词不认识想用屏幕取词查询,结果每每遇到fi,都无法识别,复制粘贴都会变成®,非常麻烦,不知有没有办法能一次解决?...
如题,看一篇英文文献,有些词不认识想用屏幕取词查询,结果每每遇到fi,都无法识别,复制粘贴都会变成®,非常麻烦,不知有没有办法能一次解决?
展开
2个回答
展开全部
没有一次性的办法,
"你把文献去不复制下来,然后放到WORD中,再用查找和替换把®替换成fi。"这种办法是可行的.
原因是,你的这篇PDF文档的生成器里所用的字体是特殊处理过的字体.这种字体是Adobe公司为改善印刷质量而设计的.在输出pdf的时候,吧fi两个字符合并转义为某一个字符值,假设是X.而这个X所对应的字形是长的很像fi的一个图形.不是两个分开的图形.要跟深入的了解,需要去了解字体是如何被显示使用的.
在实际应用中,从pdf里获取文字信息.是程序把pdf里的编码复制到剪切板中.这时,刚好,fi这个整体字的编码和®的unicode编码一样.所以显示出来就变成®了.
除非PDF文档中的文本对象被修改,使用其他fi是分开处理的字体,fi的字符被重新定义,想一次性解决问题是不可能的.
这样的问题主要出现在Adobe-CropID系列字体包括 fi fl ft等
希望能看懂.
"你把文献去不复制下来,然后放到WORD中,再用查找和替换把®替换成fi。"这种办法是可行的.
原因是,你的这篇PDF文档的生成器里所用的字体是特殊处理过的字体.这种字体是Adobe公司为改善印刷质量而设计的.在输出pdf的时候,吧fi两个字符合并转义为某一个字符值,假设是X.而这个X所对应的字形是长的很像fi的一个图形.不是两个分开的图形.要跟深入的了解,需要去了解字体是如何被显示使用的.
在实际应用中,从pdf里获取文字信息.是程序把pdf里的编码复制到剪切板中.这时,刚好,fi这个整体字的编码和®的unicode编码一样.所以显示出来就变成®了.
除非PDF文档中的文本对象被修改,使用其他fi是分开处理的字体,fi的字符被重新定义,想一次性解决问题是不可能的.
这样的问题主要出现在Adobe-CropID系列字体包括 fi fl ft等
希望能看懂.
参考资料: PDF 专业人士.
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询