首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从常见的文档格式(主要是rtf,doc,docx,pdf,epub,mobi)中提取文本的最好方法是什么?

从常见的文档格式(主要是rtf,doc,docx,pdf,epub,mobi)中提取文本的最好方法是什么?
EN

Stack Overflow用户
提问于 2016-10-16 06:10:18
回答 1查看 334关注 0票数 0

我希望在我的应用程序中实现对这些类型文件的支持,但为此,我需要一些可以从这些文件类型中提取原始文本的东西。

我正在寻找一个不需要任何附加库的解决方案,或者一个一体化的库/NuGet包。我看了一下GemBox.Document,但它似乎不适用于UWP项目。

对此最好的选择是什么?

EN

回答 1

Stack Overflow用户

发布于 2016-10-17 15:21:02

我正在寻找一个不需要任何附加库的解决方案,或者一个一体化的库/NuGet包。

没有这样的套餐。

在标准的UWP应用程序中,我们可以使用Rich edit box读取.rtf文件,本文档中的代码示例展示了如何在RichEditBox中编辑、加载和保存富文本格式(.rtf)文件。

对于.doc,.docx,又名。微软的Word文档,特别是2007年以后的版本,它使用Open-XML-SDK,目前不支持UWP平台。

对于.pdf文档,您可以参考@Franklin Chen的线程:[UWP]PDF Viewing on a Windows Universal App

对于epub文件,它是一个ZIP存档文件,要解析该文件,可以参考线程:[WP8.1][C#] How can i read an EPub file in c# on Windows Phone!?

对于mobi文件,很抱歉目前我找不到任何有用的开发信息,我现在只能建议将其转换为pdf文件,并提供免费的在线服务。

但总而言之,由于Open-XML-SDK目前不支持UWP平台。无法找到标准UWP应用程序的解决方案或软件包。您可以尝试找到这样的web服务,并在您的应用程序中实现此服务,或者您可以使用可以读取所有这些格式的文档的商业库。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40064758

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档