用于解析办公文档，如DOC，DOCX:对于Java，Apache POI是一个很好的库，用于从MS office文件中提取数据；对于Python，似乎没有任何软件包可以做到这一点，除了在Windows的.NET中使用COM对象如Word.Application或IronPython (Reading/Writing MS Word files in Python)。
解析PDF文件:有Apache PDFBox，<代码>C9用于Java和<代码>C10用于读取RTF格式的文件：<代码>H211<代码>H112：Java本机支持通过<代码>C13，您可以通过搜索获得一些示例代码；像#1一样，Python.
解析HTML文件：jsoup和BeautifulSoup & HTMLParser对于从HTML中提取数据是最好的。
用于读取TXT格式的文件，我认为它对于任何语言都很简单。但是要从文本内容中提取有价值的信息，Stanford NLP for Java和NLTK for Python是有用的，而且使用认知服务的Azure Text Analytics API可以帮助做一些像关键短语提取这样的工作，language detection.
Apache Tika工具包用于内容分析也是一个很好的解决方案。即使您可以单独部署它，并通过Python、其他languages.
If调用其REST API，您也可以使用认知服务的Azure Computer Vision API来提取打印文本或手写文本，或者使用第三方库(如Tess4J或您在GitHub中搜索的其他库)。

所有这些几乎都依赖于没有Azure资源的第三方开发工具包。但是，您可以将这些文档存储在Azure Storage中，并在Azure VM或批处理服务上处理它们，甚至分析Azure Jupyter Notebook中的提取数据或使用Azure ML进行更深入的研究。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55166669

复制

相似问题

问用于处理非结构化数据源的Azure资源
EN

问用于处理非结构化数据源的Azure资源EN