首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于处理非结构化数据源的Azure资源

用于处理非结构化数据源的Azure资源
EN

Stack Overflow用户
提问于 2019-03-14 23:43:04
回答 1查看 261关注 0票数 0

我们需要从非结构化来源中提取暗数据,如信件、rad报告等,请建议azure资源从常见的文档格式中提取数据: DOC、DOCX、PDF、RTF、TXT、HTML等,然后对提取的数据进行分析。

EN

回答 1

Stack Overflow用户

发布于 2019-03-15 12:40:47

听起来您只是想从这些富文本格式的文档中提取原始文本或图像。如果只是做这些,一些解析不同文档的库才是你真正需要的。

下面是用Java或Python编写的一些库。如果你使用的是我不熟悉的.NET,你可以在谷歌或必应上搜索一下,找到这些.NET的替代品。

  1. 用于解析办公文档,如DOC,DOCX:对于Java,Apache POI是一个很好的库,用于从MS office文件中提取数据;对于Python,似乎没有任何软件包可以做到这一点,除了在Windows的.NET中使用COM对象如Word.ApplicationIronPython (Reading/Writing MS Word files in Python)。
  2. 解析PDF文件:有Apache PDFBox,<代码>C9用于Java和<代码>C10用于读取RTF格式的文件:<代码>H211<代码>H112:Java本机支持通过<代码>C13,您可以通过搜索获得一些示例代码;像#1一样,Python.
  3. 解析HTML文件:jsoupBeautifulSoup & HTMLParser对于从HTML中提取数据是最好的。
  4. 用于读取TXT格式的文件,我认为它对于任何语言都很简单。但是要从文本内容中提取有价值的信息,Stanford NLP for Java和NLTK for Python是有用的,而且使用认知服务的Azure Text Analytics API可以帮助做一些像关键短语提取这样的工作,language detection.
  5. Apache Tika工具包用于内容分析也是一个很好的解决方案。即使您可以单独部署它,并通过Python、其他languages.
  6. If调用其REST API,您也可以使用认知服务的Azure Computer Vision API来提取打印文本或手写文本,或者使用第三方库(如Tess4J或您在GitHub中搜索的其他库)。

所有这些几乎都依赖于没有Azure资源的第三方开发工具包。但是,您可以将这些文档存储在Azure Storage中,并在Azure VM或批处理服务上处理它们,甚至分析Azure Jupyter Notebook中的提取数据或使用Azure ML进行更深入的研究。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55166669

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档