我们需要从非结构化来源中提取暗数据,如信件、rad报告等,请建议azure资源从常见的文档格式中提取数据: DOC、DOCX、PDF、RTF、TXT、HTML等,然后对提取的数据进行分析。
发布于 2019-03-15 12:40:47
听起来您只是想从这些富文本格式的文档中提取原始文本或图像。如果只是做这些,一些解析不同文档的库才是你真正需要的。
下面是用Java或Python编写的一些库。如果你使用的是我不熟悉的.NET,你可以在谷歌或必应上搜索一下,找到这些.NET的替代品。
Apache POI是一个很好的库,用于从MS office文件中提取数据;对于Python,似乎没有任何软件包可以做到这一点,除了在Windows的.NET中使用COM对象如Word.Application或IronPython (Reading/Writing MS Word files in Python)。Apache PDFBox,<代码>C9用于Java和<代码>C10用于读取RTF格式的文件:<代码>H211<代码>H112:Java本机支持通过<代码>C13,您可以通过搜索获得一些示例代码;像#1一样,Python.jsoup和BeautifulSoup & HTMLParser对于从HTML中提取数据是最好的。Stanford NLP for Java和NLTK for Python是有用的,而且使用认知服务的Azure Text Analytics API可以帮助做一些像关键短语提取这样的工作,language detection.Tess4J或您在GitHub中搜索的其他库)。所有这些几乎都依赖于没有Azure资源的第三方开发工具包。但是,您可以将这些文档存储在Azure Storage中,并在Azure VM或批处理服务上处理它们,甚至分析Azure Jupyter Notebook中的提取数据或使用Azure ML进行更深入的研究。
https://stackoverflow.com/questions/55166669
复制相似问题