我需要从word和pdf文档中提取实体。文件可在10至20页范围内。是否有可扩展的库/API可供我们插入处理管道?任何对不同解决方案的比较研究都是有帮助的。
发布于 2018-04-30 13:35:47
看看沃森自然语言理解 (您需要获得一个IBM,然后登录查看这个内容-别担心,成本是0美元)。使用沃森自然语言理解,您将需要查看API资源管理器,以找到用于获取所需结果的正确的API资源管理器语法。
我还注意到其中提到了Word/PDF文件。您将需要转换使用沃森发现号服务的文档,然后可以将转换后的文档传递给沃森自然语言理解,后者接受JSON、文本或HTML输入。
https://stackoverflow.com/questions/50078649
相似问题