在Azure解决方案中,使用IFilter从pdf/word/任何文档中提取文本内容的最佳方式是什么?
我见过使用流的IFilter示例,但是流的内容应该是什么呢?它是否应该包含某种类型的OLE标头?
将原始文件内容作为流发送到IFilter似乎不起作用。
或者,将文件保存到本地文件存储并让IFilter从该位置读取它们是否更好?
发布于 2012-10-11 11:41:18
在azure中使用ifilter会很棘手,因为在桌面上常见的ifilter中有几个在azure web/worker角色中不可用。
您可以在azure中创建一个持久的VM并安装缺少的ifilter。
但是,如果你打算通过webupload建立你的lucene索引,你可以在上传文件时将其处理成文本,然后索引文本,然后单独保存文件。在索引中添加一个字段,使您可以返回到原始源文档。
这可能是一种更简单的方法,但这也是我解决同样问题的方法。
https://stackoverflow.com/questions/7160069
复制相似问题