文章/答案/技术大牛

发布

社区首页 >问答首页 >Lucene .NET Azure Blob存储和IFilter

问Lucene .NET Azure Blob存储和IFilter
EN

Stack Overflow用户

提问于 2011-08-23 19:07:45

回答 1查看 633关注 0票数 3

在Azure解决方案中，使用IFilter从pdf/word/任何文档中提取文本内容的最佳方式是什么？

我见过使用流的IFilter示例，但是流的内容应该是什么呢？它是否应该包含某种类型的OLE标头？

将原始文件内容作为流发送到IFilter似乎不起作用。

或者，将文件保存到本地文件存储并让IFilter从该位置读取它们是否更好？

azure

lucene.net

ifilter

回答 1

Stack Overflow用户

发布于 2012-10-11 11:41:18

在azure中使用ifilter会很棘手，因为在桌面上常见的ifilter中有几个在azure web/worker角色中不可用。

您可以在azure中创建一个持久的VM并安装缺少的ifilter。

但是，如果你打算通过webupload建立你的lucene索引，你可以在上传文件时将其处理成文本，然后索引文本，然后单独保存文件。在索引中添加一个字段，使您可以返回到原始源文档。

这可能是一种更简单的方法，但这也是我解决同样问题的方法。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7160069

复制

相似问题

问Lucene .NET Azure Blob存储和IFilter
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Lucene .NET Azure Blob存储和IFilterEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Lucene .NET Azure Blob存储和IFilter
EN