首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Lucene .NET Azure Blob存储和IFilter

Lucene .NET Azure Blob存储和IFilter
EN

Stack Overflow用户
提问于 2011-08-23 19:07:45
回答 1查看 633关注 0票数 3

在Azure解决方案中,使用IFilter从pdf/word/任何文档中提取文本内容的最佳方式是什么?

我见过使用流的IFilter示例,但是流的内容应该是什么呢?它是否应该包含某种类型的OLE标头?

将原始文件内容作为流发送到IFilter似乎不起作用。

或者,将文件保存到本地文件存储并让IFilter从该位置读取它们是否更好?

EN

回答 1

Stack Overflow用户

发布于 2012-10-11 11:41:18

在azure中使用ifilter会很棘手,因为在桌面上常见的ifilter中有几个在azure web/worker角色中不可用。

您可以在azure中创建一个持久的VM并安装缺少的ifilter。

但是,如果你打算通过webupload建立你的lucene索引,你可以在上传文件时将其处理成文本,然后索引文本,然后单独保存文件。在索引中添加一个字段,使您可以返回到原始源文档。

这可能是一种更简单的方法,但这也是我解决同样问题的方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7160069

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档