首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Lemur在尝试索引文件时出现格式错误的文档错误

Lemur在尝试索引文件时出现格式错误的文档错误
EN

Stack Overflow用户
提问于 2010-02-20 12:52:37
回答 1查看 498关注 0票数 0

我在这里浏览了一些lemur索引教程:

http://www.lemurproject.org/tutorials/begin_indexing-1.php

我创建了一个“语料库”文件夹,其中包含一个文档,其中包含看似格式正确的文件:

代码语言:javascript
复制
<DOC>
<DOCNO>1</DOCNO>
<TEXT>
    Here is some text
</TEXT>
</DOC>

并创建了以下配置文件:

代码语言:javascript
复制
<parameters>
  <corpus>
    <path>C:\Users\Tristan\Documents\lemur\corpus</path>
    <class>trectext</class>
  </corpus>
  <memory>256m</memory>
  <index>C:\Users\Tristan\Documents\lemur\index</index>
</parameters>

但是,当我运行以下命令时:

代码语言:javascript
复制
IndriBuildIndex.exe C:\Users\Tristan\Documents\lemur\config\parameter.xml

我得到了一个神秘的异常:

代码语言:javascript
复制
0:00: Opened repository C:\Users\Tristan\Documents\lemur\index
0:00: Opened C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Error in C:\Users\Tristan\Documents\lemur\corpus\1 : .\src\TaggedDocumentI
terator.cpp(213): Malformed document: C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Closing index
0:00: Finished

我查看了源代码中的相关函数,但没有什么特别的东西引起我的注意。有什么想法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-02-20 14:25:49

我最终将我的文档文件保存为unix格式,并且它工作了。然而,请注意,由于某些原因,手动修复行尾不起作用,所以windows向文件中添加了一些lemur不喜欢的东西。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2301097

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档