首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Mallet SimpleTagger不同数量的谓词

Mallet SimpleTagger不同数量的谓词
EN

Stack Overflow用户
提问于 2017-06-24 08:33:44
回答 1查看 121关注 0票数 0

我正在尝试提供SimpleTagger教程的这里。我运行了与页面上提供的完全相同的命令,即

java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --train true --model-file nouncrf sample

java -cp "class:lib/mallet-deps.jar" cc.mallet.fst.SimpleTagger --model-file nouncrf stest

这是我的samplestest文件。

$ cat sample

代码语言:javascript
复制
Bill CAPITALIZED noun  
slept non-noun  
here LOWERCASE STOPWORD non-noun

$ cat stest

代码语言:javascript
复制
CAPITAL Al  
        slept  
        here

但是,我的输出与他们页面上的输出不同。这是我得到的输出。

代码语言:javascript
复制
Number of predicates: 9  
noun   
non-noun   
non-noun 

我的问题是

  1. “谓词数”表示什么?
  2. 为什么我要得到9个谓词,而官方源声称相同的输入文件有5个谓词?

我用的是Mallet 2.0.8,如果有关系的话。

EN

回答 1

Stack Overflow用户

发布于 2017-11-21 15:27:30

当您开始培训时,SimpleTagger给您的第一个消息是:

代码语言:javascript
复制
Number of features in training data: x
Number of predicates: y

谓词的数量y是训练数据包含的不同标记(或行)的数量。

当您使用上一篇文章中的模型(它有y谓词)给一个文件贴上标签时,您会得到一条消息:

代码语言:javascript
复制
Number of predicates: z

这个z是要标记的文件包含的y和不同标记(或行)的总和。这就是为什么z总是大于(或等于) y的原因。例如,如果您尝试将一个空的内容文本文件标记为一个具有y谓词的模型,那么您将得到许多谓词y (即y + 0 = y ),因为您的空文件有0标签。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44734518

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档