我正在尝试使用SVMLight构建一个分类器来检测名词短语(NP)是否是照应的。我有我的功能,但我被困在理解输入文件的格式,我应该把我所有的文本翻译成这种格式,还是只放代表正实例和负实例的NP。有没有什么软件可以把我的文件翻译成这种格式。
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> //for positive instance should I put +1
<feature> .=. <integer> | "qid" //should I do this line for all my feature
<value> .=. <float>
<info> .=. <string> //Should this contain the NP另外,对于模型文件,这个文件到底应该包含什么?
您的帮助将不胜感激。
发布于 2016-07-20 20:16:16
引用康奈尔大学关于SVMlight用法的官方文档,下面是输入格式的一个示例:
-1 1:0.43 3:0.12 9284:0.2
据我所知,这意味着在一个带有“特征”的文档中(比如你的例子中的NP ),上面这一行代表了负面的情况,其中feature1的权重为0.43,第三个特征的权重为0.12,9284个特征的值为0.2,所有其他特征的值为0。
关于软件或一些源代码或库来生成这种格式-这也是我正在寻找的,因此我无法回答你。但我希望你对格式的解释很清楚。
https://stackoverflow.com/questions/36617455
复制相似问题