首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >斯坦福POS标签不标注中文文本

斯坦福POS标签不标注中文文本
EN

Stack Overflow用户
提问于 2013-04-18 04:00:16
回答 1查看 909关注 0票数 5

我第一次使用Stanford标签(这是第一次),虽然它正确地标记了英语,但即使在更改模型参数时,它似乎也不识别(简体)中文。我忽略了什么吗?

我已经从这里下载并解压了最新的完整版本:http://nlp.stanford.edu/software/tagger.shtml

然后,我将示例文本输入到“sam-input.txt”中。

这是一个测试的句子。这是另一个句子。

然后我就跑

/斯坦福-postagger.sh模型/中文-dissim.tagger样本-input.txt

预期的输出是将每个单词标记为词性的一部分,但它将整个文本字符串识别为一个单词:

从标签模型/中文-dissim.tagger加载默认属性 从模型/中文阅读POS标签模型.完成3.5秒。 這是一個測試的句子。這是另一個句子。#NR 标记1字,每秒30.30字。

我很感谢你的帮助。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-04-18 21:14:31

我终于意识到这个pos标签中没有包含标记化/分段。在将这些单词输入标签之前,似乎必须对其进行空格分隔。对于那些对中文最大熵分词感兴趣的人,这里有一个单独的软件包:

http://nlp.stanford.edu/software/segmenter.shtml

谢谢大家。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16074238

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档