文章/答案/技术大牛

发布

社区首页 >问答首页 >斯坦福分词器

问斯坦福分词器
EN

Stack Overflow用户

提问于 2013-08-12 16:20:25

回答 2查看 1.8K关注 0票数 1

我在用斯坦福的分词器，但我有问题。

我输入命令：

$ C:\Users\toshiba\workspace\SegDemo\stanford-segmenter-2013-06-20>java -cp seg.jar;stanford-segmenter-3.2.0-javadoc.jar;stanford-segmenter-3.2.0-sources.jar -mx1g edu.stanford.nlp.international.arabic.process.ArabicSegmenter -loadClassifier data/arabic-segmenter-atbtrain.ser.gz -textFile phrase.txt > phrase.txt.segmented

我有以下步骤：

Loaded ArabicTokenizer with options: null
loadClassifier=data/arabic-segmenter-atbtrain.ser.gz
textFile=phrase.txt
featureFactory=edu.stanford.nlp.international.arabic.process.ArabicSegmenterFeat
ureFactory
loadClassifier=data/arabic-segmenter-atbtrain.ser.gz
textFile=phrase.txt
featureFactory=edu.stanford.nlp.international.arabic.process.ArabicSegmenterFeat
ureFactory
Loading classifier from C:\Users\toshiba\workspace\SegDemo\stanford-segmenter-20
13-06-20\data\arabic-segmenter-atbtrain.ser.gz ... done [1,2 sec].
Untokenizable: ?
Done! Processed input text at 475,13 input characters/second

我不明白"Untokenizale：?“

在分词处理之前，句子应该音译吗？

nlp

stanford-nlp

回答 2

Stack Overflow用户

发布于 2013-08-13 12:24:38

我经常收到同样的警告，例如：

WARNING: Untokenizable: ₪ (U+20AA, decimal: 8362)

对于造成这种情况的原因，我有两个理论：

在文本中的某个地方，有一个字符不能用当前编码进行编码(斯坦福默认使用UTF-8，但可以使用-encoding标志更改)。
斯坦福大学不知道如何将一个包含一个非常特殊字符的词托起。

在这两种情况下，这都没什么好担心的。如果您只收到对整个输入数据的一个警告，那么最糟糕的情况是标记器可能忽略句子的一小部分。

顺便说一句，如果您想了解更多关于字符编码的知识，Joel的关于Unicode的文章是一个非常好的起点。

票数 1

Stack Overflow用户

发布于 2013-12-07 04:05:43

我还没有在分段器中尝试过这种方法，但是我经常在令牌程序中看到这种情况。使用"-options untokenizable=noneKeep“适用于PTBTokenizer；也许它也适用于分段器。

以下是http://nlp.stanford.edu/software/tokenizer.shtml对不可标记选项的看法：

不可标记的:如何处理不可标记的字符(这些字符不为令牌程序所知)。六个选项组合在一起: noneDelete、firstDelete、allDelete、noneKeep、firstKeep、allKeep，这些选项结合了是否为none、第一个还是全部记录警告，以及是否要删除它们或将它们作为单个字符标记包含在输出中。默认情况是"firstDelete“。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18191930

复制

相似问题

问斯坦福分词器
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问斯坦福分词器EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问斯坦福分词器
EN