英语单词的最佳定义是什么?
除了\w+之外,英语单词还有什么其他的用法?有些可能包括\w+-\w+或\w+'\w+;有些可能排除像\b[0-9]+\b这样的情况。但我还没有在这些案例上看到任何普遍的共识。我们对此有正式的定义吗?你们谁能澄清一下吗?
(编辑:扩大问题范围,使其不只依赖于regexp。)
发布于 2010-09-11 15:38:54
我真的不认为正则表达式会在这里帮到你,英语(或任何语言)文本的问题在于上下文。如果没有它,你可以确定单词边界之间的是文本、数字、随机字符集等。对于NLP,我认为你将选择语言的一个子集并查找特定的单词,而不是试图从字符串中提取所有的“单词”。
发布于 2010-09-14 00:22:10
检查一个单词是否为英语的最好方法是查字典。如果它在英语单词词典中,那么它就是一个英语单词。一个单词也有可能出现在英语词典和法语词典中。例如,'me‘既是法语单词,也是英语单词。
我相信你可以在网上找到很多可供下载的字典。你也可以做你自己的。例如,您可以下载English version of Wikipedia并假设找到的所有单词都是英语单词。你可能会也可能不会过滤掉数字。
正则表达式不会告诉您一个单词是否为英语。例如,xyvfg匹配您的模式\w‘,但肯定不是英语单词。
编辑:理论上,使用英语音系学,可以判断一个单词的音标是否可以被说英语的人发音。有很多说英语的人可以发音的单词,实际上不是英语单词。这可能会考虑到将来可能出现在英语中的单词。然而,音标和文本之间的翻译是一个相当具有挑战性的问题,因为同一音标可能有许多不同的拼写。我不知道是否有人做过这样的事情。这可能是一个有趣的理论练习。不过,我不确定这在现实世界的NLP中是否有用。
发布于 2010-09-12 07:51:35
让我们实实在在地通过例子来巩固基础。
Is 'word' an English word? YES
49th? YES
NYSE? YES
Résumé? YES
Haight-Ashbury? YES/NO?
good-looking? YES/NO?
P&G? YES/NO?
1023? YES/NO?
304-392-9999? YES/NO?
3.14? YES/NO?https://stackoverflow.com/questions/3690195
复制相似问题