首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >英语单词的真正定义是什么?

英语单词的真正定义是什么?
EN

Stack Overflow用户
提问于 2010-09-11 15:31:48
回答 6查看 631关注 0票数 4

英语单词的最佳定义是什么?

除了\w+之外,英语单词还有什么其他的用法?有些可能包括\w+-\w+\w+'\w+;有些可能排除像\b[0-9]+\b这样的情况。但我还没有在这些案例上看到任何普遍的共识。我们对此有正式的定义吗?你们谁能澄清一下吗?

(编辑:扩大问题范围,使其不只依赖于regexp。)

EN

回答 6

Stack Overflow用户

发布于 2010-09-11 15:38:54

我真的不认为正则表达式会在这里帮到你,英语(或任何语言)文本的问题在于上下文。如果没有它,你可以确定单词边界之间的是文本、数字、随机字符集等。对于NLP,我认为你将选择语言的一个子集并查找特定的单词,而不是试图从字符串中提取所有的“单词”。

票数 6
EN

Stack Overflow用户

发布于 2010-09-14 00:22:10

检查一个单词是否为英语的最好方法是查字典。如果它在英语单词词典中,那么它就是一个英语单词。一个单词也有可能出现在英语词典和法语词典中。例如,'me‘既是法语单词,也是英语单词。

我相信你可以在网上找到很多可供下载的字典。你也可以做你自己的。例如,您可以下载English version of Wikipedia并假设找到的所有单词都是英语单词。你可能会也可能不会过滤掉数字。

正则表达式不会告诉您一个单词是否为英语。例如,xyvfg匹配您的模式\w‘,但肯定不是英语单词。

编辑:理论上,使用英语音系学,可以判断一个单词的音标是否可以被说英语的人发音。有很多说英语的人可以发音的单词,实际上不是英语单词。这可能会考虑到将来可能出现在英语中的单词。然而,音标和文本之间的翻译是一个相当具有挑战性的问题,因为同一音标可能有许多不同的拼写。我不知道是否有人做过这样的事情。这可能是一个有趣的理论练习。不过,我不确定这在现实世界的NLP中是否有用。

票数 3
EN

Stack Overflow用户

发布于 2010-09-12 07:51:35

让我们实实在在地通过例子来巩固基础。

代码语言:javascript
复制
Is 'word' an English word?  YES

49th?  YES

NYSE?  YES

Résumé?  YES

Haight-Ashbury? YES/NO?

good-looking?  YES/NO?

P&G?  YES/NO?

1023?  YES/NO?

304-392-9999?  YES/NO?

3.14?  YES/NO?
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3690195

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档