首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自然语言处理

自然语言处理
EN

Stack Overflow用户
提问于 2010-09-25 14:06:28
回答 5查看 667关注 0票数 1

我的档案里有几千个句子。我只想找到正确的/有用的英语单词。是否可以使用自然语言处理?

例句:

~@^.^@~ tic,但有时世界上很有名的tac

我只想提取像这样的英文单词

tic世界好有名气

任何建议我如何才能做到这一点。提前感谢

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2010-09-25 14:09:46

您可以使用WordNet API来查找单词。

票数 5
EN

Stack Overflow用户

发布于 2010-09-25 14:19:04

你需要编译一个停用词列表(一旦你不想在你的搜索中登记),然后你可以使用那个停用词列表来过滤你的搜索。有关详细信息,您可以考虑查看维基百科上的这些文章

  1. http://en.wikipedia.org/wiki/Stop_words
  2. http://en.wikipedia.org/wiki/Natural_language_processing
票数 1
EN

Stack Overflow用户

发布于 2011-05-03 17:54:51

您可以使用使用字符n元语法统计信息的语言猜测器。通常只需要少量的材料(用于训练和分类)。可以在此处找到文献和实现的链接:

http://odur.let.rug.nl/~vannoord/TextCat/

方法非常简单:

  1. 为每个language.
  2. Extract收集少量的文本,并统计文本中出现的1-gram和5-gram。
  3. 根据频率对这些n-gram进行排序,取最好的,比如300。这形成了语言的指纹。

如果要对文本或句子进行分类,请应用步骤2和3,并将生成的指纹与训练期间收集的指纹进行比较。根据n-gram的等级差异计算分数,分数最低的语言获胜。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3792709

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档