首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在什么情况下处理文本数据时柠檬化不是一个明智的步骤?

在什么情况下处理文本数据时柠檬化不是一个明智的步骤?
EN

Data Science用户
提问于 2018-08-08 22:26:50
回答 1查看 746关注 0票数 7

忽略可能的计算限制,是否有一般的应用程序,当分析文本数据时,柠檬化将是一个反作用的步骤?

例如,当构建上下文感知的模型时,柠檬化是否是没有完成的事情?

作为参考,每一个dictinory.com的柠檬化是将(一个词)的屈折形式组合在一起作为一个项目进行分析的行为。

例如,“厨师”这个词就是“烹饪”这个词的引理。例如,柠檬化的行为就是在你标记了你的文本数据之后,用厨师一词代替烹饪这个词。此外,“更糟”一词以“坏”作为引理,前面的例子用“坏”代替“更糟”是柠檬化的动作。

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-08-10 17:34:14

将因柠檬化而受到损害的NLP任务:

1)时态分类

代码语言:javascript
复制
      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

动词结尾的字符序列可以帮助完成这项任务。熟食的动词厨师在最后几个字eds上有差异。

随着柠檬化,这些信息就会丢失。这两个动词都变成了厨师,使这两个句子在现在时看起来(在本例中)。

( 2)作者识别

给定的

  • 由作者$\mathcal $a$编写的一组文档$a${P}$,
  • 由作者$\mathcal $b$编写的一组文档$b${Q}$,
  • 由作者$\mathcal或$b$编写的一组文档$a$ {S}$,

如果文档$s\in\mathcal{S}$是由作者$a$或$b$编写的,则对其进行分类。

实现这一目标的一种方法是查看$s$中的单词直方图,并将其与来自$\mathcal{P}$和$\mathcal{Q}$的文档进行比较,并选择最相似的。

这是因为不同的作者以不同的频率使用特定的单词。然而,通过使用柠檬化,你扭曲这些频率,损害你的模型的性能。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/36663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档