文章/答案/技术大牛

发布

社区首页 >问答首页 >在什么情况下处理文本数据时柠檬化不是一个明智的步骤？

问在什么情况下处理文本数据时柠檬化不是一个明智的步骤？
EN

Data Science用户

提问于 2018-08-08 22:26:50

回答 1查看 746关注 0票数 7

忽略可能的计算限制，是否有一般的应用程序，当分析文本数据时，柠檬化将是一个反作用的步骤？

例如，当构建上下文感知的模型时，柠檬化是否是没有完成的事情？

作为参考，每一个dictinory.com的柠檬化是将(一个词)的屈折形式组合在一起作为一个项目进行分析的行为。

例如，“厨师”这个词就是“烹饪”这个词的引理。例如，柠檬化的行为就是在你标记了你的文本数据之后，用厨师一词代替烹饪这个词。此外，“更糟”一词以“坏”作为引理，前面的例子用“坏”代替“更糟”是柠檬化的动作。

nlp

data-cleaning

回答 1

Data Science用户

回答已采纳

发布于 2018-08-10 17:34:14

将因柠檬化而受到损害的NLP任务：

1)时态分类

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

动词结尾的字符序列可以帮助完成这项任务。熟食的动词和厨师在最后几个字ed和s上有差异。

随着柠檬化，这些信息就会丢失。这两个动词都变成了厨师，使这两个句子在现在时看起来(在本例中)。

( 2)作者识别

给定的

由作者$\mathcal $a$编写的一组文档$a${P}$，
由作者$\mathcal $b$编写的一组文档$b${Q}$，
由作者$\mathcal或$b$编写的一组文档$a$ {S}$，

如果文档$s\in\mathcal{S}$是由作者$a$或$b$编写的，则对其进行分类。

实现这一目标的一种方法是查看$s$中的单词直方图，并将其与来自$\mathcal{P}$和$\mathcal{Q}$的文档进行比较，并选择最相似的。

这是因为不同的作者以不同的频率使用特定的单词。然而，通过使用柠檬化，你扭曲这些频率，损害你的模型的性能。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/36663

复制

相似问题

问在什么情况下处理文本数据时柠檬化不是一个明智的步骤？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在什么情况下处理文本数据时柠檬化不是一个明智的步骤？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在什么情况下处理文本数据时柠檬化不是一个明智的步骤？
EN