忽略可能的计算限制,是否有一般的应用程序,当分析文本数据时,柠檬化将是一个反作用的步骤?
例如,当构建上下文感知的模型时,柠檬化是否是没有完成的事情?
作为参考,每一个dictinory.com的柠檬化是将(一个词)的屈折形式组合在一起作为一个项目进行分析的行为。
例如,“厨师”这个词就是“烹饪”这个词的引理。例如,柠檬化的行为就是在你标记了你的文本数据之后,用厨师一词代替烹饪这个词。此外,“更糟”一词以“坏”作为引理,前面的例子用“坏”代替“更糟”是柠檬化的动作。
发布于 2018-08-10 17:34:14
将因柠檬化而受到损害的NLP任务:
1)时态分类
sentence | tense
------------------------------------
He cooked a nice meal | past
He cooks a nice meal | present动词结尾的字符序列可以帮助完成这项任务。熟食的动词和厨师在最后几个字ed和s上有差异。
随着柠檬化,这些信息就会丢失。这两个动词都变成了厨师,使这两个句子在现在时看起来(在本例中)。
( 2)作者识别
给定的
如果文档$s\in\mathcal{S}$是由作者$a$或$b$编写的,则对其进行分类。
实现这一目标的一种方法是查看$s$中的单词直方图,并将其与来自$\mathcal{P}$和$\mathcal{Q}$的文档进行比较,并选择最相似的。
这是因为不同的作者以不同的频率使用特定的单词。然而,通过使用柠檬化,你扭曲这些频率,损害你的模型的性能。
https://datascience.stackexchange.com/questions/36663
复制相似问题