这个这里的Keras文章/教程确实执行文本标准化,即从文本数据集中移除HTML元素、标点符号等,但是在向量化步骤之前明显缺乏任何词干或柠檬化。
我有一些深入学习的经验,但我对NLP非常陌生,我只是从一个关于Udemy的不同教程上了解到,使用Stemmer或Lemmatizer都有助于降低词汇量,从而提高性能。我有点困惑,因为没有这一步在Keras的方式做事情。
这是我的一个假设--它被省略了,因为神经网络模型能够处理更大的词汇量吗?我想不出还有什么其他原因(S)来解释为什么会这样。
发布于 2022-12-03 02:08:02
不是的。根本不支持。您必须求助于工具,如NLTK,以堵塞或柠檬化。
我不能代表Keras或TensorFlow说话,但这是一个可以理解的设计:如果没有对语言的了解,就不能进行词干或柠檬化。这些规则通常不能从一种语言移植到另一种语言。因此,最好将其留给特定的NLP库,而不是将其包含在通用的深度学习库(如TensorFlow )中。
https://datascience.stackexchange.com/questions/110515
复制相似问题