首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么(或如何) Keras模型跳过词干或Lemmatization步骤?

为什么(或如何) Keras模型跳过词干或Lemmatization步骤?
EN

Data Science用户
提问于 2022-04-30 12:00:08
回答 1查看 160关注 0票数 0

这个这里的Keras文章/教程确实执行文本标准化,即从文本数据集中移除HTML元素、标点符号等,但是在向量化步骤之前明显缺乏任何词干或柠檬化。

我有一些深入学习的经验,但我对NLP非常陌生,我只是从一个关于Udemy的不同教程上了解到,使用Stemmer或Lemmatizer都有助于降低词汇量,从而提高性能。我有点困惑,因为没有这一步在Keras的方式做事情。

这是我的一个假设--它被省略了,因为神经网络模型能够处理更大的词汇量吗?我想不出还有什么其他原因(S)来解释为什么会这样。

EN

回答 1

Data Science用户

发布于 2022-12-03 02:08:02

不是的。根本不支持。您必须求助于工具,如NLTK,以堵塞或柠檬化。

我不能代表Keras或TensorFlow说话,但这是一个可以理解的设计:如果没有对语言的了解,就不能进行词干或柠檬化。这些规则通常不能从一种语言移植到另一种语言。因此,最好将其留给特定的NLP库,而不是将其包含在通用的深度学习库(如TensorFlow )中。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/110515

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档