在Python中,我似乎找不到相当于tidytext (R库)的内容。与R相比,Python中的文本挖掘显得相当薄弱。
发布于 2020-04-12 21:36:39
Scikit-learn有一个很好的潜在dirichlet分配的实现,我认为它和tidytext中的实现一样简单。这是这里的教程。
此外,在NLP管道的工具方面,Python有SpaCy比R所拥有的任何工具都要光滑,
我确实喜欢R,我觉得它仍然是一种比Python更好的整理和处理数据的语言。Tidytext在获取主题模型的数据方面比Python中的任何东西都好。然而,Python是比R更好的整体文本挖掘资源。
发布于 2020-09-18 06:24:36
再加上尼古拉斯·詹姆斯·贝利的回答:
tidytext为两个不同的主要操作提供了功能:文本挖掘和文本建模。
我认为文本挖掘的一部分,我们标记,整理和准备文本数据是有点独特的。正如所指出的,文本数据有几种模型可供选择,其中一些可以说更好。
在python中的文本挖掘方面,这里总结了我的经验。有一些有用的库喜欢NLTK和其他人。此外,许多文本处理操作(如标记化)在python中使用基本功能比在R中更容易实现,从而消除了对外部包的需求。
然而,tidytext的最大优点是它的整洁方法,这对于R,特别是tidyverse环境来说是非常独特的。
由于这一点,我实际上不再寻找tidytext的python替代方案,而是准备并整理R中的数据,然后通过reticulate在我的R笔记本中集成它们,从而在python中建模。
https://datascience.stackexchange.com/questions/72155
复制相似问题