在dataframe中,我的行包括“机器学习、数据、ia、分段、分析”或“大数据、数据湖、数据可视化、市场营销、搜索引擎优化”等句子。
我想使用TF-以色列国防军和kmeans,以便根据每个单词创建集群。
我的问题是,当我使用tokenizes时,它错误地标记了句子.我得到了诸如“分析分析”或“英语excel”这样的术语,这些词不应该放在一起。
相反,我希望根据句子中的逗号来标记句子。因此,术语应该是“分析”、“大数据”、“数据湖”、“英语”等等。
我想我应该在中改变一些东西,但是我不明白怎么做。
你知道如何实现这一点吗?
发布于 2022-06-15 16:20:24
https://stackoverflow.com/questions/72632351
复制相似问题