文章/答案/技术大牛

发布

社区首页 >问答首页 >基于现有标点符号的标记句(TF-下手向量器)

问基于现有标点符号的标记句(TF-下手向量器)
EN

Stack Overflow用户

提问于 2022-06-15 13:28:31

回答 1查看 32关注 0票数 0

在dataframe中，我的行包括“机器学习、数据、ia、分段、分析”或“大数据、数据湖、数据可视化、市场营销、搜索引擎优化”等句子。

我想使用TF-以色列国防军和kmeans，以便根据每个单词创建集群。

我的问题是，当我使用tokenizes时，它错误地标记了句子.我得到了诸如“分析分析”或“英语excel”这样的术语，这些词不应该放在一起。

相反，我希望根据句子中的逗号来标记句子。因此，术语应该是“分析”、“大数据”、“数据湖”、“英语”等等。

我想我应该在中改变一些东西，但是我不明白怎么做。

你知道如何实现这一点吗？

tfidfvectorizer

python

tokenize

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-06-15 16:20:24

利用角化技术实现.Before托卡器中的句子删除数据集中的点位

我正在攻击链接，检查它

喀拉斯

检查示例代码，该代码有助于语句的标记化。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72632351

复制

相似问题

问基于现有标点符号的标记句(TF-下手向量器)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于现有标点符号的标记句(TF-下手向量器)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于现有标点符号的标记句(TF-下手向量器)
EN