首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于现有标点符号的标记句(TF-下手向量器)

基于现有标点符号的标记句(TF-下手向量器)
EN

Stack Overflow用户
提问于 2022-06-15 13:28:31
回答 1查看 32关注 0票数 0

在dataframe中,我的行包括“机器学习、数据、ia、分段、分析”或“大数据、数据湖、数据可视化、市场营销、搜索引擎优化”等句子。

我想使用TF-以色列国防军和kmeans,以便根据每个单词创建集群。

我的问题是,当我使用tokenizes时,它错误地标记了句子.我得到了诸如“分析分析”或“英语excel”这样的术语,这些词不应该放在一起。

相反,我希望根据句子中的逗号来标记句子。因此,术语应该是“分析”、“大数据”、“数据湖”、“英语”等等。

我想我应该在中改变一些东西,但是我不明白怎么做。

你知道如何实现这一点吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-06-15 16:20:24

利用角化技术实现.Before托卡器中的句子删除数据集中的点位

我正在攻击链接,检查它

喀拉斯

检查示例代码,该代码有助于语句的标记化。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72632351

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档