首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >支持向量机的Apache Tweet矢量化

支持向量机的Apache Tweet矢量化
EN

Stack Overflow用户
提问于 2019-10-17 23:30:44
回答 1查看 147关注 0票数 1

我目前正在使用Apache在Scala中编程的FlinkML编写一个讨厌的语音过滤器。

我有一个庞大的.csv训练数据集,其中包含如下行:

代码语言:javascript
复制
id,count,hate_speech,offensive_language,neither,class,tweet

326,3,0,1,2,2,"""@complex_uk: Ashley Young has tried to deny that bird s*** landed in his mouth ---> http:**** https:****"" hahaha"

我的问题是,Flink不包括一个向量器来将Tweets转换为LibSVM文件,SVM.fit()函数可读。

你们知道我如何用“类”-column作为标签,"tweet"-column作为特征向量来训练我的支持向量吗?

我真的很感谢你的帮助。找了好几个小时。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-20 13:51:37

我想你的问题还不是Flink问题。Flink是一个流处理引擎(批量处理也是可能的,但是流处理是flink的唯一卖点)。可以在无界流中定义有状态计算。你是怎么做的取决于你自己。首先需要解决的问题之一是:如何将文本表示为向量,该向量可用作SVM聚类的输入。工作队/以色列国防军可能是一个良好的起点。到处都是实现:海芬/SMLEDeeplearning4j是一些流行的例子。

还请记住,如果你处理的是非常短的文件(twitter推特,如果我是对的)。你应该考虑保留尽可能多的标记(单词)--这将增加你的词汇量--这将增加你的向量的尺寸(如果你坚持某种词袋模型)--这将迫使你获得更多的培训数据。

在解决了所有这些与ML相关的问题之后,您可以考虑如何将其集成到flink中。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58441987

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档