我目前正在使用Apache在Scala中编程的FlinkML编写一个讨厌的语音过滤器。
我有一个庞大的.csv训练数据集,其中包含如下行:
id,count,hate_speech,offensive_language,neither,class,tweet
326,3,0,1,2,2,"""@complex_uk: Ashley Young has tried to deny that bird s*** landed in his mouth ---> http:**** https:****"" hahaha"我的问题是,Flink不包括一个向量器来将Tweets转换为LibSVM文件,SVM.fit()函数可读。
你们知道我如何用“类”-column作为标签,"tweet"-column作为特征向量来训练我的支持向量吗?
我真的很感谢你的帮助。找了好几个小时。
发布于 2019-10-20 13:51:37
我想你的问题还不是Flink问题。Flink是一个流处理引擎(批量处理也是可能的,但是流处理是flink的唯一卖点)。可以在无界流中定义有状态计算。你是怎么做的取决于你自己。首先需要解决的问题之一是:如何将文本表示为向量,该向量可用作SVM聚类的输入。工作队/以色列国防军可能是一个良好的起点。到处都是实现:海芬/SMLE或Deeplearning4j是一些流行的例子。
还请记住,如果你处理的是非常短的文件(twitter推特,如果我是对的)。你应该考虑保留尽可能多的标记(单词)--这将增加你的词汇量--这将增加你的向量的尺寸(如果你坚持某种词袋模型)--这将迫使你获得更多的培训数据。
在解决了所有这些与ML相关的问题之后,您可以考虑如何将其集成到flink中。
https://stackoverflow.com/questions/58441987
复制相似问题