我正在尝试使用MemSQL抽取器在Spark作业中读取一个CSV文件,并使用转换器进行一些充实,并使用Java加载到MemSQL数据库。
我看到了memsql火花接口jar,但没有找到任何有用的Java文档或示例。
我已经开始写提取器从CSV读,但我不知道如何进一步。
public Option<RDD<byte[]>> nextRDD(SparkContext sparkContext, UserExtractConfig config, long batchInterval, PhaseLogger logger) {
RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
RDD<String> inputFile = sparkContext.textFile(filePath, minPartitions);
RDD<byte[]> bytes = inputFile.map(ByteUtils.utf8StringToBytes(filePath), String.class); //compilation error
return bytes; //compilation error
}如果有人能给我指点开始工作的方向的话.
谢谢..。
发布于 2022-08-08 12:05:04
首先,使用以下代码在java中配置火花连接器:
SparkConf conf = new SparkConf();
conf.set("spark.datasource.singlestore.clientEndpoint", "singlestore-host")
spark.conf.set("spark.datasource.singlestore.user", "admin")
spark.conf.set("spark.datasource.singlestore.password", "s3cur3-pa$$word")运行上述代码后,spark将连接到java,然后您就可以在中读取csv。您可以根据需要转换和操作数据,然后可以将此数据写入数据库表。
还附加链接,供您参考。火花单点商店。
https://stackoverflow.com/questions/34212098
复制相似问题