首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Java+Spark wordCount与电子病历

Java+Spark wordCount与电子病历
EN

Stack Overflow用户
提问于 2020-04-08 13:15:03
回答 1查看 258关注 0票数 0

我一直在尝试运行Pi估计& wordCount示例在JavaEMR中的https://spark.apache.org/examples.html中找到

Pi估计工作得很好,所以我假设一切都是正确的。但是我在wordCount中得到了这个错误:

Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://XXX/user/hadoop/input.txt

在运行以下命令之前,我已经从s3下载了我的s3& jar:

spark-submit --class "wordCount" --master local[4] Spark05-1.1.jar input.txt

这是我的wordCount代码:

代码语言:javascript
复制
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

import java.util.Arrays;

public final class wordCount {

    public static void main(String[] args) {

        SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("JD Word Counter");

        JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);



        JavaRDD<String> textFile = sparkContext.textFile(args[0]);
        JavaPairRDD<String, Integer> counts = textFile
                .flatMap(s -> Arrays.asList(s.split(" ")).iterator())
                .mapToPair(word -> new Tuple2<>(word, 1))
                .reduceByKey((a, b) -> a + b);
        counts.saveAsTextFile("result.txt");


    }
}

我做错什么了吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-08 13:25:29

如果没有在hdfs上加载input.txt,请在将其放入hdfs之后尝试。

或者,尝试使用带前缀'file‘(例如) file://{YOUR_FILE_PATH}.的完整路径

我相信这是因为火花配置中的'fs.defaultFS‘是'hdfs’。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61101610

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档