搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

RecordReader

我正在尝试解决以下RecordReader问题。输入文件示例：2,24,46,6.......key | Value 4 |2,2:3,3:......6,6public class MyRecordReader extends RecordReade

浏览 0修改于2017-05-23得票数 0

回答已采纳

2回答

RecordReader在Hadoop中的工作

有人能解释一下RecordReader实际上是如何工作的吗？在程序开始执行后，nextkeyvalue()、getCurrentkey()和getprogress()方法是如何工作的？

浏览 1修改于2014-04-23得票数 9

1回答

hadoop RecordReader如何识别记录

RecordReader将如何表现？公司名称:上海市发布时间:2009-4-11

浏览 1修改于2015-08-07得票数 1

回答已采纳

3回答

从RecordReader* / InputFormat访问作业配置*

为此，我重写了InputFormat和RecordReader类，就像解释了一样我想访问作业的配置(在运行作业之前访问某个变量集)。

浏览 3修改于2014-06-20得票数 3

回答已采纳

3回答

Hadoop :为什么在RecordReader实现中使用FileSplit

在Hadoop中，考虑一个大文件已经加载到hdfs文件系统的场景，使用hdfs dfs put或hdfs dfs CopyFromLocal命令，大文件将被拆分成块(64MB)。

浏览 3提问于2014-12-31得票数 0

1回答

EMR作业中的自定义RecordReader

如何在Amazon上的作业流中指定要使用的自定义RecordReader？备注:这里是 Hadoop新手。

浏览 1提问于2012-05-24得票数 0

回答已采纳

2回答

为什么Apache RecordReader.searchArgument()没有正确过滤？

1000) new String[]{"x"} RecordReader

浏览 7提问于2017-06-22得票数 6

回答已采纳

1回答

单行和多行日志的自定义RecordReader

我已经编写了一个自定义的InputFormat和RecordReader来尝试这样做(基本上只是对NLineRecordReader进行了修改，以附加行，直到它达到日期戳，而不是附加固定数量的行)。我用来格式化日志的MR作业似乎工作得很好，但是RecordReader似乎不能正确地传递多行，我不知道为什么。下面是我的RecordReader类： private

浏览 2修改于2015-11-25得票数 1

2回答

如何对自定义RecordReader和InputFormat类进行单元测试？

我编写了自定义的RecordReader和InputFormat类。我正在使用MR Unit和Mockito对映射器和减速器进行单元测试。我想知道如何对定制的RecordReader和InputFormat类进行单元测试？测试这些类的最首选方法是什么？

浏览 0提问于2013-12-04得票数 3

回答已采纳

2回答

不能将WholeFileRecordReader转换为org.apache.hadoop.mapred.RecordReader

中创建一个新的数据类型，但是从我的自定义inputformat类中得到了以下错误，下面是我的代码：import org.apache.hadoop.mapred.JobConf; throws IOException {

浏览 0修改于2014-06-10得票数 0

2回答

Hadoop MapReduce RecordReader实现是否必要？

如果是的话，在源代码中找到了RecordReader的实现吗？

浏览 6修改于2015-08-11得票数 4

回答已采纳

2回答

用dl4j RecordReader解析JSON

我计划在数据集上使用dl4j，该数据集的格式如下：我想知道是否有像CSV这样的JSON数据集迭代器。我查阅了github上的例子，但是找不到一个。如果没有可用的，可以有人提供一些关于实现它的提示吗？

浏览 0提问于2019-05-27得票数 0

回答已采纳

2回答

自定义RecordReader初始化未调用

由于某些原因，我的自定义RecordReader类没有调用它的初始化方法。(使用sysout检查它，因为我还没有设置调试环境){ public RecordReaderreturn new PDFRecordReader(); public stati

浏览 7提问于2014-02-18得票数 0

回答已采纳

1回答

覆盖RecordReader以一次读取段落而不是行

我覆盖了RecordReader类的方法"next“和TextInputFormat类的"getRecordReader”，以便将整个段落发送到映射器，而不是逐行发送。下面是我的代码：{ public RecordReaderParagraphRecordReader(conf, (FileSplit)split);} public class ParagraphRec

浏览 0提问于2013-03-25得票数 6

回答已采纳

1回答

为什么Apache Orc RecordReader.searchArgument()没有成功？

.searchArgument(sarg, new String[]{null, "id", "name", "age", "sex"}); RecordReader

浏览 37修改于2019-01-18得票数 4

1回答

用RecordReader从文件中读取CSV数据时出错

trainingDataCSV"; RecordReaderrecordReader = new CSVRecordReader(0, ','); recordReader.initialize(new FileSplit(new File(setNamenumPixels = IMAGE_SIZE * IMAGE_SIZE;

浏览 0提问于2020-03-24得票数 0

回答已采纳

1回答

使用自定义RecordReader读取Hadoop中的gzipped文件

代码片段是： private CompressionCodecFactory

浏览 2修改于2017-05-23得票数 4

回答已采纳

1回答

为什么在Hadoop中扩展RecordReader时close()方法被同步

我将查看给定alexhome的hadoop-book 的示例public synchronized void close() throws IOException {}

浏览 1提问于2012-07-10得票数 1

回答已采纳

1回答

在RecordReader初始化之前，Hadoop作业内存不足

我正在试图找出是什么原因导致我的emr作业在开始处理我的文件输入之前就耗尽了内存。在初始化我的java.lang.OutOfMemoryError之前(也就是在它试图解压缩和处理文件之前)，我得到了一个“不能转换为java.lang.Exception”错误。我在一个有大量输入的目录上运行我的工作。我能够在一个较小的输入集上很好地运行我的工作。有人有什么想法吗？

浏览 0提问于2015-08-10得票数 0

回答已采纳

2回答

Inplutsplit、RecordReader* & Mapper和Mapper之间的数据流*

RecordReader将把每一行(or split)作为(Key, Value)对提供给map()方法。根据我的理解..。对于每一行或每条记录，应该执行1000次map()方法。

浏览 4修改于2015-06-07得票数 1

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

RecordReader

RecordReader在Hadoop中的工作

hadoop RecordReader如何识别记录

从RecordReader* / InputFormat访问作业配置*

Hadoop :为什么在RecordReader实现中使用FileSplit

EMR作业中的自定义RecordReader

为什么Apache RecordReader.searchArgument()没有正确过滤？

单行和多行日志的自定义RecordReader

如何对自定义RecordReader和InputFormat类进行单元测试？

不能将WholeFileRecordReader转换为org.apache.hadoop.mapred.RecordReader

Hadoop MapReduce RecordReader实现是否必要？

用dl4j RecordReader解析JSON

自定义RecordReader初始化未调用

覆盖RecordReader以一次读取段落而不是行

为什么Apache Orc RecordReader.searchArgument()没有成功？

用RecordReader从文件中读取CSV数据时出错

使用自定义RecordReader读取Hadoop中的gzipped文件

为什么在Hadoop中扩展RecordReader时close()方法被同步

在RecordReader初始化之前，Hadoop作业内存不足

Inplutsplit、RecordReader* & Mapper和Mapper之间的数据流*

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐