搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

帮助理解MapReduce排序示例

来自Google的纸描述MapReduce的5.3节。 “Map函数从文本行中提取一个10字节的排序键，并发出键和原始文本行作为中间键/值对。我们使用内置的标识函数作为约简操作符。我不明白实际的分类是怎么发生的。据我所知，Map函数提取一个键值对，然后约简函数以某种方式输出排序的数据。什么是“分类钥匙”？

浏览 0提问于2013-01-18得票数 6

回答已采纳

1回答

在MapReduce中组合支持向量机分类器

我的任务是使用scikit-learn、python和mapreduce解决情感分类问题。我需要使用mapreduce来并行化项目，从而创建多个SVM分类器。然后我应该将分类器“平均”在一起，但我不确定这是如何工作的，甚至不确定它是否可能。分类的结果应该是一个分类器，经过训练的平均分类器。

浏览 2提问于2015-10-31得票数 1

1回答

Mahout - TestForest无法计算最终分析(混淆矩阵、准确度、kappa等)

我目前正在尝试使用Mahout中随机森林的部分实现来对数据进行分类。虽然我能够使用一组固定的训练森林对特定数量的数据进行分类，但我无法使用更大的数据(大约两倍的大小)和相同的分类器来做到这一点。事实上，在MR过程中完成的分类工作很好，并显示出成功。可悲的是，当计算分析时，它总是以OutOfMemoryException结束，这可能是由于到达的GCOverheadLimit而发生的。我还记得，当我使用mahout的早期版本(我认为是0.7)时，它可以使用testforest方法对几乎任意大的数据集进行分类

浏览 0提问于2015-05-25得票数 1

1回答

Mapreduce用于图像分类

我正在尝试写一个mapreduce程序来计算测试图像和我的训练集之间的欧几里德距离，这是在像素块之间而不是单个像素之间进行计算。因此，对于每个测试图像块，我必须在我的训练集中找到最接近的RGB颜色。

浏览 3修改于2016-08-16得票数 0

1回答

处理分类变量的KMeans

我正在为一个大型数据文件上的Kmeans聚类算法编写一个mapreduce程序。每个观察值都由包含分类变量和数值变量的列组成。对于Kmeans，不宜在距离计算中包含分类变量。因此，我们需要筛选出包含分类条目的列。谢谢!

浏览 4提问于2014-04-28得票数 0

1回答

利用RHadoop对数据进行排序

因此，试图使用RHadoop对Mapreduce结构中的数据进行排序。但我不能分类数据。代码如下所示。有人能帮我找出我在哪里犯的错误吗？尝试这个问题的原因是想知道如何定义关键变量&值变量。value) key <- k keyval(key,arrange(v))#mapreduceprogram input = hdfs.input

浏览 3修改于2015-03-22得票数 1

回答已采纳

1回答

按组合键和排序划分的Java组

我有一个mapreduce工作，它执行一些处理，并生成一个城市的复合键(实现WritableComparable)：带关联计数的水果。现在，我想用一个二级mapreduce作业来链接它，它决定了每个水果类型的最高计数城市。mapreduce作业1的复合键输出示例：| city:fruit composite| count | +--------------我会按水果分组，分类，并以最高的数量抓住这一行。我不知道这是怎么转化成mapreduce</em

浏览 2提问于2016-06-15得票数 1

回答已采纳

1回答

MapReduce Hadoop中的排序

在Hadoop MapReduce中，我有几个基本问题。假设执行了100个映射器和零减速器。它会生成100个文件吗？所有的人都被分类了？所有映射器输出都排序了吗？在MapReduce中有保证排序的地方吗？

浏览 1修改于2015-07-16得票数 3

回答已采纳

1回答

使用MapReduce将PDF转换为文本。

我正在尝试使用Mapreduce将PDF转换为文本。请指导我如何使用Mapreduce执行PDF。

浏览 0修改于2017-08-18得票数 0

2回答

带有“自定义”键的MapReduce

关键是一些id和值--一些文本。我的目标是将这些对象分组到文本片段在某种程度上“相似”的集群中。因此，如果将我的文本片段作为键，将id作为值，那么它看起来就像是MapReduce的任务。但这样的键不是传统的MapReduce使用方式，而且我并不真正了解MapReduces框架的内部实现，所以我不确定这种方式是否有效。所以我的详细想法是: 1.在Java中使用一些MapReduce (Hadoop，GridGain) 2.为我的文本片段创建特殊的类(比如TextKey)

浏览 1提问于2012-08-04得票数 1

1回答

读取ORC文件的Mapreduce示例

我创建了一个mapreduce代码来分析一些文件。但有些文件是从Hive创建的，它们是ORC类型的。tks

浏览 0提问于2015-08-26得票数 1

1回答

如何在python中实现大数据集的朴素贝叶斯分类器

我使用(nltk)朴素贝叶斯分类器，将数据用作训练数据。当我为小数据集运行代码时，它运行得很好，但当我为大型数据集运行时，它运行了很长时间(超过8小时)，然后崩溃，没有太多错误。此外，在对数据进行分类后，我希望将分类器转储到一个文件中，以便稍后可以将其用于测试数据。这个过程也需要太多时间，然后崩溃，因为它首先将所有内容加载到内存中。有没有办法解决这个问题？另一个问题是，有没有办法将整个操作并行化，即使用Hadoop/MapReduce等框架来并行化这个大型数据集的分类？

浏览 1提问于2014-11-06得票数 0

1回答

我需要一些Hadoop Mapreduce上的Kmean示例

我需要一些关于MapReduce进程集群的多个文件包含文本名称的Kmean的例子。之后，使用一个搜索程序在聚类输出上搜索文本。我是个新手。我想在Mapreduce上学习和使用Kmean。

浏览 1修改于2014-08-14得票数 0

1回答

如何为简单的mapreduce作业指定BlobstoreOutputWriter的文件名？

如何或在何处为GAE mapreduce作业指定output_writer文件名和内容类型？下面的配置对我来说工作得很好，但每次我运行作业时，它都会用新的文件名创建一个新的blobstore条目。我希望能够在每次运行mapreduce作业时指定要覆盖/替换的文件名和内容类型。- name: Export a model input_reader: mapreduce.input_readers.Datas

浏览 0提问于2011-10-10得票数 0

回答已采纳

1回答

在MapReduce中将文件分割成80%和20%的更好的建模和预测方法

我试图将我的HDFS文件分为2部分/文件，80%和 20% 用于分类算法(80%用于建模，20%用于预测)，请给出建议。因此，我们需要编写1 MapReduce作业来计算记录的数量，并使用多个输入将80%和20%分离为2个文件的2和Mapreduce作业。我是在正确的轨道上，还是有任何替代同样的选择。

浏览 3提问于2014-12-12得票数 0

回答已采纳

1回答

Hadoop Map Reduce读取文本文件

我正在尝试编写一个MapReduce程序，它可以读取输入文件并将输出写入另一个文本文件。为此，我计划使用BufferedReader类。但我真的不知道如何在MapReduce程序中使用它。附言:我对Hadoop和MapReduce编程完全陌生。所以请耐心听我说。提前谢谢你。

浏览 0提问于2014-10-06得票数 12

回答已采纳

2回答

MapReduce用于确定分类帐中的贷方余额

我有一个交易分类账，其中的借方和信用交易是存储。我需要确定account : 121的信用余额。我找到了办法。只是，我不明白我所做的事情的一半，以及为什么这样做是可行的。return Array.sum(values);};d.out = {inline:1}; dummyTx.mapReduce(d, function (err, debit) {

浏览 3提问于2015-05-09得票数 1

回答已采纳

1回答

我能在Rhadoop的mapreduce作业中使用readLines吗？

我试图从HDFS读取文本或gz文件并运行一个简单的mapreduce作业(实际上只是地图作业)，但得到了错误，似乎readLines部分无法工作。我正在寻找是否可以在mapreduce中使用readLines函数的答案。ps。如果我只是使用readLines函数在mapreduce任务之外解析HDFS文件，这是没有问题的。谢谢。readLines(lines) keyval(

浏览 6修改于2015-07-23得票数 2

1回答

使用MapReduce读/写二进制输入/输出文件的最佳方式是什么？

到目前为止，在我见过的所有示例中，mapreduce应用程序将文本文件作为输入，并将文本作为输出。我正在用java编写应用程序。

浏览 0提问于2011-09-13得票数 2

2回答

在大数据上使用lib线性进行语义分析

利用Libsvm对语义分析问题进行数据训练和分类预测。但由于语义分析涉及n维问题，因此在大规模数据方面存在性能问题. 去年，利伯线性发布了，它可以解决性能瓶颈。但它耗费了太多的记忆。MapReduce是解决大数据语义分析问题的唯一途径吗？或者还有其他方法可以改善Liblinear上的内存瓶颈？

浏览 0修改于2014-05-17得票数 17

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

帮助理解MapReduce排序示例

在MapReduce中组合支持向量机分类器

Mahout - TestForest无法计算最终分析(混淆矩阵、准确度、kappa等)

Mapreduce用于图像分类

处理分类变量的KMeans

利用RHadoop对数据进行排序

按组合键和排序划分的Java组

MapReduce Hadoop中的排序

使用MapReduce将PDF转换为文本。

带有“自定义”键的MapReduce

读取ORC文件的Mapreduce示例

如何在python中实现大数据集的朴素贝叶斯分类器

我需要一些Hadoop Mapreduce上的Kmean示例

如何为简单的mapreduce作业指定BlobstoreOutputWriter的文件名？

在MapReduce中将文件分割成80%和20%的更好的建模和预测方法

Hadoop Map Reduce读取文本文件

MapReduce用于确定分类帐中的贷方余额

我能在Rhadoop的mapreduce作业中使用readLines吗？

使用MapReduce读/写二进制输入/输出文件的最佳方式是什么？

在大数据上使用lib线性进行语义分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐