腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
帮助理解
MapReduce
排序示例
来自Google的纸描述
MapReduce
的5.3节。 “Map函数从
文本
行中提取一个10字节的排序键,并发出键和原始
文本
行作为中间键/值对。我们使用内置的标识函数作为约简操作符。我不明白实际的
分类
是怎么发生的。据我所知,Map函数提取一个键值对,然后约简函数以某种方式输出排序的数据。什么是“
分类
钥匙”?
浏览 0
提问于2013-01-18
得票数 6
回答已采纳
1
回答
在
MapReduce
中组合支持向量机
分类
器
我的任务是使用scikit-learn、python和
mapreduce
解决情感
分类
问题。我需要使用
mapreduce
来并行化项目,从而创建多个SVM
分类
器。然后我应该将
分类
器“平均”在一起,但我不确定这是如何工作的,甚至不确定它是否可能。
分类
的结果应该是一个
分类
器,经过训练的平均
分类
器。
浏览 2
提问于2015-10-31
得票数 1
1
回答
Mahout - TestForest无法计算最终分析(混淆矩阵、准确度、kappa等)
我目前正在尝试使用Mahout中随机森林的部分实现来对数据进行
分类
。 虽然我能够使用一组固定的训练森林对特定数量的数据进行
分类
,但我无法使用更大的数据(大约两倍的大小)和相同的
分类
器来做到这一点。事实上,在MR过程中完成的
分类
工作很好,并显示出成功。可悲的是,当计算分析时,它总是以OutOfMemoryException结束,这可能是由于到达的GCOverheadLimit而发生的。我还记得,当我使用mahout的早期版本(我认为是0.7)时,它可以使用testforest方法对几乎任意大的数据集进行
分类
浏览 0
提问于2015-05-25
得票数 1
1
回答
Mapreduce
用于图像
分类
我正在尝试写一个
mapreduce
程序来计算测试图像和我的训练集之间的欧几里德距离,这是在像素块之间而不是单个像素之间进行计算。 因此,对于每个测试图像块,我必须在我的训练集中找到最接近的RGB颜色。
浏览 3
修改于2016-08-16
得票数 0
1
回答
处理
分类
变量的KMeans
我正在为一个大型数据文件上的Kmeans聚类算法编写一个
mapreduce
程序。每个观察值都由包含
分类
变量和数值变量的列组成。对于Kmeans,不宜在距离计算中包含
分类
变量。因此,我们需要筛选出包含
分类
条目的列。谢谢!
浏览 4
提问于2014-04-28
得票数 0
1
回答
利用RHadoop对数据进行排序
因此,试图使用RHadoop对
Mapreduce
结构中的数据进行排序。但我不能
分类
数据。代码如下所示。有人能帮我找出我在哪里犯的错误吗?尝试这个问题的原因是想知道如何定义关键变量&值变量。value) key <- k keyval(key,arrange(v))#
mapreduce
program input = hdfs.input
浏览 3
修改于2015-03-22
得票数 1
回答已采纳
1
回答
按组合键和排序划分的Java组
我有一个
mapreduce
工作,它执行一些处理,并生成一个城市的复合键(实现WritableComparable):带关联计数的水果。现在,我想用一个二级
mapreduce
作业来链接它,它决定了每个水果类型的最高计数城市。
mapreduce
作业1的复合键输出示例:| city:fruit composite| count | +--------------我会按水果分组,
分类
,并以最高的数量抓住这一行。我不知道这是怎么转化成
mapreduce</em
浏览 2
提问于2016-06-15
得票数 1
回答已采纳
1
回答
MapReduce
Hadoop中的排序
在Hadoop
MapReduce
中,我有几个基本问题。 假设执行了100个映射器和零减速器。它会生成100个文件吗?所有的人都被
分类
了?所有映射器输出都排序了吗?在
MapReduce
中有保证排序的地方吗?
浏览 1
修改于2015-07-16
得票数 3
回答已采纳
1
回答
使用
MapReduce
将PDF转换为
文本
。
我正在尝试使用
Mapreduce
将PDF转换为
文本
。请指导我如何使用
Mapreduce
执行PDF。
浏览 0
修改于2017-08-18
得票数 0
2
回答
带有“自定义”键的
MapReduce
关键是一些id和值--一些
文本
。我的目标是将这些对象分组到
文本
片段在某种程度上“相似”的集群中。因此,如果将我的
文本
片段作为键,将id作为值,那么它看起来就像是
MapReduce
的任务。但这样的键不是传统的
MapReduce
使用方式,而且我并不真正了解MapReduces框架的内部实现,所以我不确定这种方式是否有效。所以我的详细想法是: 1.在Java中使用一些
MapReduce
(Hadoop,GridGain) 2.为我的
文本
片段创建特殊的类(比如TextKey)
浏览 1
提问于2012-08-04
得票数 1
1
回答
读取ORC文件的
Mapreduce
示例
我创建了一个
mapreduce
代码来分析一些文件。但有些文件是从Hive创建的,它们是ORC类型的。tks
浏览 0
提问于2015-08-26
得票数 1
1
回答
如何在python中实现大数据集的朴素贝叶斯
分类
器
我使用(nltk)朴素贝叶斯
分类
器,将数据用作训练数据。当我为小数据集运行代码时,它运行得很好,但当我为大型数据集运行时,它运行了很长时间(超过8小时),然后崩溃,没有太多错误。此外,在对数据进行
分类
后,我希望将
分类
器转储到一个文件中,以便稍后可以将其用于测试数据。这个过程也需要太多时间,然后崩溃,因为它首先将所有内容加载到内存中。 有没有办法解决这个问题?另一个问题是,有没有办法将整个操作并行化,即使用Hadoop/
MapReduce
等框架来并行化这个大型数据集的
分类
?
浏览 1
提问于2014-11-06
得票数 0
1
回答
我需要一些Hadoop
Mapreduce
上的Kmean示例
我需要一些关于
MapReduce
进程集群的多个文件包含
文本
名称的Kmean的例子。之后,使用一个搜索程序在聚类输出上搜索
文本
。我是个新手。我想在
Mapreduce
上学习和使用Kmean。
浏览 1
修改于2014-08-14
得票数 0
1
回答
如何为简单的
mapreduce
作业指定BlobstoreOutputWriter的文件名?
如何或在何处为GAE
mapreduce
作业指定output_writer文件名和内容类型?下面的配置对我来说工作得很好,但每次我运行作业时,它都会用新的文件名创建一个新的blobstore条目。我希望能够在每次运行
mapreduce
作业时指定要覆盖/替换的文件名和内容类型。- name: Export a model input_reader:
mapreduce
.input_readers.Datas
浏览 0
提问于2011-10-10
得票数 0
回答已采纳
1
回答
在
MapReduce
中将文件分割成80%和20%的更好的建模和预测方法
我试图将我的HDFS文件分为2部分/文件,80%和 20% 用于
分类
算法(80%用于建模,20%用于预测),请给出建议。因此,我们需要编写1
MapReduce
作业来计算记录的数量,并使用多个输入将80%和20%分离为2个文件的2和
Mapreduce
作业。 我是在正确的轨道上,还是有任何替代同样的选择。
浏览 3
提问于2014-12-12
得票数 0
回答已采纳
1
回答
Hadoop Map Reduce读取
文本
文件
我正在尝试编写一个
MapReduce
程序,它可以读取输入文件并将输出写入另一个
文本
文件。为此,我计划使用BufferedReader类。但我真的不知道如何在
MapReduce
程序中使用它。附言:我对Hadoop和
MapReduce
编程完全陌生。所以请耐心听我说。 提前谢谢你。
浏览 0
提问于2014-10-06
得票数 12
回答已采纳
2
回答
MapReduce
用于确定
分类
帐中的贷方余额
我有一个交易
分类
账,其中的借方和信用交易是存储。我需要确定account : 121的信用余额。我找到了办法。只是,我不明白我所做的事情的一半,以及为什么这样做是可行的。return Array.sum(values);};d.out = {inline:1}; dummyTx.
mapReduce
(d, function (err, debit) {
浏览 3
提问于2015-05-09
得票数 1
回答已采纳
1
回答
我能在Rhadoop的
mapreduce
作业中使用readLines吗?
我试图从HDFS读取
文本
或gz文件并运行一个简单的
mapreduce
作业(实际上只是地图作业),但得到了错误,似乎readLines部分无法工作。我正在寻找是否可以在
mapreduce
中使用readLines函数的答案。ps。如果我只是使用readLines函数在
mapreduce
任务之外解析HDFS文件,这是没有问题的。谢谢。readLines(lines) keyval(
浏览 6
修改于2015-07-23
得票数 2
1
回答
使用
MapReduce
读/写二进制输入/输出文件的最佳方式是什么?
到目前为止,在我见过的所有示例中,
mapreduce
应用程序将
文本
文件作为输入,并将
文本
作为输出。我正在用java编写应用程序。
浏览 0
提问于2011-09-13
得票数 2
2
回答
在大数据上使用lib线性进行语义分析
利用Libsvm对语义分析问题进行数据训练和
分类
预测。但由于语义分析涉及n维问题,因此在大规模数据方面存在性能问题. 去年,利伯线性发布了,它可以解决性能瓶颈。但它耗费了太多的记忆。
MapReduce
是解决大数据语义分析问题的唯一途径吗?或者还有其他方法可以改善Liblinear上的内存瓶颈?
浏览 0
修改于2014-05-17
得票数 17
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券