文章/答案/技术大牛

发布

社区首页 >问答首页 >瘤胃的样本输出或Gridmix的样本输入

问瘤胃的样本输出或Gridmix的样本输入
EN

Stack Overflow用户

提问于 2018-03-31 01:35:24

回答 1查看 142关注 0票数 3

我对Hadoop这样的大数据工具的使用非常陌生。我想在纱线模拟器上执行公开可用的集群跟踪(https://github.com/google/cluster-data)。

一种方法是通过Gridmix向Yarn提供输入。

Gridmix (https://hadoop.apache.org/docs/r2.8.3/hadoop-gridmix/GridMix.html)接受输入的格式基本上是来自瘤胃的输出。而Rumen (https://hadoop.apache.org/docs/r2.8.3/hadoop-rumen/Rumen.html)则将map-reduce集群生成的JobHistory日志作为输入。

google跟踪不是map-reduce跟踪。但是，我想知道是否可以将它转换为与Grdimix作为输入的格式相同的格式，这样我就可以使用Grdmix了。

有没有人能告诉我Gridmix的输入格式(或者瘤胃的输出)？

或者建议我用另一种方法来做我想做的事？

谢谢。

hadoop

mapreduce

回答 1

Stack Overflow用户

发布于 2019-03-07 16:53:07

Rumen的输出包含两个文件: 1.作业跟踪文件，2.集群拓扑文件；

这两个文件都是json格式，作业跟踪文件格式如下：

{
  "jobID" : "job_1546949851050_53464",
  "user" : "mammut",
  "computonsPerMapInputByte" : -1,
  "computonsPerMapOutputByte" : -1,
  "computonsPerReduceInputByte" : -1,
  "computonsPerReduceOutputByte" : -1,
  "submitTime" : 1551801585141,
  "launchTime" : 1551801594958,
  "finishTime" : 1551801630228,
  "heapMegabytes" : 200,
  "totalMaps" : 2,
  "totalReduces" : 1,
  "outcome" : "SUCCESS",
  "jobtype" : "JAVA",
  "priority" : "NORMAL",
  "directDependantJobs" : [ ],
  "mapTasks" : [ {
    "inputBytes" : 25599927,
    ...}]
  ...
}

并且，集群拓扑如下：

{
  "name" : "<root>",
  "children" : [ {
    "name" : "rack-01",
    "children" : [ {
      "name" : "",
      "children" : null
    }, {
      "name" : "",
      "children" : null
    }, {
      "name" : "",
      "children" : null
    } ]
  }, {
    "name" : "default-rack",
    "children" : [ {
      "name" : "x",
      "children" : null
    } ]
  } ]
}

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49578816

复制

相似问题

问瘤胃的样本输出或Gridmix的样本输入
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问瘤胃的样本输出或Gridmix的样本输入EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问瘤胃的样本输出或Gridmix的样本输入
EN