我对Hadoop和Pig很陌生。
我用3个节点建立了Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数。
当我用3600万条记录执行4.8G文件时,pig将在51分钟内输出。
当我用7200万条记录执行9.6G文件时,pig脚本崩溃了,Hadoop给出了以下错误。
我使用Hadoop2.2.0和Pig0.12.0。
我的节点配置是
主处理器:2 CPU,2 GB内存Slave1: 2 CPU,2 GB内存Slave2: 1 CPU,2 GB内存
请你在这方面给我提个建议好吗?
发布于 2014-01-20 06:44:50
在试过猪的东西之后。我搬到蜂巢了。
我用猪的时候观察到的:
我在HDFS中上传文件,并在Pig中加载它。所以猪又在装那个文件了。我处理了两次文件。
对于我的场景蜂巢符合。我正在HDFS中上传文件,并在Hive中加载该文件。它只需几毫秒。因为Hive正在无缝地处理HDFS文件。因此,不需要再次在Hive表中加载数据。这节省了很多时间。
这两个组件都很好,对我来说,蜂巢适合。
谢谢你的时间和建议。
https://stackoverflow.com/questions/21187927
复制相似问题