其输入数据由Hadoop TeraGen示例程序生成。
TeraGen源码中数据量说明注释如下: /** * Generate the official GraySort input data set. * *
* To run the program: * bin/hadoop jar hadoop-*-examples.jar teragen 10000000000
teragen: Generate data for the terasort terasort: Run the terasort teravalidate: Checking results
teragen: Generate data for the terasort terasort: Run the terasort teravalidate: Checking results
span>HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen
业务应用程度是属于什么类型的工作负载,通常是CPU密集型,I/O密集型,或者网络密集型,与一些基准测试的应用程序可以进行对应,比如TeraGen, TeraSort, TeraValidate, 或BigBench 而TeraGen或者TeraValidate则不需要大量的临时数据空间。所以不同的应用程序或者工作负载对于临时数据空间要求不一样,我们在Hadoop集群规划前要提前做好规划。 有很多种“预热磁盘”(warming up the disks)的方法,从执行零填充(zero-filling)磁盘的自定义脚本到运行磁盘写入I/O密集型应用程序(比如TeraGen)都可以。
TeraSort:输入数据由hadoop teragen产生,通过key值进行排序。
一个完整的TeraSort测试需要按以下三步执行: 用TeraGen生成随机数据 对输入数据运行TeraSort 用TeraValidate验证排好序的输出数据 所有hibench测试基本都是这样的流程
sort: A map/reduce program that sorts the data written by the random writer. sudoku: A sudoku solver. teragen
sort: A map/reduce program that sorts the data written by the random writer. sudoku: A sudoku solver. teragen
teragen: Generate data for the terasort terasort: Run the terasort teravalidate: Checking results