问用DataStage (8.5)分割文件
EN

Stack Overflow用户

提问于 2014-06-17 14:17:46

回答 1查看 2.5K关注 0票数 1

我有一个作业，它成功地产生了一个具有大约数亿行的顺序文件(CSV)输出，有人能提供一个示例，将输出写到100个单独的序列文件中，每个文件都有100万行吗？

顺序文件阶段是什么样子的，它是如何配置的？

这最终允许QA检查任何一个单独的输出，而不需要一个可以查看大型文本文件的特殊文本编辑器。

datastage

large-data

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-08 15:25:27

基于@ Llama先生的建议和缺乏即将出现的解决方案，我们决定在预定的DataStage事件结束时执行一个简单的脚本。

#!/bin/bash
# usage:
# sh ./[script] [input]

# check for input:
if [ ! $# == 1 ]; then
  echo "No input file provided."
  exit
fi

# directory for output:
mkdir split

# header without content:
head -n 1 $1 > header.csv

# content without header:
tail +2 $1 > content.csv

# split content into 100000 record files:
split -l 100000 content.csv split/data_

# loop through the new split files, adding the header
# and a '.csv' extension:
for f in split/*; do cat header.csv $f > $f.csv; rm $f; done;

# remove the temporary files:
rm header.csv
rm content.csv

但在这种情况下为我们工作。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24266216

复制

相似问题

问用DataStage (8.5)分割文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用DataStage (8.5)分割文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用DataStage (8.5)分割文件
EN