首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >解析访问日志数据以适应DB格式

解析访问日志数据以适应DB格式
EN

Stack Overflow用户
提问于 2013-11-10 19:51:35
回答 1查看 105关注 0票数 0

我有一个web访问CSV文件,其中包含一些统计数据,如下所示(通常约为20,000条记录,但这是一个仅包含6条记录的示例):

代码语言:javascript
复制
servlet name, HTTP RC, response time, request timestamp
/servlet_A,200,3,[10/Nov/2013:11:00:12 +0000]
/servlet_B,302,10,[10/Nov/2013:11:00:12 +0000]
/servlet_C,200,17,[10/Nov/2013:11:00:12 +0000]
/servlet_A,200,30,[10/Nov/2013:11:00:15 +0000]
/servlet_B,302,16,[10/Nov/2013:11:00:15 +0000]
/servlet_C,200,11,[10/Nov/2013:11:00:15 +0000]

我需要将其解析为以下格式:

代码语言:javascript
复制
servlet name, requests count with latency in range 0-5, latency range 6-10, latency range 11-15, ...., latency range 196-200, HTTP 200 count, HTTP 302 count
servlet_A,1,0,0,0,0,1,0,....,2,0
servlet_B,0,1,0,1,0,0,0,....,0,2
servlet_C,0,0,1,1,0,0,0,....,2,0

这些文件位于基于CentOS的服务器上,使用Perl、Python、Bash等工具。输出文件将用于加载到第三方MySQL数据库,我没有访问权限。

我试着用bash写这个,但我的数学有点差,我试着用除以5来放置延迟计数,例如延迟= 11和11 /5= 2.2,然后向上舍入。这意味着应该将增量1添加到第三个点,但我在正确解析它时遇到了问题。

也许还有其他的选择(使用本地构建的DB并导出文件)或者一些我现在知道的其他选择,所以任何帮助都是非常感谢的!

EN

回答 1

Stack Overflow用户

发布于 2013-11-10 21:43:54

这对于一次性的数据转换来说是快速而丑陋的,并且没有遵循任何良好编码实践的约定:-)。假设您的数据是data.txt格式的。不输出任何标头。

代码语言:javascript
复制
#! /usr/bin/perl

# Sub-program to calculate latency counts for number range
# params: key, latency lower limit, latency upper limit
sub latencyCounts {
  $latency_total = 0;
  for ($i = $_[1]; $i <= $_[2]; $i++) {
    $latency_total += $latency_counts{$_[0]}[$i];  
  }
  return $latency_total;
}

# parse file and add data to arrays
open (FOO, "< data.txt");
while (<FOO>) {
  chomp;
  if (/^\/(.+),(\d{3}),(\d+),\[.+\]$/) {
    $httpcode_counts{$1}[$2]++;
    $latency_counts{$1}[$3]++;
  }
}
close (FOO);

# calculate and output totals
foreach (sort keys %httpcode_counts) {
  $key = $_;
  printf ("%s,%d,%d,%d,%d,...,%d,%d\n",
      $key,
      latencyCounts($key, 0, 5),
      latencyCounts($key, 6, 10),
      latencyCounts($key, 11, 195),
      latencyCounts($key, 196, 200),
      $httpcode_counts{$key}[200],
      $httpcode_counts{$key}[302]);
}

exit;

有人可能用不到一半的代码就能得到同样的结果……?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19889380

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档