文章/答案/技术大牛

发布

社区首页 >问答首页 >利用Apache-Spark分析时间序列

问利用Apache-Spark分析时间序列
EN

Stack Overflow用户

提问于 2015-11-16 05:23:08

回答 2查看 1.2K关注 0票数 4

我有很大的时间序列数据，数据格式是：(arrival_time，键，值)，时间单位是秒，例如：

0.01, k, v
0.03, k, v
....
1.00, k, v
1.10, k, v
1.20, k, v
1.99, k, v
2.00, k, v
...

我需要做的是获取整个数据每秒的行数。到目前为止，我使用的是pySpark，我的代码如下：

linePerSec = []
lo = rdd.take(1)[0]
hi = lo + 1.0
end = rdd.collect()[-1][0]
while(hi < end):
     number = rdd.filter(lambda (t, k, v): t >= lo and t < hi).count()
     linePerSec.append(number)
     lo = hi
     hi = lo + 1.0

但是它非常慢，甚至比在for循环中逐行遍历数据还要慢。我猜这是因为rdd.filter()遍历整个rdd以找到符合过滤器条件的行。但是对于时间序列，我们不需要在我的代码中的hi边界之后遍历数据。在我的情况下，有什么办法让火花停止通过rdd吗？谢谢!

pyspark

python

apache-spark

time-series

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-11-16 08:40:13

首先，让我们创建一些虚拟数据：

rdd = sc.parallelize(
    [(0.01, "k", "v"),
    (0.03, "k", "v"),
    (1.00, "k", "v"),
    (1.10, "k", "v"),
    (1.20, "k", "v"),
    (1.99, "k", "v"),
    (2.00, "k", "v"),
    (3.10, "k", "v"),
    (4.50, "k", "v")])

从RDD中提取时间域：

def get_time(x):
    (start, _, _) = x
    return start

times = rdd.map(get_time)

接下来，我们需要从时间到键的函数映射：

def get_key_(start):
    offset = start - int(start)
    def get_key(x):
        w = int(x) + offset
        return w if x >= w else int(x - 1) + offset
    return get_key

找出最小和最大的时间

start = times.takeOrdered(1)[0]
end = times.top(1)[0]

生成一个实际的键函数：

get_key = get_key_(start)

计算平均值

from operator import add

total = (times
  .map(lambda x: (get_key(x), 1))
  .reduceByKey(add)
  .values()
  .sum())

time_range = get_key(end) - get_key(start) + 1.0

mean = total / time_range

mean
## 1.8

快速检查：

[0.01，1.01]：3
[1.01，2.01)：4
[2.01，3.01)：0
[3.01，4.01)：1
[4.01，5.01]：1

它给出9/5= 1.8

数据帧等效可以如下所示：

from pyspark.sql.functions import count, col, sum, lit, min, max

# Select only arrival times
arrivals = df.select("arrival_time")

# This is almost identical as before
start = df.agg(min("arrival_time")).first()[0]
end = df.agg(max("arrival_time")).first()[0]

get_key = get_key_(start)
time_range = get_key(end) - get_key(start) + 1.0

# But we'll need offset as well
offset = start - int(start)

# and define a bucket column
bucket = (col("arrival_time") - offset).cast("integer") + offset

line_per_sec = (df
    .groupBy(bucket)
    .agg(count("*").alias("cnt"))
    .agg((sum("cnt") / lit(time_range)).alias("mean")))

line_per_sec.show()

 ## +----+
 ## |mean|
 ## +----+
 ## | 1.8|
 ## +----+

请注意，这与Nhor提供的Nhor非常相似，有两个主要区别：

使用与代码相同的启动逻辑。
正确处理空间隔

票数 3

Stack Overflow用户

发布于 2015-11-16 07:50:00

我要做的是第一次给出时间值：

from pyspark.sql.functions import *
df = df.select(floor(col('arrival_time')).alias('arrival_time'))

现在，您的arrival_time已被删除，并且您已经准备好在每秒钟中计算行数：

df = df.groupBy(col('arrival_time')).count()

现在，当您计算了每秒钟的行数后，您可以得到所有的行，并将它们的和除以计数，得到每秒的平均行数：

lines_sum = df.select(sum(col('count')).alias('lines_sum')).first().lines_sum
seconds_sum = df.select(count(col('arrival_time')).alias('seconds_sum')).first().seconds_sum
result = lines_sum / seconds_sum

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33728994

复制

相似问题

问利用Apache-Spark分析时间序列
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用Apache-Spark分析时间序列EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用Apache-Spark分析时间序列
EN