我正在尝试将数据从mysql导入到pyspark。我能够将数据从mysql作为数据框架从pyspark获取。但是数据帧显示了daylightsavings时间内时间戳列的错误时间。
下面是一个表的数据,该表在日光节省tTme期间获得了数据。
MySQL Data
id Package_time System_time PACKAGE GROUP
1 3/12/2017 2:19:51 AM 2017-03-11 18:13:43.577 TEST_1 STATUS
2 3/12/2017 2:19:53 AM 2017-03-11 18:13:43.577 TEST_1 ALARM
3 3/12/2017 2:19:53 AM 2017-03-11 18:13:43.577 TEST_1 ALARM
4 3/12/2017 2:19:53 AM 2017-03-11 18:13:43.577 TEST_1 ALARM
5 3/12/2017 2:19:54 AM 2017-03-11 18:13:44.611 TEST_1 STATUS PySpark data
id Package_time System_time PACKAGE GROUP
1 3/12/2017 3:19:51 AM 2017-03-11 18:13:43.577 TEST_1 STATUS
2 3/12/2017 3:19:53 AM 2017-03-11 18:13:43.577 TEST_1 ALARM
3 3/12/2017 3:19:53 AM 2017-03-11 18:13:43.577 TEST_1 ALARM
4 3/12/2017 3:19:53 AM 2017-03-11 18:13:43.577 TEST_1 ALARM
5 3/12/2017 3:19:54 AM 2017-03-11 18:13:44.611 TEST_1 STATUS我希望pyspark数据框架的数据与mysql表中的数据相同。我怎样才能达到我的目标。
我需要做哪些更改来确保两个数据是相同的。
列的数据类型:
id int
package_time timestamp
system_time timestamp
package string
group strimg发布于 2017-11-27 19:46:47
啊哈!您有用于日期标记值的TIMESTAMP数据类型。这些存储在UTC中的数据库中。根据检索时的当前时区设置,将它们转换为本地时间。
在运行查询之前,可以使用此SQL命令在UTC中获取它们。
SET time_zone='UTC';如果您希望所有的数据存储都显示在太平洋本地时间,同时考虑到夏时制,您可以使用以下方法:
SET time_zone = 'America/Vancouver';如果您希望您的所有数据存储在太平洋标准时,而不考虑夏时制,您可以使用以下方法:
SET time_zone='-08:00';https://stackoverflow.com/questions/47518199
复制相似问题