我从MongoDB (4.0).After的BSON文件转储创建了一个蜂窝(3.1.2)表。创建该表时,我从表中选择了几个条目。但是,它们中的一些值为空。
我尝试使用python打印来自BSON的表行。它打印的值是正确的。表示没有丢失的值。有关于如何进一步解决问题的线索吗?
用于创建配置单元表的SQL。
CREATE EXTERNAL TABLE `tmp_test_status`(
`id` string COMMENT 'frame_id',
`createdAt` INT,
`updatedAt` string,
`task` string)
row format serde 'com.mongodb.hadoop.hive.BSONSerDe'
with serdeproperties('mongo.columns.mapping'='{"id":"_id"}')
stored as inputformat 'com.mongodb.hadoop.mapred.BSONFileInputFormat'
outputformat 'com.mongodb.hadoop.hive.output.HiveBSONFileOutputFormat'
LOCATION
'oss://data-warehouse/hive/warehouse/data.db/tmp_test_status';===
我用python bson lib打印的数据。
{'_id': '00003a02-280d-4e59-8483-a0143e0a3359', 'createdAt': '1557999191951', 'updatedAt': '1557999191951', 'task': 'lane', '__v': 0}===
我从Hive表中选择的数据:
00003a02-280d-4e59-8483-a0143e0a3359 NULL NULL lane
093e72ae-206b-4112-ac28-5ba38f9485d0 NULL NULL lane
093ebe41-183c-47b4-ab25-93336875ae10 NULL NULL lane
093ec16b-ba1d-4ddc-90bc-9981342e8071 NULL NULL lane发布于 2019-06-11 02:39:38
我自己找到了答案,原因是BSON文件属性名区分大小写,而Hive不区分大小写。如果属性名称在BSON文件中包含大写,那么当query.Simply通过我工作的表属性映射属性名称时,配置单元将返回NULL。
with serdeproperties('mongo.columns.mapping'='{"id":"_id", "createdAt": "createdAt", "updatedAt": "updatedAt", "reLabeled1" : "reLabeled1", "isValid": "isValid"}')https://stackoverflow.com/questions/56353262
复制相似问题