文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark2 mongodb连接器多态模式

问Spark2 mongodb连接器多态模式
EN

Stack Overflow用户

提问于 2017-12-13 09:44:46

回答 1查看 44关注 0票数 0

我有一个集合col，包含

{
   '_id': ObjectId(...)
   'type': "a"
   'f1': data1
}

和我收藏的一样

{
   '_id': ObjectId(...)
   'f2': 222.234
   'type': "b"
}

火花MongoDB连接器工作不太好。它在错误的字段中重新排序数据

例如：

{
   '_id': ObjectId(...)
   'type': "a"
   'f1': data1
}


{
   '_id': ObjectId(...)
   'f1': data2
   'type': "a"
}

Rdd将是：

------------------------
|  id  |  f1   | type  |
------------------------
| .... |  a    | data1 |
| .... | data2 | a     |
------------------------

是否有使用多态模式的建议？

mongodb

apache-spark

pyspark

spark-dataframe

apache-spark-2.0

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-12-13 13:15:24

是否有使用多态模式的建议？

(意见提醒)最好的建议是从一开始就不要有。从长期来看，这是不可能的，非常容易出错，并且需要在客户端进行复杂的补偿。

如果你有一个，怎么办？

您可以尝试使用聚合框架和$project对数据进行消毒，然后再将数据取到Spark。例如，请参见文档的聚集段。
不要试图将其与结构化格式相结合。使用RDDs，以普通Python dict的形式获取数据，并手动处理问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47789864

复制

相似问题

问Spark2 mongodb连接器多态模式
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark2 mongodb连接器多态模式EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark2 mongodb连接器多态模式
EN