首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark2 mongodb连接器多态模式

Spark2 mongodb连接器多态模式
EN

Stack Overflow用户
提问于 2017-12-13 09:44:46
回答 1查看 44关注 0票数 0

我有一个集合col,包含

代码语言:javascript
复制
{
   '_id': ObjectId(...)
   'type': "a"
   'f1': data1
}

和我收藏的一样

代码语言:javascript
复制
{
   '_id': ObjectId(...)
   'f2': 222.234
   'type': "b"
}   

火花MongoDB连接器工作不太好。它在错误的字段中重新排序数据

例如:

代码语言:javascript
复制
{
   '_id': ObjectId(...)
   'type': "a"
   'f1': data1
}


{
   '_id': ObjectId(...)
   'f1': data2
   'type': "a"
}

Rdd将是:

代码语言:javascript
复制
------------------------
|  id  |  f1   | type  |
------------------------
| .... |  a    | data1 |
| .... | data2 | a     |
------------------------

是否有使用多态模式的建议?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-12-13 13:15:24

是否有使用多态模式的建议?

(意见提醒)最好的建议是从一开始就不要有。从长期来看,这是不可能的,非常容易出错,并且需要在客户端进行复杂的补偿。

如果你有一个,怎么办?

  • 您可以尝试使用聚合框架$project对数据进行消毒,然后再将数据取到Spark。例如,请参见文档的聚集段
  • 不要试图将其与结构化格式相结合。使用RDDs,以普通Python dict的形式获取数据,并手动处理问题。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47789864

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档