首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >作为一名数据科学家,哪一个云平台能使我的影响力最大化?

作为一名数据科学家,哪一个云平台能使我的影响力最大化?
EN

Data Science用户
提问于 2018-04-05 16:18:36
回答 1查看 63关注 0票数 1

我希望学习知识/软件技能,逐步成为一名端到端的深度学习工程师。我的意思是自己处理以下问题:

  1. 在低延迟状态下预处理大数据
  2. 海量数据深度学习模型的设计与训练
  3. 部署模型,为大规模的预测服务
  4. 流/预处理输入数据以实时更新模型

你会选择哪个云平台来做这个?

  • GCP:允许我用最小的工作量(无服务器模型托管、模型版本控制等)来完成上面的工作,但是,它将我与tensorflow联系在一起(我是MXNet的粉丝)。看来我需要拿起阿帕奇光束进行分布式数据预处理..。
  • AWS:最大的灵活性,但看起来不那么干净。似乎更适合于一个由5名专家组成的小组来实现上述目标。

你会选择什么软件?

  • 我基本上是在寻找最小数量的东西,以产生最大的影响。
  • 目前,我大部分时间都在使用python + MXNet + EC2,并且对(2)很满意。
EN

回答 1

Data Science用户

发布于 2018-04-05 17:11:50

我的经验是,从本地建模过渡到大规模分布式编程要比大多数数据科学家意识到的要多,除了数据工程之外,几乎没有什么空间,就像@Emre上面所说的那样。

如果您正在使用GCP或AWS VM自行开发基础设施(例如,spark),那么安装和维护就需要做大量工作。如果您运行的是多租户系统和/或支持生产作业,则这是双重事实。你会不断地试图解决‘为什么我的工作没有运行?’或者“为什么我的工作要花14天才能完成?”问题。

如果您正在将内置的数据科学基础设施应用于这些系统(红移、雅典娜、ElasticSearch等),您可以节省一些时间,但管理起来仍然是非常重要的。每年,数据科学家最喜欢的工具总是包括Databricks或类似工具,这是有原因的--因为管理这些东西是件痛苦的事,需要一个与实际建模完全不同的技能集。

话虽如此,我有两点建议。首先,AWS比GCP更成熟,有更多的社区解决方案可以帮助克服障碍。您将遇到其IAM系统的问题(IAM系统成为负责任的大数据工程的必要邪恶),其各种产品(例如lambda,只运行<300万脚本)的古怪之处,但总的来说,您想要做的每件事都已经被其他人完成并记录下来了。这是更好的选择,海事组织。

但是,我建议您仔细看看像Qubole或Databricks这样的托管平台(我都不为这两个平台工作)。我建立并维护了一个Qubole / AWS环境超过一年。我学到了大量关于数据工程、体系结构、弹性火花基础设施以及分布式计算的所有细微之处/缺陷/限制,它们在死记硬背的文档中没有告诉您,但仍然能够维护一个正常运行的系统。我的用例不包括深入学习,但他们可以,通过我转动几个旋钮。

然后,一旦您从这些工作环境中吸取了经验教训,您就可以设计、部署和支持您自己的大数据基础设施到您的核心内容(现在这将是您的全职工作)。希望这能帮上忙。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/29950

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档