首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CSDN技术头条

    Cloud Dataproc已完成测试,谷歌云平台生态更加完善

    去年9月份,谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本,如今半年过去了,Cloud Dataproc服务已完成测试,现在可以被广泛使用。 谷歌在旧金山的一次活动 谷歌在今年2月22日宣布,他们的Cloud Dataproc服务——一个全面的管理工具,基于Hadoop和Spark的开源大数据软件,现在可以被广泛使用。 谷歌产品经理James Malone在博客中写道: 在测试中,Cloud Dataproc 添加了几个重要的特性包括性能调优,VM元数据和标签,以及集群版本管理等。 现在,谷歌Cloud Dataproc可供任何人使用,每个虚拟处理器一小时仅需要一美分。 原文链接:Google launches Cloud Dataproc service out of beta(编辑/陈晨 审校/魏伟) CSDN原创翻译文章,禁止转载。

    1.1K50发布于 2018-02-11
  • 来自专栏ApacheHudi

    基于Apache Hudi在Google云平台构建数据湖

    现在,由于我们正在 Google Cloud 上构建解决方案,因此最好的方法是使用 Google Cloud Dataproc[5]。 Google Cloud Dataproc 是一种托管服务,用于处理大型数据集,例如大数据计划中使用的数据集。 Dataproc 是 Google 的公共云产品 Google Cloud Platform 的一部分, Dataproc 帮助用户处理、转换和理解大量数据。 在 Google Dataproc 实例中,预装了 Spark 和所有必需的库。 : https://cloud.google.com/dataproc [6] Debezium: https://debezium.io/ [7] Kafka: https://kafka.apache.org

    2.6K10编辑于 2022-04-01
  • 来自专栏实时计算

    Parquet

    Apache Parquet最适合与AWS Athena,Amazon Redshift Spectrum,Google BigQuery和Google Dataproc等交互式和无服务器技术配合使用。 Google Dataproc收费是基于时间的。 Parquet帮助其用户将大型数据集的存储需求减少了至少三分之一,此外,它大大缩短了扫描和反序列化时间,从而降低了总体成本。

    1.7K20发布于 2020-08-11
  • 来自专栏机器之心

    没有三年实战经验,我是如何在谷歌云专业数据工程师认证中通关的

    在此之前,将由Google Cloud从业者讲授如何使用Google BigQuery、Cloud Dataproc、Dataflow和Bigtable等不同的项目。 Guru或Google Cloud Practice考试中(预计) • 出现一个有数据点图表的问题,你需要用公式对它们进行聚类(例如cos(X) 或 X²+Y²) • 必须了解Dataflow、Dataproc 了解一些基本的SQL查询语法非常有用,特别是对于BigQuery问题而言 • Linux Academy和GCP提供的练习考试与考试的真题非常相似,我会做大量模拟练习,找到自己的短板 • 帮助记忆Dataproc 的打油诗:「Dataproc the croc and Hadoop the elephant plan to Spark a fire and cook a Hive of Pigs」 • 「Dataflow

    4.9K50发布于 2019-05-17
  • 来自专栏嵌入式技术笔记

    demo代码目录整理

    demo_code/qtCode/opencv_video tcp客户端 /demo_code/qtCode/tcp_client CPP代码 代码名称 路径 cpp消息处理框架 /demo_code/cpp/dataProc

    1.1K20发布于 2021-05-31
  • 来自专栏伪架构师

    (译)Google 发布 Kubernetes Operator for Spark

    他提供 Databricks 平台的支持,可用于内部部署的或者公有云的 Hadoop 服务,例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc

    1.6K10发布于 2019-07-23
  • 来自专栏Flink实战应用指南

    [AI新知] Google的AI平台笔记本开始支援R语言

    并预安装JupyterLab、IRkernel、xgboost、ggplot2、caret、rpy2以及其他热门的R函式库,而且AI平台笔记本也与Google的其他服务包括BigQuery、Cloud Dataproc

    84140发布于 2019-06-21
  • 来自专栏大数据-BigData

    Flink与Spark读写parquet文件全解析

    Apache Parquet 最适用于交互式和无服务器技术,如 AWS Athena、Amazon Redshift Spectrum、Google BigQuery 和 Google Dataproc Google Dataproc 收费是基于时间的。 Parquet 帮助其用户将大型数据集的存储需求减少了至少三分之一,此外,它还大大缩短了扫描和反序列化时间,从而降低了总体成本。

    6.9K74编辑于 2022-01-27
  • 来自专栏一臻数据

    当Doris遇上Iceberg:一个数据工程师の自我救赎

    Apache Doris 对 Iceberg 多项核心特性提供了原生支持: 支持 Hive Metastore、Hadoop、REST、Glue、Google Dataproc Metastore、DLF 支持增删改字段,分区方式调整等操作 数据版本管理:通过Iceberg快照机制,可以回溯任意时间点的数据状态 统一目录服务:支持 Hive Metastore、Hadoop、REST、Glue、Google Dataproc

    86810编辑于 2024-12-24
  • 来自专栏CNCF

    成员网研会:Flink操作器 = Beam-on-Flink-on-K8s(视频+PDF)

    最近,谷歌的云Dataproc团队接受了在基于Kubernetes的集群的Flink runner上运行Apache Beam的挑战。

    1.1K20发布于 2020-02-20
  • 来自专栏大数据文摘

    Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)

    用Google Cloud Dataproc(谷歌云数据处理)管理服务可以很容易地部署一个Spark集群。 Dataproc Spark集群利用谷歌云存储(Google Cloud Storage, GCS)作为分布式文件系统而非通常默认使用的HDFS。 我的探索性分析核(Kernel)介绍了如何用Python,Spark SQL和Jupyter Notebook在谷歌Dataproc平台上分析竞赛提供的最大的数据集。 根据核下面的评论,我发现许多参赛者都在考虑在机器学习竞赛中使用谷歌Dataproc和Spark。 在下面的代码片段,你会看到这种分层抽样可以很简单的通过Spark SQL Dataframe实现(Spark集群是部署在Google Dataproc上面的)。

    1.4K30发布于 2018-05-24
  • 来自专栏锅总

    锅总详解开源组织之ASF

    Apache Spark:Google Cloud提供了Dataproc,一个托管的Apache Spark和Hadoop服务。 Apache Hadoop:Google Cloud的Dataproc也支持Hadoop,用于处理大规模数据集。 例如,AWS的Amazon MSK、Google Cloud的Dataproc、Azure的HDInsight等,都是基于ASF项目的托管服务,用户需要为这些服务的使用支付费用。

    1.1K10编辑于 2024-07-29
  • 来自专栏企鹅号快讯

    机器学习人工学weekly-12/24/2017

    的一系列跟大数据相关的一系列产品,其实除非是做纯研究,否则要让产品落地的话整个数据链的pipeline非常非常重要,不是打广告,Google这些产品还都挺有用的: Cloud Dataprep - 洗数据用的 Cloud Dataproc

    96750发布于 2018-01-29
  • 来自专栏深度学习与python

    谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

    Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。

    2.3K20编辑于 2023-09-08
  • 来自专栏机器学习人工学weekly

    机器学习人工学weekly-12/24/2017

    的一系列跟大数据相关的一系列产品,其实除非是做纯研究,否则要让产品落地的话整个数据链的pipeline非常非常重要,不是打广告,Google这些产品还都挺有用的: Cloud Dataprep - 洗数据用的 Cloud Dataproc

    1.1K90发布于 2018-03-07
  • 来自专栏IT技术订阅

    Google BigQuery 介绍及实践指南

    集成与兼容性 可以与 Google Cloud 其他服务无缝集成,如 Dataflow、Dataproc、Data Studio 和 Looker 等。

    3.8K10编辑于 2024-11-23
  • 来自专栏镁客网

    解析:云服务市场狼烟遍地,谷歌拥有几分战力?

    作为云服务的重要竞争点之一,谷歌推出了云Dataproc等服务; 云服务+开源。比如谷歌将Kubernetes 以及TensorFlow在内的相关公有云技术对用户公开。

    87320发布于 2018-05-28
  • 来自专栏AI科技大本营的专栏

    重磅!Facebook更新PyTorch 1.1,打算跨GPU分割神经网络

    它还与 BigQuery、Cloud Dataproc、Cloud Dataflow 和 AI Factory 等 GCP 服务紧密集成,可以在不离开 JupyterLab 的情况下轻松执行完整的机器学习构建

    97110发布于 2019-05-14
  • 来自专栏深度学习与python

    优步使用谷歌云平台实现大数据基础设施的现代化

    在此阶段之后,优步工程团队,计划逐步采用 GCP 的平台即服务(PaaS)产品,如 Dataproc 和 BigQuery,以充分利用云原生服务的弹性和性能优势。

    83010编辑于 2024-07-12
  • 来自专栏大数据成神之路

    2019年,Hadoop到底是怎么了?

    而且,Spark 框架从 Hadoop 剥离后,可以用在AWS EMR、Google Cloud Dataproc和 Azure HDInsights上,开发者可以直接把现有的 Spark 应用程序直接迁移到完全托管服务的云上 我们也可以将现有的 Hadoop 负载迁移到云,如 EMR 或 Dataproc,利用云的可扩展性和成本优势,来开发可在不同云服务上进行移植的软件。

    2.3K10发布于 2019-07-09
领券