搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何通过Hudi CLI更改Hudi表版本

如何通过Hudi更改表版本？ at org.apache.hudi.common.table.HoodieTableVersion.lambda(HoodieTable

浏览 32提问于2022-03-02得票数 0

1回答

运行Apache Hudi deltastreamer时出错

我正在尝试在AWS EMR上运行Hudi deltastreamer。按照此博客中的步骤操作。key=HUDI 但是当我运行下面的spark提交时，错误出现了： Exception in thread "main" org.apache.hudi.com.beust.jcommander.ParameterException_2.11:2.4.4 \ --master yarn --deploy-mode client /usr/lib/hudi/hu

浏览 114修改于2020-05-31得票数 2

1回答

Dataproc上的Apache Hudi

org.apache.spark.sql.hudi.HoodieSparkSessionExtension._jvm.org.apache.hudi.QuickstartUtils.DataGenerator()我使用了错误的.jar.在创建表和hudi.options之后： 22/12/01 22:26:04 WARN org.apache.hudi.common.config.DFSPropertiesConfiguration:Cannot find HUDI_CON

浏览 30修改于2022-12-01得票数 2

回答已采纳

1回答

Hudi支持‘update’操作？

我有一个异常，当更新记录与火花sql为hudi如下。(HoodieAvroUtils.java:503) at org.apache.hudi.HoodieSparkSqlWriter$.: hudi -scamk3.2-bundle_2.12-0.12.0. jar我把hudi罐子放在火花源下的罐子里。=org.apache.spark.sql.

浏览 10提问于2022-10-17得票数 0

1回答

Hudi分区和upsert不工作

这个配置中的错误是什么，分区键在HUDI中不起作用，并且在执行upsert时，hudi数据集中的所有记录都会更新。所以不能从表中提取增量。: 'hudi_db','hoodie.datasource.hive_sync.enable': 'true', 'path': 's3:/

浏览 50提问于2021-08-29得票数 1

1回答

通过apache livy执行hudi* delta streamer作业*

spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.5.3,org.apache.spark:spark-avro_conf spark.sql.shuffle.partitions=100 \ --class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer\ --table-type MERGE_ON

浏览 29修改于2021-10-13得票数 0

2回答

安装Hudi版本。AWS EMR上的0.6.0

有人能帮助我在AWS EMR版本6.0.0上正确安装Hudi 0.6.0吗？我认为AWS添加了一些自定义脚本，以使Hudi在EMR中正常工作

浏览 71提问于2020-09-08得票数 0

2回答

Apache和Hudi:大量输出文件

我试图从许多不同的.csv文件中读取数据(所有文件都具有相同的“结构”)，使用Spark执行一些操作，最后以Hudi格式保存它们。要将数据存储在同一个Hudi表中，我认为最好的方法是在执行写操作时使用append方法。hudi_options = { 'hoodie.datasource.write.

浏览 2修改于2021-04-14得票数 2

回答已采纳

1回答

使用spark递增聚合hudi表值

我有一个火花流作业，每10秒加载一次apache hudi表中的数据。如果该行已经存在，它将更新hudi表中的行。实际上，它正在执行重新插入操作。但是，在hudi表中，有一个an列，该列也使用新值进行更新。hudi是否支持增量聚合，不使用外部缓存/db？

浏览 9提问于2022-07-13得票数 1

1回答

重复apache HUDI中的记录键

在某些情况下，HUDI似乎没有破坏记录。下面是我们使用的配置。我们通过customer_id对数据进行分区，因此我们的期望是HUDI将在分区内执行唯一性，即每个customer_id文件夹。对于两个重复的记录，_hoodie_record_key是相同的，但是_hoodie_file_name是不同的，这使我怀疑hudi不是在customer_id文件夹中，而是在这些单独的parquet文件中执行唯一性target-table: "some_table_name" source-ordering-field: &q

浏览 6提问于2022-04-27得票数 4

1回答

Hudi-Glue-与EMR集群集成

我希望在AWS中使用SCD2、Hudi和Glue来实现S3逻辑。有人能建议如何在没有电子病历的情况下实现吗？还有在AWS中安装/部署没有EMR的hudi的方法。谢谢

浏览 4提问于2022-04-08得票数 0

2回答

使用自定义格式的Apache Hudi分区

我目前正在使用spark(scala)在Apache Hudi上做一个POC。我在使用分区保存数据帧时遇到了一个问题。Hudi使用属性PARTITIONPATH_FIELD_OPT_KEY用path/valueOfPartitionCol1/valueOfPartitionCol2....保存数据帧。有没有试过用Hudi进行自定义分区的人可以帮我？

浏览 58修改于2020-05-31得票数 3

1回答

使用HUDI在TRINO上创建表的示例

我使用Spark Structured Streaming (3.1.1)从Kafka读取数据，并使用HUDI (0.8.0)作为S3上的存储系统，按日期对数据进行分区。作为一个预言家，我已经把hudi-presto-bundle-0.8.0.jar放在/data/trino/hive/里了CREATE TABLE table_new (CALL system.sync_partition_metadata('schema', 'table_new'

浏览 6修改于2022-01-06得票数 3

1回答

Hoodie (Hudi)预组合字段在NULL上失败

我为Hudi CDC编写的AWS Glue作业在一个预组合字段的列上失败了(请参阅下面的错误消息)。我已经验证了这个列上没有空值(它有一个后更新触发器和默认的NOW() set)。据我所知，Hudi只在DELETE操作上传输主键，而没有其他任何内容。为什么Hudi在DELETE操作中使用NULL值的预组合失败？我怎么才能解决这个问题？我错过了一个选择还是什么？中的任务2.0 (TID 264) executor.Executor (Logging.scala:logError(94))：阶段46.0中任务2.0中的异常(TID264) o

浏览 4修改于2022-06-06得票数 0

回答已采纳

1回答

使用即时时间读取星火数据源Hudi表

我正在使用Spark.read.format("hudi")阅读Hudi表Incremental

浏览 4修改于2021-03-10得票数 0

1回答

导入火花放电中的Hudi模块

如何在火花放电中导入hudi模块？%spark.pyspark import org.apache.hudi.DataSourceReadOptionsimport org.apache.hudi.config.HoodieWriteConfig 错误: ModuleNotFoundError:没有名为'org‘的模块

浏览 3提问于2021-10-12得票数 1

1回答

在Apache Hudi* - Glue作业中删除*

spark.sql("SELECT * FROM view_dyf_output where id in (select id from view_dyf where op like 'D')") o

浏览 159提问于2021-07-01得票数 0

1回答

使用hudi创建外部表配置单元的问题

我正在尝试使用apache hudi框架在hive metastore中创建一个外部文件。它能够与hive metastore连接，但在尝试创建表时，在连接后抛出异常。dataFrame.writeStream .option(HoodieWriteConfig.TABLE_NAME, tableName+= "org.apache.spark" %% "spark-streaming-kafka-0-10" % &quo

浏览 57提问于2021-03-19得票数 0

1回答

最后/最后一次提交:使用pyspark获得hudi的最新提交

我每小时都使用spark hudi进行增量查询，每次都将增量查询的开始和结束时间保存在db(例如mysql)中。增量查询应该如下所示： 'hoodie.datasource.query.type': 'incremental',': hudi_end_commit但我不知道如何在pyspark(python)中找到hudi_end_commit。spark_session.read.forma

浏览 7提问于2022-05-16得票数 1

1回答

Apache Hudi* deltastreamer在线程" main“org.apache.hudi.com.beust.jcommander.ParameterException‘中抛出异常没有定义主参数*

版本Apache Hudi 0.6.1，Spark 2.4.6 下面是Hudi deltastreamer的标准spark-submit命令，因为没有定义主参数，所以抛出了这个命令。[hadoop@ip-00-00-00-00 target]$ spark-submit --class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer'ls /mnt/hudi/packaging/hudi</

浏览 113修改于2020-09-08得票数 0

第 2 页第 3 页第 4 页第 5 页

点击加载更多

如何通过Hudi CLI更改Hudi表版本

运行Apache Hudi deltastreamer时出错

Dataproc上的Apache Hudi

Hudi支持‘update’操作？

Hudi分区和upsert不工作

通过apache livy执行hudi* delta streamer作业*

安装Hudi版本。AWS EMR上的0.6.0

Apache和Hudi:大量输出文件

使用spark递增聚合hudi表值

重复apache HUDI中的记录键

Hudi-Glue-与EMR集群集成

使用自定义格式的Apache Hudi分区

使用HUDI在TRINO上创建表的示例

Hoodie (Hudi)预组合字段在NULL上失败

使用即时时间读取星火数据源Hudi表

导入火花放电中的Hudi模块

在Apache Hudi* - Glue作业中删除*

使用hudi创建外部表配置单元的问题

最后/最后一次提交:使用pyspark获得hudi的最新提交

Apache Hudi* deltastreamer在线程" main“org.apache.hudi.com.beust.jcommander.ParameterException‘中抛出异常没有定义主参数*

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐