腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(88)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何通过
Hudi
CLI更改
Hudi
表版本
如何通过
Hudi
更改表版本? at org.apache.
hudi
.common.table.HoodieTableVersion.lambda(HoodieTable
浏览 32
提问于2022-03-02
得票数 0
1
回答
Dataproc上的Apache
Hudi
org.apache.spark.sql.
hudi
.HoodieSparkSessionExtension._jvm.org.apache.
hudi
.QuickstartUtils.DataGenerator()我使用了错误的.jar.在创建表和
hudi
.options之后: 22/12/01 22:26:04 WARN org.apache.
hudi
.common.config.DFSPropertiesConfiguration:Cannot find
HUDI
_CON
浏览 30
修改于2022-12-01
得票数 2
回答已采纳
1
回答
运行Apache
Hudi
deltastreamer时出错
我正在尝试在AWS EMR上运行
Hudi
deltastreamer。按照此博客中的步骤操作。key=
HUDI
但是当我运行下面的spark提交时,错误出现了: Exception in thread "main" org.apache.
hudi
.com.beust.jcommander.ParameterException_2.11:2.4.4 \ --master yarn --deploy-mode client /usr/lib/
hudi
/
hu
浏览 114
修改于2020-05-31
得票数 2
1
回答
Hudi
支持‘update’操作?
我有一个异常,当更新记录与火花sql为
hudi
如下。(HoodieAvroUtils.java:503) at org.apache.
hudi
.HoodieSparkSqlWriter$.:
hudi
-scamk3.2-bundle_2.12-0.12.0. jar我把
hudi
罐子放在火花源下的罐子里。=org.apache.spark.sql.
浏览 10
提问于2022-10-17
得票数 0
1
回答
Hudi
分区和upsert不工作
这个配置中的错误是什么, 分区键在
HUDI
中不起作用,并且在执行upsert时,
hudi
数据集中的所有记录都会更新。所以不能从表中提取增量。: '
hudi
_db','hoodie.datasource.hive_sync.enable': 'true', 'path': 's3:/
浏览 50
提问于2021-08-29
得票数 1
1
回答
通过apache livy执行
hudi
delta streamer作业
spark-submit --packages org.apache.
hudi
:
hudi
-utilities-bundle_2.11:0.5.3,org.apache.spark:spark-avro_conf spark.sql.shuffle.partitions=100 \ --class org.apache.
hudi
.utilities.deltastreamer.HoodieDeltaStreamer\ --table-type MERGE_ON
浏览 29
修改于2021-10-13
得票数 0
2
回答
安装
Hudi
版本。AWS EMR上的0.6.0
有人能帮助我在AWS EMR版本6.0.0上正确安装
Hudi
0.6.0吗?我认为AWS添加了一些自定义脚本,以使
Hudi
在EMR中正常工作
浏览 71
提问于2020-09-08
得票数 0
2
回答
Apache和
Hudi
:大量输出文件
我试图从许多不同的.csv文件中读取数据(所有文件都具有相同的“结构”),使用Spark执行一些操作,最后以
Hudi
格式保存它们。要将数据存储在同一个
Hudi
表中,我认为最好的方法是在执行写操作时使用append方法。
hudi
_options = { 'hoodie.datasource.write.
浏览 2
修改于2021-04-14
得票数 2
回答已采纳
1
回答
使用spark递增聚合
hudi
表值
我有一个火花流作业,每10秒加载一次apache
hudi
表中的数据。如果该行已经存在,它将更新
hudi
表中的行。实际上,它正在执行重新插入操作。但是,在
hudi
表中,有一个an列,该列也使用新值进行更新。
hudi
是否支持增量聚合,不使用外部缓存/db?
浏览 9
提问于2022-07-13
得票数 1
1
回答
重复apache
HUDI
中的记录键
在某些情况下,
HUDI
似乎没有破坏记录。下面是我们使用的配置。我们通过customer_id对数据进行分区,因此我们的期望是
HUDI
将在分区内执行唯一性,即每个customer_id文件夹。对于两个重复的记录,_hoodie_record_key是相同的,但是_hoodie_file_name是不同的,这使我怀疑
hudi
不是在customer_id文件夹中,而是在这些单独的parquet文件中执行唯一性target-table: "some_table_name" source-ordering-field: &q
浏览 6
提问于2022-04-27
得票数 4
1
回答
Hudi
-Glue-与EMR集群集成
我希望在AWS中使用SCD2、
Hudi
和Glue来实现S3逻辑。有人能建议如何在没有电子病历的情况下实现吗?还有在AWS中安装/部署没有EMR的
hudi
的方法。 谢谢
浏览 4
提问于2022-04-08
得票数 0
2
回答
使用自定义格式的Apache
Hudi
分区
我目前正在使用spark(scala)在Apache
Hudi
上做一个POC。 我在使用分区保存数据帧时遇到了一个问题。
Hudi
使用属性PARTITIONPATH_FIELD_OPT_KEY用path/valueOfPartitionCol1/valueOfPartitionCol2....保存数据帧。有没有试过用
Hudi
进行自定义分区的人可以帮我?
浏览 58
修改于2020-05-31
得票数 3
1
回答
使用
HUDI
在TRINO上创建表的示例
我使用Spark Structured Streaming (3.1.1)从Kafka读取数据,并使用
HUDI
(0.8.0)作为S3上的存储系统,按日期对数据进行分区。作为一个预言家,我已经把
hudi
-presto-bundle-0.8.0.jar放在/data/trino/hive/里了CREATE TABLE table_new (CALL system.sync_partition_metadata('schema', 'table_new'
浏览 6
修改于2022-01-06
得票数 3
1
回答
Hoodie (
Hudi
)预组合字段在NULL上失败
我为
Hudi
CDC编写的AWS Glue作业在一个预组合字段的列上失败了(请参阅下面的错误消息)。我已经验证了这个列上没有空值(它有一个后更新触发器和默认的NOW() set)。据我所知,
Hudi
只在DELETE操作上传输主键,而没有其他任何内容。 为什么
Hudi
在DELETE操作中使用NULL值的预组合失败?我怎么才能解决这个问题?我错过了一个选择还是什么?中的任务2.0 (TID 264) executor.Executor (Logging.scala:logError(94)):阶段46.0中任务2.0中的异常(TID264) o
浏览 4
修改于2022-06-06
得票数 0
回答已采纳
1
回答
使用即时时间读取星火数据源
Hudi
表
我正在使用Spark.read.format("
hudi
")阅读
Hudi
表Incremental
浏览 4
修改于2021-03-10
得票数 0
1
回答
导入火花放电中的
Hudi
模块
如何在火花放电中导入
hudi
模块?%spark.pyspark import org.apache.
hudi
.DataSourceReadOptionsimport org.apache.
hudi
.config.HoodieWriteConfig 错误: ModuleNotFoundError:没有名为'org‘的模块
浏览 3
提问于2021-10-12
得票数 1
1
回答
在Apache
Hudi
- Glue作业中删除
spark.sql("SELECT * FROM view_dyf_output where id in (select id from view_dyf where op like 'D')") o
浏览 159
提问于2021-07-01
得票数 0
1
回答
使用
hudi
创建外部表配置单元的问题
我正在尝试使用apache
hudi
框架在hive metastore中创建一个外部文件。它能够与hive metastore连接,但在尝试创建表时,在连接后抛出异常。dataFrame.writeStream .option(HoodieWriteConfig.TABLE_NAME, tableName+= "org.apache.spark" %% "spark-streaming-kafka-0-10" % &quo
浏览 57
提问于2021-03-19
得票数 0
1
回答
最后/最后一次提交:使用pyspark获得
hudi
的最新提交
我每小时都使用spark
hudi
进行增量查询,每次都将增量查询的开始和结束时间保存在db(例如mysql)中。增量查询应该如下所示: 'hoodie.datasource.query.type': 'incremental',':
hudi
_end_commit但我不知道如何在pyspark(python)中找到
hudi
_end_commit。spark_session.read.forma
浏览 7
提问于2022-05-16
得票数 1
1
回答
Apache
Hudi
deltastreamer在线程" main“org.apache.
hudi
.com.beust.jcommander.ParameterException‘中抛出异常没有定义主参数
版本Apache
Hudi
0.6.1,Spark 2.4.6 下面是
Hudi
deltastreamer的标准spark-submit命令,因为没有定义主参数,所以抛出了这个命令。[hadoop@ip-00-00-00-00 target]$ spark-submit --class org.apache.
hudi
.utilities.deltastreamer.HoodieDeltaStreamer'ls /mnt/
hudi
/packaging/
hudi</
浏览 113
修改于2020-09-08
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
点击加载更多
领券