搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏最新医学影像技术
CAMUS2019——超声心动图心脏结构分割
一、CAMUS2019介绍 30 多年来，二维超声心动图图像的精确分割一直是一个持续存在的问题。二、CAMUS2019任务超声心动图左心室心内膜，左心室心外膜，左心房分割。三、CAMUS2019数据集整个CAMUS数据集由500名患者的临床检查组成，这些数据在圣艾蒂安大学医院（法国）获得，并在完全匿名后按照医院当地伦理委员会制定的规定纳入本研究。由于CAMUS 数据集中涉及的一些患者因临床状况而存在不可利用的心电图，根据建议，将 ED（ES）定义为心动周期中左心室尺寸最大的帧（最小）。
2.4K11编辑于 2024-03-12
来自专栏携程技术
干货 | 日均TB级数据，携程支付统一日志框架
2）周期性启动消费kafka topic的camus job将日志写入hdfs。 3）T+1启动MR job读取camus写入的hdfs内容并load到hive表。日志采集框架基于LinkedIn的开源项目Camus，Camus使用MapReduce读取kafka数据然后写入hdfs，由于无reduce阶端，所有数据处理及写入都在Map侧，很少会发生数据倾斜，Camus 其中在配置Camus job过程中需要关注如下问题： 4.1 camus 任务执行执行频率设置 The earliest offset was found to be more than the current offset 由于kafka消息保存天数有限和单个分区size有限(Server 配置：log.retention.bytes)，携程侧为3天和10G，如果camus同步kafka频率较低时，可能会出现数据丢失，故需要根据日志量大小，设置camus 调度任务的执行频率，防止数据丢失。
1.3K20发布于 2020-09-15
来自专栏架构随笔录
Kafka生态
源代码 3.2 Camus 概述 Camus是LinkedIn开发的一个简单的MapReduce作业，用于将数据从Kafka加载到HDFS中。您可以在设计部分找到Camus的设计和体系结构。主要特征自动主题发现：Camus作业启动后，它将自动从Zookeeper中获取可用主题，并从Kafka中获取偏移量并过滤主题。可定制性：Camus的许多组件都是可定制的。Camus为消息解码器，数据写入器，数据分区器和工作分配器的定制实现提供接口。负载平衡：Camus根据每个主题分区的大小将数据平均分配给MapReduce任务。此外，由于Camus作业使用临时工作目录，因此推测性执行对于散乱的迁移可能是有效的。较低的操作开销：Camus提供配置以平衡主题之间的争用并在数据不兼容的情况下控制Camus作业的行为。默认情况下，如果数据不兼容，Camus不会使MapReduce作业失败。
5.1K10发布于 2020-02-24
来自专栏HyperAI超神经
候选CVPR 2024最佳论文！深圳大学联手香港理工发布MemSAM：将「分割一切」模型用于医学视频分割
为了全面评估新方法在半监督视频分割中的有效性，研究人员将 CAMUS 数据集改编为两个变体：CAMUS-Full 和 CAMUS-Semi。 CAMUS-Full 在训练期间使用所有帧的标注，而 CAMUS-Semi 仅使用舒张末期 (ED) 和收缩末期 (ES) 帧的标注。在测试期间，这两个数据集都使用完整的标注进行评估。并将 CAMUS 数据集按照 7:1:2 的比例，划分为训练集、验证集和测试集。为了进一步评估 MemSAM，研究人员还在相同设置下对 CAMUS-Semi 和 CAMUS-Full 数据集进行了比较。结果如下图所示：在 CAMUS-Semi 和 CAMUS-Full 数据集上研究方法与最先进方法的分割性能对比可以看出，像 UNet 和 H2Former 这样的传统方法，以及像 SonoSAM
70710编辑于 2024-06-17
来自专栏大数据成神之路
DB数据同步到数据仓库的架构与实践
而底层采用LinkedIn的开源项目Camus，并进行了有针对性的二次开发，来完成真正的Kafka2Hive数据传输工作。对Camus的二次开发 Kafka上存储的Binlog未带Schema，而Hive表必须有Schema，并且其分区、字段等的设计，都要便于下游的高效消费。对Camus做的第一个改造，便是将Kafka上的Binlog解析成符合目标Schema的格式。对Camus做的第二个改造，由美团的ETL框架所决定。每个Kafka2Hive任务成功完成数据传输后，由Camus负责在相应的HDFS目录下记录该任务的启动时间。此外，由于Camus本身只是完成了读Kafka然后写HDFS文件的过程，还必须完成对Hive分区的加载才能使下游查询到。因此，整个Kafka2Hive任务的最后一步是加载Hive分区。
1.5K00发布于 2019-10-10
来自专栏数据猿
美团DB数据同步到数据仓库的架构与实践
而底层采用LinkedIn的开源项目Camus，并进行了有针对性的二次开发，来完成真正的Kafka2Hive数据传输工作。对Camus的二次开发 Kafka上存储的Binlog未带Schema，而Hive表必须有Schema，并且其分区、字段等的设计，都要便于下游的高效消费。对Camus做的第一个改造，便是将Kafka上的Binlog解析成符合目标Schema的格式。对Camus做的第二个改造，由美团的ETL框架所决定。每个Kafka2Hive任务成功完成数据传输后，由Camus负责在相应的HDFS目录下记录该任务的启动时间。此外，由于Camus本身只是完成了读Kafka然后写HDFS文件的过程，还必须完成对Hive分区的加载才能使下游查询到。因此，整个Kafka2Hive任务的最后一步是加载Hive分区。
93410发布于 2019-11-20
来自专栏Python数据科学
美团MySQL实时同步到数据仓库架构与实践
而底层采用LinkedIn的开源项目Camus，并进行了有针对性的二次开发，来完成真正的Kafka2Hive数据传输工作。对Camus的二次开发 Kafka上存储的Binlog未带Schema，而Hive表必须有Schema，并且其分区、字段等的设计，都要便于下游的高效消费。对Camus做的第一个改造，便是将Kafka上的Binlog解析成符合目标Schema的格式。对Camus做的第二个改造，由美团的ETL框架所决定。每个Kafka2Hive任务成功完成数据传输后，由Camus负责在相应的HDFS目录下记录该任务的启动时间。此外，由于Camus本身只是完成了读Kafka然后写HDFS文件的过程，还必须完成对Hive分区的加载才能使下游查询到。因此，整个Kafka2Hive任务的最后一步是加载Hive分区。
2.4K20发布于 2019-11-12
来自专栏chaplinthink的专栏
Hive一次更新多个分区数据方案
PARTITIONED BY (`dt` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 加载数据: load data inpath '/camus
1.3K10编辑于 2022-09-16
来自专栏CDA数据分析师
敲黑板！你和GitHub高手就差这三条规则······
作者：Ariel Camus 机器之心编译参与：高璇、路本文转自机器之心，转载需授权本文作者 Ariel Camus 介绍了每天使用 Git 和 GitHub 的重要性，还分享了三个帮助大家成为
72221发布于 2018-09-17
来自专栏携程技术
干货 | 携程机票数据仓库建设之路
2）从Kafka到Hive同步使用Camus，但是由于Camus的性能问题及消费记录和消费过期较难监控的问题，我们基于spark-sql-kafka开发了hamal，用于新建的Kafka到Hive的同步 3.1.2 Kafka同步到Hive 当前我们非实时同步主要在使用Linkedin很久以前的一个工具Camus，当然DP团队经过优化和企业本地化二次开发。但从使用感受来看，Camus会有如下可能不足的地方： 1）基于mapreduce，mapreduce在yarn集群上抢占资源的能力较弱，在资源竞争高峰会有同步变慢的情况发生； 2）消费记录存储在HDFS
1.7K41发布于 2020-02-26
来自专栏大数据成神之路
基于Flink SQL构建实时数据仓库
4.1.1实时和离线数据接入的差异性实时数据的接入其实在底层架构是一样的，就是从kafka那边开始不一样，实时用flink的UDTF进行解析，而离线是定时（目前是小时级）用camus拉到HDFS，然后定时目前离线使用camus从kafka将数据拉到HDFS上，小时级任务，使用nginx_ts这个时间字段来卡点，这个字段是上报到nginx服务器上记录的时间点。
3.4K11发布于 2020-01-13
来自专栏蓝天
提高 Linux 上 socket 性能
调优：在 TCP/IP 栈中启用 IP 转发 [root@camus]# cat /proc/sys/net/ipv4/ip_forward 0 [root@camus]# echo "1" > /poc/sys/net/ipv4/ip_forward [root@camus]# cat /proc/sys/net/ipv4/ip_forward 1 [root@camus]# 表 1 给出了几个可调节的参数
4.6K30发布于 2018-08-07
来自专栏Spark学习技巧
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
最终选择 1.1 版本, 则是因为出于 Camus 与 Kafka 版本的兼容性及 1.1 版本已经满足了使用场景中重要新特性的支持的综合考量。这里再简单说一下 Camus 组件，同样是由 Linkedin 开源，在我们的大数据平台中主要作为 Kafka 数据 Dump 到 HDFS 的重要方式。 2. 因此该集群不会对外提供订阅，保证消费方可控；同时该集群业务也作为离线采集的源头，数据会通过 Camus 组件按小时时间粒度 dump 到 HDFS 中，这部分数据参与后续的离线计算。
76820发布于 2021-03-05
来自专栏BestSDK
解密个推SDK如何完成百亿级覆盖量推送
Layer、ServingLayer);引入Hadoop(Hdfs、Hive/MR、Hbase、Mahout等);采用ES、SolrCloud+ HBase方案实现多维度检索;引入Flume 、Kafka、Camus
1.4K60发布于 2018-02-27
来自专栏大数据解决方案
企业是如何选择技术栈来做离线数仓
从Kafka到Hive同步使用Camus，但是由于Camus的性能问题及消费记录和消费过期较难监控的问题，我们基于spark-sql-kafka开发了hamal，用于新建的Kafka到Hive的同步；Kafka
1.2K10发布于 2021-02-04
来自专栏TASKCTL技术交流讨论
大数据开发平台-数据同步服务
Camus Camus严格的说算不上是一个框架，它是Linkedin开发的基于Kafka消费日志，批量写入Hdfs的一个工具，不过用的人也不少，所以提一下，我司之前也有大量的日志是通过Camus来采集的（话说Linkedin是把自家的kafka用到极致了，各种链路但凡能依托kafka实现的，大概都不会考虑其它的实现方式） Camus的架构方案，基本上就是写了一个MR任务，实现批量从Kafka读取日志并写入
3.3K40发布于 2020-07-22
来自专栏蓝天
socket的五大误区
the network coming from or going to host plato $ tcpdump host plato Show all HTTP traffic for host camus $ tcpdump host camus and (port http) View traffic coming from or going to TCP port 45000 on the local
1K20发布于 2018-08-07
来自专栏JetpropelledSnake
Kafka学习笔记之confluent platform入门
documentation Kafka Connect documentation Schema Registry documentation Kafka REST Proxy documentation Camus
3.7K30发布于 2019-03-20
来自专栏原创
个推 Spark实践教你绕过开发那些“坑”
有两种方式导入数据到HDFS，一部分数据从业务平台日志收集写入到 Kafka，然后直接Linkedin Camus（我们做过扩展）准实时地传输到 HDFS，另外部分数通过运维那边的脚本定时导入到 HDFS
1.3K100发布于 2018-03-21
来自专栏原创
如何打造100亿SDK累计覆盖量的大数据系统
Layer、ServingLayer）；引入Hadoop（Hdfs、Hive/MR、Hbase、Mahout等）；采用ES、SolrCloud+ HBase方案实现多维度检索；引入Flume 、Kafka、Camus
1.3K90发布于 2018-03-21

第 2 页

CAMUS2019——超声心动图心脏结构分割

干货 | 日均TB级数据，携程支付统一日志框架

Kafka生态

候选CVPR 2024最佳论文！深圳大学联手香港理工发布MemSAM：将「分割一切」模型用于医学视频分割

DB数据同步到数据仓库的架构与实践

美团DB数据同步到数据仓库的架构与实践

美团MySQL实时同步到数据仓库架构与实践

Hive一次更新多个分区数据方案

敲黑板！你和GitHub高手就差这三条规则······

干货 | 携程机票数据仓库建设之路

基于Flink SQL构建实时数据仓库

提高 Linux 上 socket 性能

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

解密个推SDK如何完成百亿级覆盖量推送

企业是如何选择技术栈来做离线数仓

大数据开发平台-数据同步服务

socket的五大误区

Kafka学习笔记之confluent platform入门

个推 Spark实践教你绕过开发那些“坑”

如何打造100亿SDK累计覆盖量的大数据系统

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

CAMUS2019——超声心动图心脏结构分割

干货 | 日均TB级数据，携程支付统一日志框架

Kafka生态

候选CVPR 2024最佳论文！深圳大学联手香港理工发布MemSAM：将 「分割一切」模型用于医学视频分割

DB数据同步到数据仓库的架构与实践

美团DB数据同步到数据仓库的架构与实践

美团MySQL实时同步到数据仓库架构与实践

Hive一次更新多个分区数据方案

敲黑板！你和GitHub高手就差这三条规则······

干货 | 携程机票数据仓库建设之路

基于Flink SQL构建实时数据仓库

提高 Linux 上 socket 性能

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

解密个推SDK如何完成百亿级覆盖量推送

企业是如何选择技术栈来做离线数仓

大数据开发平台-数据同步服务

socket的五大误区

Kafka学习笔记之confluent platform入门

个推 Spark实践教你绕过开发那些“坑”

如何打造100亿SDK累计覆盖量的大数据系统

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

候选CVPR 2024最佳论文！深圳大学联手香港理工发布MemSAM：将「分割一切」模型用于医学视频分割