首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏最新医学影像技术

    CAMUS2019——超声心动图心脏结构分割

    一、CAMUS2019介绍 30 多年来,二维超声心动图图像的精确分割一直是一个持续存在的问题。 二、CAMUS2019任务 超声心动图左心室心内膜,左心室心外膜,左心房分割。 三、CAMUS2019数据集 整个CAMUS数据集由500名患者的临床检查组成,这些数据在圣艾蒂安大学医院(法国)获得,并在完全匿名后按照医院当地伦理委员会制定的规定纳入本研究。 由于CAMUS 数据集中涉及的一些患者因临床状况而存在不可利用的心电图,根据建议,将 ED(ES)定义为心动周期中左心室尺寸最大的帧(最小)。

    2.4K11编辑于 2024-03-12
  • 来自专栏携程技术

    干货 | 日均TB级数据,携程支付统一日志框架

    2)周期性启动消费kafka topic的camus job将日志写入hdfs。 3)T+1启动MR job读取camus写入的hdfs内容并load到hive表。 日志采集框架基于LinkedIn的开源项目CamusCamus使用MapReduce读取kafka数据然后写入hdfs,由于无reduce阶端,所有数据处理及写入都在Map侧,很少会发生数据倾斜,Camus 其中在配置Camus job过程中需要关注如下问题: 4.1 camus 任务执行 执行频率设置 The earliest offset was found to be more than the current offset 由于kafka消息保存天数有限和单个分区size有限(Server 配置:log.retention.bytes),携程侧为3天和10G,如果camus同步kafka频率较低时 ,可能会出现数据丢失,故需要根据日志量大小,设置camus 调度任务的执行频率,防止数据丢失。

    1.3K20发布于 2020-09-15
  • 来自专栏架构随笔录

    Kafka生态

    源代码 3.2 Camus 概述 Camus是LinkedIn开发的一个简单的MapReduce作业,用于将数据从Kafka加载到HDFS中。 您可以在设计部分找到Camus的设计和体系结构。 主要特征 自动主题发现:Camus作业启动后,它将自动从Zookeeper中获取可用主题,并从Kafka中获取偏移量并过滤主题。 可定制性:Camus的许多组件都是可定制的。Camus为消息解码器,数据写入器,数据分区器和工作分配器的定制实现提供接口。 负载平衡:Camus根据每个主题分区的大小将数据平均分配给MapReduce任务。此外,由于Camus作业使用临时工作目录,因此推测性执行对于散乱的迁移可能是有效的。 较低的操作开销:Camus提供配置以平衡主题之间的争用并在数据不兼容的情况下控制Camus作业的行为。默认情况下,如果数据不兼容,Camus不会使MapReduce作业失败。

    5.1K10发布于 2020-02-24
  • 来自专栏HyperAI超神经

    候选CVPR 2024最佳论文!深圳大学联手香港理工发布MemSAM:将 「分割一切」模型用于医学视频分割

    为了全面评估新方法在半监督视频分割中的有效性,研究人员将 CAMUS 数据集改编为两个变体:CAMUS-Full 和 CAMUS-Semi。 CAMUS-Full 在训练期间使用所有帧的标注,而 CAMUS-Semi 仅使用舒张末期 (ED) 和收缩末期 (ES) 帧的标注。在测试期间,这两个数据集都使用完整的标注进行评估。 并将 CAMUS 数据集按照 7:1:2 的比例,划分为训练集、验证集和测试集。 为了进一步评估 MemSAM,研究人员还在相同设置下对 CAMUS-Semi 和 CAMUS-Full 数据集进行了比较。 结果如下图所示: 在 CAMUS-Semi 和 CAMUS-Full 数据集上 研究方法与最先进方法的分割性能对比 可以看出,像 UNet 和 H2Former 这样的传统方法,以及像 SonoSAM

    70710编辑于 2024-06-17
  • 来自专栏大数据成神之路

    DB数据同步到数据仓库的架构与实践

    而底层采用LinkedIn的开源项目Camus,并进行了有针对性的二次开发,来完成真正的Kafka2Hive数据传输工作。 对Camus的二次开发 Kafka上存储的Binlog未带Schema,而Hive表必须有Schema,并且其分区、字段等的设计,都要便于下游的高效消费。 对Camus做的第一个改造,便是将Kafka上的Binlog解析成符合目标Schema的格式。 对Camus做的第二个改造,由美团的ETL框架所决定。 每个Kafka2Hive任务成功完成数据传输后,由Camus负责在相应的HDFS目录下记录该任务的启动时间。 此外,由于Camus本身只是完成了读Kafka然后写HDFS文件的过程,还必须完成对Hive分区的加载才能使下游查询到。因此,整个Kafka2Hive任务的最后一步是加载Hive分区。

    1.5K00发布于 2019-10-10
  • 来自专栏数据猿

    美团DB数据同步到数据仓库的架构与实践

    而底层采用LinkedIn的开源项目Camus,并进行了有针对性的二次开发,来完成真正的Kafka2Hive数据传输工作。 对Camus的二次开发 Kafka上存储的Binlog未带Schema,而Hive表必须有Schema,并且其分区、字段等的设计,都要便于下游的高效消费。 对Camus做的第一个改造,便是将Kafka上的Binlog解析成符合目标Schema的格式。 对Camus做的第二个改造,由美团的ETL框架所决定。 每个Kafka2Hive任务成功完成数据传输后,由Camus负责在相应的HDFS目录下记录该任务的启动时间。 此外,由于Camus本身只是完成了读Kafka然后写HDFS文件的过程,还必须完成对Hive分区的加载才能使下游查询到。因此,整个Kafka2Hive任务的最后一步是加载Hive分区。

    93410发布于 2019-11-20
  • 来自专栏Python数据科学

    美团MySQL实时同步到数据仓库架构与实践

    而底层采用LinkedIn的开源项目Camus,并进行了有针对性的二次开发,来完成真正的Kafka2Hive数据传输工作。 对Camus的二次开发 Kafka上存储的Binlog未带Schema,而Hive表必须有Schema,并且其分区、字段等的设计,都要便于下游的高效消费。 对Camus做的第一个改造,便是将Kafka上的Binlog解析成符合目标Schema的格式。 对Camus做的第二个改造,由美团的ETL框架所决定。 每个Kafka2Hive任务成功完成数据传输后,由Camus负责在相应的HDFS目录下记录该任务的启动时间。 此外,由于Camus本身只是完成了读Kafka然后写HDFS文件的过程,还必须完成对Hive分区的加载才能使下游查询到。因此,整个Kafka2Hive任务的最后一步是加载Hive分区。

    2.4K20发布于 2019-11-12
  • 来自专栏chaplinthink的专栏

    Hive一次更新多个分区数据方案

    PARTITIONED BY (`dt` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 加载数据: load data inpath '/camus

    1.3K10编辑于 2022-09-16
  • 来自专栏CDA数据分析师

    敲黑板!你和GitHub高手就差这三条规则······

    作者:Ariel Camus 机器之心编译 参与:高璇、路 本文转自机器之心,转载需授权 本文作者 Ariel Camus 介绍了每天使用 Git 和 GitHub 的重要性,还分享了三个帮助大家成为

    72221发布于 2018-09-17
  • 来自专栏携程技术

    干货 | 携程机票数据仓库建设之路

    2)从Kafka到Hive同步使用Camus,但是由于Camus的性能问题及消费记录和消费过期较难监控的问题,我们基于spark-sql-kafka开发了hamal,用于新建的Kafka到Hive的同步 3.1.2 Kafka同步到Hive 当前我们非实时同步主要在使用Linkedin很久以前的一个工具Camus,当然DP团队经过优化和企业本地化二次开发。 但从使用感受来看,Camus会有如下可能不足的地方: 1)基于mapreduce,mapreduce在yarn集群上抢占资源的能力较弱,在资源竞争高峰会有同步变慢的情况发生; 2)消费记录存储在HDFS

    1.7K41发布于 2020-02-26
  • 来自专栏大数据成神之路

    基于Flink SQL构建实时数据仓库

    4.1.1实时和离线数据接入的差异性 实时数据的接入其实在底层架构是一样的,就是从kafka那边开始不一样,实时用flink的UDTF进行解析,而离线是定时(目前是小时级)用camus拉到HDFS,然后定时 目前离线使用camus从kafka将数据拉到HDFS上,小时级任务,使用nginx_ts这个时间字段来卡点,这个字段是上报到nginx服务器上记录的时间点。

    3.4K11发布于 2020-01-13
  • 来自专栏蓝天

    提高 Linux 上 socket 性能

    调优:在 TCP/IP 栈中启用 IP 转发 [root@camus]# cat /proc/sys/net/ipv4/ip_forward 0 [root@camus]# echo "1" > /poc/sys/net/ipv4/ip_forward [root@camus]# cat /proc/sys/net/ipv4/ip_forward 1 [root@camus]# 表 1 给出了几个可调节的参数

    4.6K30发布于 2018-08-07
  • 来自专栏Spark学习技巧

    Kafka 集群在马蜂窝大数据平台的优化与应用扩展

    最终选择 1.1 版本, 则是因为出于 Camus 与 Kafka 版本的兼容性及 1.1 版本已经满足了使用场景中重要新特性的支持的综合考量。 这里再简单说一下 Camus 组件,同样是由 Linkedin 开源,在我们的大数据平台中主要作为 Kafka 数据 Dump 到 HDFS 的重要方式。 2. 因此该集群不会对外提供订阅,保证消费方可控;同时该集群业务也作为离线采集的源头,数据会通过 Camus 组件按小时时间粒度 dump 到 HDFS 中,这部分数据参与后续的离线计算。

    76820发布于 2021-03-05
  • 来自专栏BestSDK

    解密个推SDK如何完成百亿级覆盖量推送

    Layer、ServingLayer);引入Hadoop(Hdfs、Hive/MR、Hbase、Mahout等);采用ES、SolrCloud+ HBase方案 实现多维度检索;引入Flume 、Kafka、Camus

    1.4K60发布于 2018-02-27
  • 来自专栏大数据解决方案

    企业是如何选择技术栈来做离线数仓

    从Kafka到Hive同步使用Camus,但是由于Camus的性能问题及消费记录和消费过期较难监控的问题,我们基于spark-sql-kafka开发了hamal,用于新建的Kafka到Hive的同步;Kafka

    1.2K10发布于 2021-02-04
  • 来自专栏TASKCTL技术交流讨论

    大数据开发平台-数据同步服务

    Camus Camus严格的说算不上是一个框架,它是Linkedin开发的基于Kafka消费日志,批量写入Hdfs的一个工具,不过用的人也不少,所以提一下,我司之前也有大量的日志是通过Camus来采集的 (话说Linkedin是把自家的kafka用到极致了,各种链路但凡能依托kafka实现的,大概都不会考虑其它的实现方式) Camus的架构方案,基本上就是写了一个MR任务,实现批量从Kafka读取日志并写入

    3.3K40发布于 2020-07-22
  • 来自专栏蓝天

    socket的五大误区

    the network coming from or going to host plato $ tcpdump host plato Show all HTTP traffic for host camus $ tcpdump host camus and (port http) View traffic coming from or going to TCP port 45000 on the local

    1K20发布于 2018-08-07
  • 来自专栏JetpropelledSnake

    Kafka学习笔记之confluent platform入门

    documentation Kafka Connect documentation Schema Registry documentation Kafka REST Proxy documentation Camus

    3.7K30发布于 2019-03-20
  • 来自专栏原创

    个推 Spark实践教你绕过开发那些“坑”

    有两种方式导入数据到HDFS,一部分数据从业务平台日志收集写入到 Kafka,然后直接Linkedin Camus(我们做过扩展) 准实时地传输到 HDFS,另外部分数通过运维那边的脚本定时导入到 HDFS

    1.3K100发布于 2018-03-21
  • 来自专栏原创

    如何打造100亿SDK累计覆盖量的大数据系统

    Layer、ServingLayer);引入Hadoop(Hdfs、Hive/MR、Hbase、Mahout等);采用ES、SolrCloud+ HBase方案 实现多维度检索;引入Flume 、Kafka、Camus

    1.3K90发布于 2018-03-21
领券