首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Java架构师必看

    数据运营平台-数据采集

    今天说一说数据运营平台-数据采集[通俗易懂],希望能够帮助大家进步!!! 目录 行为数据采集 业务数据采集与转换 第三方系统API对接 用户数据关联 人工数据采集 数据输出 ---- 行为数据采集 1.埋点采集 ①跨平台打通 确定性方法识别 利用用户帐号体系中,可以是系统生成的 上报的数据明文示例如下: [{ "appid": "demo", "xwho": "8c0eebf0-2383-44bc-b8ba-a5c719fc6194", "xwhat 业务消息约定 请求消息URI中的参数采用UTF-8编码并经过URLEncode编码。 ,接口名字可配置 应答的消息体采用JSON数据格式编码,字符编码采用UTF-8

    6K31编辑于 2022-07-06
  • 来自专栏全栈程序员必看

    基于kettle的数据采集平台

    平台开发目的是设计一个通用的数据采集、解析、处理、装载、调度、监控的通用数据采集平台平台具有业务无关性,涉及到具体的业务数据处理时候需要特殊处理,动态加载到框架中,达到通用的目的。

    68720编辑于 2022-06-28
  • 来自专栏阿年的数据梦

    数仓日记 - 数据采集平台

    说明 二、采集平台准备 1. 框架版本选型 2. 集群部署规划 3. 数据流程图 三、用户行为数据采集模块 1. 环境准备 2. JDK安装 3. 采集日志Flume 7. kafka安装 • 项目经验之Kafka压力测试 • 项目经验之Kafka机器数量计算 8. logcollector-1.0-SNAPSHOT.jar logcollector-1.0-SNAPSHOT-jar-with-dependencies.jar 二、采集平台准备 1. f1.sh start #启动 Kafka采集集群 kf.sh start sleep 8s; #启动 Flume kf.sh stop sleep 8s; #停止 Flume采集集群 f1.sh stop #停止 Zookeeper集群

    3.2K20编辑于 2022-11-18
  • 来自专栏machh的专栏

    Windows平台音频采集技术介绍

    音频处理的相关技术: 采集麦克风输入 采集声卡输出 将音频数据送入声卡进行播放 对多路音频输入进行混音处理 在Windows操作系统上,音频处理技术主要是采用微软提供的相关API:Wave系列API函数 主要是用来实现对麦克风输入的采集(使用WaveIn系列API函数)和控制声音的播放(使用后WaveOut系列函数)。 支持XP及之后的Windows系统,支持麦克风输入的采集和控制声音的播放,不支持声卡的采集。 DirectSound 可实现多个声音的混合播放。 directx框架,directx 10之就没有了对directsound的支持,已经将directsound封装到directshow里面去了 支持XP及之后的Windows系统,支持麦克风,声卡的采集 下图为DeviceTopology API的作用范围 支持Vista及之后的Windows系统,支持麦克风,声卡输出的采集, 控制声音播放。

    2.1K10编辑于 2022-06-10
  • 来自专栏全栈程序员必看

    基于spark的数据采集平台

    数据采集平台管理端 https://github.com/zhaoyachao/zdh_web 数据采集平台服务 https://github.com/zhaoyachao/zdh_server web 平台介绍 数据采集,处理,监控,调度,管理一体化平台具体介绍请看github连接中的readme 文档 # 数据采集,处理,监控,调度,管理一体化平台 # 提示 zdh 分2部分,前端配置 # 下载修改基础配置 打开resources/application-dev.properties 1 修改服务器端口默认8081 2 修改数据源连接(默认支持mysql8) release 目录 直接将release 目录拷贝 2 到relase的bin 目录下执行start 脚本(启动脚本必须到bin 目录下执行) 3 执行编译好的包需要提前安装mysql8, mvn package -Dmaven.test.skip=true # 运行 在target 目录下找到zdh.jar 执行 java -Dfile.encoding=utf-8

    96210编辑于 2022-06-28
  • 来自专栏geekfly

    Java数据采集-8.模拟登录

    /* 模拟登录所需要的参数,有些网站登录时会检测, 如果存在基本上为必须,但CSDN发现并没有检测,故没有添加 在Chrome开发者平台中可查看 = null) { result = EntityUtils.toString(entity, "utf-8"); } }catch =geekfly; Domain=.csdn.net; Path=/;AU=2DB; Domain=.csdn.net; Path=/;UD=%E5%94%AF%E6%9C%89%E5%89%B2%E8% 88%8D%EF%BC%8C%E6%89%8D%E8%83%BD%E4%B8%93%E6%B3%A8%E3%80%82%E5%94%AF%E6%9C%89%E6%94%BE%E5%BC%83%EF%BC %8C%E6%89%8D%E8%83%BD%E8%BF%BD%E6%B1%82%E3%80%82; Domain=.csdn.net; Path=/;UN=TMaskBoy; Domain=.csdn.net

    88920编辑于 2022-05-06
  • 来自专栏程序猿的大杂烩

    大数据平台 - 数据采集及治理

    数据采集介绍 ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。 常见的三个数据采集场景: 场景1:从支持FTP、SFTP、 HTTP等 协议的数据源获取数据 场景2:从业务数据库获取数据,数据采集录入后需支撑业务系统 场景3:数据源通过Kafka等消息队列,需要实时采集数据 数据采集系统需求: 数据源管理与状态监控 定时、实时、全量、增量等多模式的数据采集及任务监控 元数据管理、数据补采及数据归档 ---- 常用数据采集工具 Sqoop Sqoop是常用的关系数据库与HDFS `id`) ) ENGINE=InnoDB AUTO_INCREMENT=1069 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci; insert into 数据采集及处理流程中产生的元数据纳入数据治理平台,并建立血缘关系 提供数据管理的服务接口,数据模型变更及时通知上下游 ---- Apache Atlas数据治理 常见的数据治理工具: Apache Atlas

    4.2K11发布于 2020-11-16
  • 来自专栏Sun

    大数据平台之binlog采集方案

    1、背景 大数据平台采集功能是从外部数据源采集数据存储到hive,采集方式分为全量采集、增量采集,增量采集适用于数据规模较大情况,有很多使用场景,但是在增量采集时,平台只能感知数据新增、更新 大数据平台针对mysql的处理方案流程如图1所示。 因为漏数据是无法容忍的,因此平台选择1,为了避免重复的SQL操作,平台增加了约束:采集的mysql表需要包含主键或唯一键,这个约束正常情况下都是完全可以满足的。 "name777",777 UPDATE,9103c8c82514f39d8360c7430c4ee557,"10002","name222",222 DELETE,6eb887126d24e8f1cd8ad5033482c781 ,"10008","name8",22 DELETE,d89f3a35931c386956c1a402a8e09941,"10001","name1",10 DELETE,6eb887126d24e8f1cd8ad5033482c781

    1.8K30发布于 2021-11-23
  • 来自专栏斑斓

    剖析大数据平台的数据采集

    数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了。 但是在大数据平台下,由于数据源具有更复杂的多样性,数据采集的形式也变得更加复杂而多样,当然,业务场景也可能变得迥然不同。下图展现了大数据平台比较典型的数据采集架构: ? 在这种场景下,数据采集就仅仅是一个简单的同步,无需执行转换。 场景2:数据源已经写入Kafka,需要实时采集数据。 为了更高效地完成数据采集,通常我们需要将整个流程切分成多个阶段,在细分的阶段中可以采用并行执行的方式。在这个过程中,可能牵涉到Job的创建、提交与分发,采集流程的规划,数据格式的转换等。 除此之外,在保证数据采集的高性能之外,还要考虑数据丢失的容错。

    1.8K40发布于 2018-03-07
  • 来自专栏全栈程序员必看

    大数据:数据采集平台之Fluentd

    大数据:数据采集平台之Fluentd ---- Apache Flume 详情请看文章:《大数据:数据采集平台之Apache Flume》 Fluentd 详情请看文章:《大数据:数据采集平台之 Fluentd》 Logstash 详情请看文章:《大数据:数据采集平台之Logstash》 Apache Chukwa 详情请看文章:《大数据:数据采集平台之Apache Chukwa 》 Scribe 详情请看文章:《大数据:数据采集平台之Scribe 》 Splunk Forwarder 详情请看文章:《大数据:数据采集平台之Splunk Forwarder》 Fluentd从各方面看都很像Flume,区别是使用Ruby开发,Footprint会小一些,但是也带来了跨平台的问题,并不能支持Windows平台

    75120编辑于 2022-08-14
  • 来自专栏编程进阶实战

    ThingsGateway:一款基于.NET8开源的跨平台高性能边缘采集网关

    前言今天大姚给大家分享一款基于.NET8开源的跨平台高性能边缘采集网关,提供底层PLC通讯库,通讯调试软件等,单机采集数据点位可达百万:ThingsGateway。 项目技术栈后端技术栈:支持.NET 6/7/8,Sqlsugar,JWT等。底层驱动库支持:.NET Framework 4.5及以上,.NET Standard2.0及以上。

    1.3K10编辑于 2024-08-23
  • 来自专栏devops_k8s

    k8s 日志采集最佳实践

    在 K8s 中,应用都以 yaml 的方式部署,而日志采集还是以手工的配置文件形式为主,如何能够让日志采集以 K8s 的方式进行部署? Sidecar 相对资源占用较多,但灵活性以及多租户隔离性较强,建议大型的 K8s 集群或作为 PaaS 平台为多个业务方服务的集群使用该方式; image.png 总结下来: 1 . 7 日志采集方案 image.png 早在 Kubernetes 出现之前,我们就开始为容器环境开发日志采集方案,随着 K8s 的逐渐稳定,我们开始将很多业务迁移到 K8s 平台上,因此也基于之前的基础专门开发了一套 K8s 上的日志采集方案。 方式单独采集; 9.2 大型集群 image.png 对于一些用作 PaaS 平台的大型/超大型集群,一般业务在 1000 以上,节点规模也在 1000 以上,有专门的 Kubernetes 平台运维人员

    3K40发布于 2021-11-09
  • 来自专栏葡萄城控件技术团队

    实战分享 | 金融数据采集报送平台实践

    对企业数据系统来说,数据采集填报、报表设计、校验审核、汇总上报等功能是非常常见的需求,也是业务用户使用频率最高的功能模块。 本周我们有幸邀请到葡萄城的深度合作客户——杭州明佑电子有限公司(简称明佑电子)开发部经理 杨颖,从银行业背景和业务痛点出发,分享他们对于银行业数据采集报送领域的实践经验,分析、解决以上提到的痛点问题。 SpreadJS 实现在线导入Excel自定义报表 https://mp.weixin.qq.com/s/IbN6ljTBHGxcg-lfjt_yxw 【客户故事】希施玛数据科技 – 金融大数据处理实验实训教学平台

    1.1K40编辑于 2023-02-10
  • 来自专栏全栈程序员必看

    大数据:数据采集平台之Apache Flume

    大数据:数据采集平台之Apache Flume ---- Apache Flume 详情请看文章:《大数据:数据采集平台之Apache Flume》 Fluentd 详情请看文章:《大数据: 数据采集平台之Fluentd》 Logstash 详情请看文章:《大数据:数据采集平台之Logstash》 Apache Chukwa 详情请看文章:《大数据:数据采集平台之Apache Chukwa 》 Scribe 详情请看文章:《大数据:数据采集平台之Scribe 》 Splunk Forwarder 详情请看文章:《大数据:数据采集平台之Splunk Forwarder 》 ---- 官网: https://flume.apache.org/ Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。

    70420编辑于 2022-06-28
  • 来自专栏爬虫资料

    面向教育平台的分层内容采集思路

    更可行的方式是设计一个分层次的采集流程,逐级深入,既能减少资源浪费,又能适应平台的动态变化。 二、思路图谱下面用一张树状结构图来概括整个方案:教育平台内容分层采集方案│├── 网络接入│ ├── 使用代理服务│ ├── 用户模拟切换│ └── 请求频率控制│├── 抓取逻辑│ ├ ─ 增量更新机制│ └── 定期调度任务│└── 监控与优化 ├── 日志与监控 ├── 失败重试 └── 代理池健康度管理三、示例代码下面给出一个简化示例,展示如何代理服务分层采集教育类平台的目录和课程信息 分层采集思路:先拿到分类,再进入课程页面,最后细化到具体单元。可根据平台情况扩展到动态渲染场景。四、总结教育类平台的内容采集,必须考虑到层级化结构、频繁更新、多终端分布和访问限制。 采用分层次的采集思路,可以在保证效率的同时降低风险,并更好地适应教育平台未来的演进方向。这种方案不仅适合教育类平台,也能够迁移到资讯网站、视频平台、知识型社区等场景中。

    24710编辑于 2025-09-03
  • 来自专栏科控自动化

    ​ 地热数据采集项目8 部署Docker和Fuxa

    Docker 的安装 Ubuntu 可以在线安装 docker,也可以通过以下网址 https://download.docker.com/linux/ubuntu/dists/bionic/pool/stable/armhf/ 下载所需版本自 行安装。 这里以在线安装为例,使用以下命令在线安装 docker apt-get install docker.io Fuxa部署 docker run -d -p 1881:1881 -v fuxa_appdata:/usr/src/app/FUXA/serv

    2K20编辑于 2022-12-01
  • 来自专栏运维监控日志分析

    可视化日志采集分析平台建设方案

    所以决定使用ELK+Filebeat的架构进行平台搭建。 最终,采用Elasticsearch+ Logstash+ Kibana+ Filebeat+ Kafka+ Zookeeper+ Zabbix+ Grafana 的架构构建日志采集分析平台。 2.架构分析 第一层、数据采集层,数据缓存层 在业务应用服务器安装 filebeat 做日志采集,同时filebeat将采集的日志转送至kafka/zookeeper集群。 Grafana Grafana是一款用go语言开发的跨平台的开源度量分析和可视化工具,可以通过将采集的数据进行查询监控可视化的展示。 16G 500G CentOS 7.7.1908 kafka-node2 2路8核 16G 500G CentOS 7.7.1908 kafka-node3 2路8核 16G 500G CentOS

    5.4K44发布于 2020-05-15
  • 来自专栏chaplinthink的专栏

    大数据平台如何实现任务日志采集

    背景 平台任务主要分3种: flink实时任务, spark任务,还有java任务,spark、flink 我们是运行在yarn 上, 日常排错我们通过查看yarn logs来定位, 但是会对日志存储设置一定的保留时间 jar,排除其它日志框架引入 采集架构设计 通过log4j appender 将采集的日志发送到接收中心,这里注意搞个buffer,通过http批量发送到接收中心,日志太小过滤掉. 进行简单的清洗转换后将数据sink到es中 用户通过界面根据各种条件如applicationId、时间、不同角色节点筛选,搜索到对应日志 总结 本文主要介绍了下基于log4j 自定义appender,实现了大数据平台相关任务日志的采集 ,针对不同类型任务的处理,获取最终我们平台搜索需要的功能. 日志采集注意采集量过猛可能会将磁盘打满,需要有相应的降级或者预防措施,用户不会考虑太多关于平台相关的东西. 大数据平台技术目前各大公司很多技术架构都差不多,就看细节的处理了.

    68810编辑于 2021-12-30
  • 来自专栏全栈程序员必看

    大数据采集平台之ZDH_SERVER部署

    目录 项目源码 下载源码 打包 部署 运行 ---- 项目源码 数据采集平台管理端 https://github.com/zhaoyachao/zdh_web 数据采集平台服务 https://github.com /zhaoyachao/zdh_server web端在线查看 http://zycblog.cn:8081/login 用户名:zyc 密码:123456 界面只是为了参考功能,底层的数据采集服务 需要自己下载 SERVER端安装 1 基础构建环境 gradle: 4.10.2 jdk:jdk8 mysql8或者mariadb10.2.14+ git:选择性安装看个人需要 下载源码 1 http

    64620编辑于 2022-06-28
  • Rokid AR 平台多媒体采集技术全景解析

    也正因此,Rokid AR Platform推出了一体化多媒体采集SDK,更让“空间计算”从概念走向落地。 接下来,让我们从多媒体采集(拍照、录音、录像)技术板块入手,带大家拆解这套让AR眼镜实现“眼观六路、耳听八方”的隐形工具链。 - 整个过程 640×480 以内 300 ms 可以跑完;4032×3024 要 8 s,且蓝牙通道占满,音频会卡顿。 (3)回调里的 `ByteArray? * 在眼镜上实测:如果 onAudioStream 里写磁盘,每次 write 超过 8 ms, * 就会触发“音频抖动”提示,用户能听见“咔哒”破音。 、五、总结:用代码打开“空间记忆”Rokid AR 平台通过一体化多媒体采集 SDK,围绕 “延伸感官” 需求实现了 “空间计算” 落地,其核心技术涵盖三大拍照途径(单机功能键盲拍、AI 场景拍照、唤起相机拍照

    69210编辑于 2025-10-14
领券