首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NLP/KG

    数据开发平台

    1 特征平台 2.DeepInsight

    5.1K40编辑于 2023-03-17
  • 来自专栏算法无遗策

    BI、数据仓库、ETL和数据开发(大数据开发)会有区别吗?

    首先说说数据仓库系统构建过程中一些主要的环节: 1. 数据收集 2. ETL 3. 报表系统的开发 4. 基础技术环境的构建、维护 5. 算法、数据挖掘 6. 类似于AB测试系统各个数据应用系统的开发 7. 数据安全、备份 基本上1,3 ,4 ,6,7项工作是属于工程属性比较强的工作,2,5项属于工程和领域知识有交叉的工作。 1. 数据收集。 这个环节需要一个根据具体的业务需要,通过ETL过程形成数据仓库的层次化体系结构以及抽象概念系统,以便于后续的报表开发数据分析、数据挖掘。 3. 报表系统开发。 技术上需要一个开发工程师来做,需求上需要一个熟悉业务的人来定。报表系统的内容会随时间、随业务不断演化,因此设计上也需要适应这种演化。 4. 基础技术环境的构建、维护。 类似于AB测试系统各个数据应用系统的开发数据分析、数据挖掘的结果需要应用到产品的优化上,而数据的应用系统就是要打倒这个目的的。这些系统仅仅作为桥梁存在,主要就是要保证性能达标、以及逻辑正确。

    8.1K20发布于 2019-12-23
  • 实时开发IDE!数据开发效率开挂

    「实时开发IDE」AIIData数据中台实时开发IDE,基于开源项目Dinky构建。具备强大的调试功能,能实时追踪代码执行过程,快速定位问题。支持多种实时计算引擎,无缝适配不同业务场景。 还能与数据中台其他组件高效协同,简化数据流转,大幅提升实时开发效率,助力企业快速响应业务需求,挖掘数据实时价值。 02 丰富的数据源支持集成了多种常见数据源的连接器,支持快速接入和处理来自不同数据源的数据。这为开发者提供了更多的数据选择,满足了不同业务场景的需求。 「 数据分析需求及目标 」核心价值契合点01 敏捷开发:Dinky的SQL/UDF模板库与可视化开发界面,降低实时任务开发门槛,缩短需求响应周期。 「 AllData数据中台 - 主页 」 「 功能点展示 」实时开发IDE(Dinky)以低代码拖拽式开发、Flink引擎兼容、可视化调试与SQL标准语法为核心优势,可高效支撑市场趋势预测、用户行为实时响应

    37220编辑于 2025-05-26
  • 来自专栏TASKCTL技术交流讨论

    数据开发平台-数据同步服务

    然后,在开发平台中处理完毕的数据,有时候也并不能或者不适合在大数据开发平台的相关服务中直接使用,需要反馈回线上的业务系统中,这个过程我们称为数据的回写或导出。 从上述三类应用场景来看,我们可以看到,通常来说我们所说的大数据开发平台环境下的数据同步服务,主要处理的是不同系统组件之间的数据导入导出工作。 更重要的是要构建任务的配置,管理,监控,调度等服务,以及对整个数据同步业务流程和生命周期的封装,和对用户交互体验及产品形态的完善。理想中,需要和开发平台整体开发环境深度集成。 这两种情况,通常都是因为业务方的业务流程本身并不依赖于这些时间信息的记录,但是做数据统计的时候需要这些信息,而业务开发方和数据统计方负责的同学是两拨人,开发方没有充分考虑统计的需求。 小结 总体来说,大数据开发平台的数据同步服务的构建,可以参考的方案很多,具体的读写组件的开发也并不困难,能够找到很多现成的解决方案。对于多数公司的大多数业务来说,底层不论采取什么方案,通常都是可行的。

    3.3K40发布于 2020-07-22
  • 来自专栏五分钟学大数据

    数据开发流程规范及数据监控

    设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素,更好地组织与存储数据开发阶段:数据研发者如何高效、规范地进行编码工作。 需要和业务方、产品方评估数据可行性,数据开发数据源并不是凭空出现的,需要和业务方明确已有数据能否支撑需求开发,如果缺少数据,则需要另行规划缺失数据的抽取方案。 需要自己评估技术可行性,数据开发可能涉及到数据传输、数据同步、ETL、实时开发、离线开发等等,要评估从数据源获取到数据展现一套流程的可行性,例如:数据源如果为多个地方产出,可能需要从binlong获取、 避免数据指标不匹配,导致二次开发开发过程中,文档要规范,先设计在开发,而且在做系统建设的时候,要有全局视野,不局限某一个点,并不是发布完成了,就算结束,代码开发完成只是第一步,后续的文档建设、代码复盘、数据监控、数据告警、稳定性等等,

    2.1K21编辑于 2022-10-05
  • 来自专栏大数据开发

    Java大数据开发做什么?Java大数据开发成长路线

    Java开发是IT行业的经典岗位,行业当中存在普遍的需求,Web开发、Android开发、游戏开发等岗位,基本上Java语言是主力队伍。而进入大数据时代,Java又在大数据方向上有了用武之地。 而在Java大数据开发岗上,这种说法同样有可参考之处。 这几年在大数据的影响下,学Java走大数据开发方向的热度很高。 大数据平台开发,就是针对于大数据系统平台本身进行开发,比如说国内的BAT为代表的头部企业,以及一些独角兽企业,都是有自身的大数据平台的。 大数据应用开发,则是基于开源的Hadoop、Spark等基础架构,进行具体的应用开发,满足企业级的数据平台的各种实际数据需求。 关于Java大数据开发做什么,Java大数据开发成长路线,以上就为大家做了一个详细的介绍了。大数据在更多行业当中的落地应用,对大数据开发人才的需求也在增加,作为Java开发的一个新方向,前景可期。

    2.7K10发布于 2020-11-06
  • 来自专栏用户8715145的专栏

    如何开发cdn数据开发cdn数据库的作用

    cdn数据库是我国目前非常大型的数据库之一,而且目前开发一个cdn数据库也不是特别困难,下面就介绍一下如何开发cdn数据库。 image.png 开发一个cdn数据库有什么作用 众所周知cdn数据库中存储了大量的网络请求数据,很多用户在浏览网站之前会发出对网站浏览的请求。 如何开发cdn数据库 想要开发一个cdn数据库要到专业的cdn数据库官网上去,网站会自动审核大家提供的个人信息以及颁发开发cdn数据库的个人证书。 大家在开发cdn数据库的时候不仅要进行实名认证同样也要注册一个新型的cdn数据库的域名,这样才不会影响日后cdn数据库的使用。 通过上面的内容已经给大家讲解了如何开发cdn数据库。 数据库的开发和使用对于网络信息的存储拥有着重大的意义,而且在开发完cdn数据库之后,传输数据的速度也会大大加快。

    2.2K40发布于 2021-09-18
  • 来自专栏云计算认知升级

    基于云开发开发 Web 应用(三):云开发相关数据调用

    介绍 在完成了 UI 界面的实现后,接下来可以开始进行和云开发相关的数据对接。完成数据对接后,应用基础就打好了,接下来的就是发布上线以及一些小的 feature 的加入。 云开发数据查询目前必须登陆后才可以查询,因为希望给用户提供的是免登陆的解决方案,因此,必须开通匿名登陆,确保可以进行数据查询。 $mount('#app') 加入完成后,你可以使用云开发数据库等命令,来完成相应的数据库调用,验证自己的调用是否正常。 根据控制台返回的信息来看,是用户登陆状态尚未完成,就进行了数据查询。 通过查询云开发的文档,发现云开发的 auth 对象在登陆的时候,可以传入一个 persistence 来控制身份信息的持久化。 $mount('#app') 总结 在实际开发中,如果你需要通过云开发的 Web SDK 调用相应的数据,则需要先行开启云开发的匿名登陆并配置 Web 安全域名;在数据调用的部分和在小程序端调用云开发没有太大的区别

    2.4K20发布于 2020-02-06
  • 鸿蒙next版开发:相机开发-元数据(ArkTS)

    在HarmonyOS 5.0中,ArkTS提供了对相机元数据的访问能力,这对于开发者在相机应用中获取图像的详细信息非常有用。 相机元数据开发步骤1. 导入相关接口首先,需要导入相机相关的接口,以便使用相机服务。 监听元数据对象可用事件在相机应用开发过程中,可以随时监听元数据对象可用事件。 停止输出元数据数据调用Session.stop方法停止输出元数据数据。 元数据是相机开发中的一个重要方面,它提供了图像的详细信息,可以帮助开发者实现更丰富的功能。希望本文能够帮助你在开发过程中更好地利用ArkTS的相机元数据功能。

    44200编辑于 2024-11-13
  • 来自专栏全栈程序员必看

    开发数据基础教程(前端开发入门)

    6) Hadoop 的集群结构 7) Hadoop 伪分布的详细安装步骤 8) 通过命令行和浏览器观察hadoop 二、 HDFS体系结构和shell以及java操作 详细剖析HDFS,从知晓原理到开发网盘的项目让大家打好学习大数据的基础 Hadoop2.x集群搭建前面带领大家开发了大量的MapReduce程序,此部分将带来大家让开发的程序运行在分布式集群中,并且运行在健壮高可用的集群中。 10) flume 和kafka 的整合 Zookeeper 开发Zookeeper在分布式集群(Hadoop生态圈)中的地位越来越突出,对分布式应用的开发也提供了极大便利,这也是这里我们带领大家深入学习 本课程主要内容包括Zookeeper深入、客户端开发(Java编程,案例开发)、日常运维、Web界面监控。大家这里学好Zookeeper,对后面学习其他技术至关重要。 ,大家将全面掌握Storm内部机制和原理,通过大量项目实战,让大家拥有完整项目开发思路和架构设计,掌握从数据采集到实时计算到数据存储再到前台展示,所有工作一个人搞定!

    1.6K10编辑于 2022-07-28
  • 来自专栏程序员千羽

    开发必掌握!JSON数据交互和RESTful开发

    聊聊Spring数据开发 Spring事务还能这样管理? 老师问我 Spring MVC 的工作流程 分享 | 后端必会的Spring MVC核心类和注解 还有人不知道? 时隔一个月,让大家久等了 Spring Boot整合JustAuth,实现第三方登录 SpringBoot-Vue 前后端分离开发 微服务架构之Spring Cloud入门 微服务架构之Spring Cloud 要使用MappingJackson2HttpMessageConverter对数据进行转换,就需要使用Jackson的开源包,开发时所需的开源包及其描述如下所示: jackson-annoations- 下载地址:http://mvnrepository.com/artifact/com.fasterxml.jackson.core 使用的注解 “在使用注解式开发时,需要用到2个重要的JSON格式转换注解 通过这篇文章的学习,我们可以掌握Spring MVC中的JSON数据交互和对RESTful风格支持,这对今后实际工作开发有极大的帮助。 革命尚未成功,同志仍需努力,冲冲冲

    1.4K20编辑于 2021-12-29
  • 来自专栏码客

    数据开发-Spark编程

    rightOuterJoin: (spark,(Some(1),100)) (spark,(Some(2),100)) 共享变量 广播变量 广播变量(broadcast variables)允许程序开发人员在每个机器上缓存一个只读的变量 通过这种方式,就可以非常高效地给每个节点(机器)提供一个大的输入数据集的副本。 Spark的“动作”操作会跨越多个阶段(stage),对于每个阶段内的所有任务所需要的公共数据,Spark都会自动进行广播。通过广播方式进行传播的变量,会经过序列化,然后在被任务使用时再进行反序列化。 这就意味着,显式地创建广播变量只有在下面的情形中是有用的:当跨越多个阶段的那些任务需要相同的数据,或者当以反序列化方式对数据进行缓存是非常重要的。 Spark原生地支持数值型(numeric)的累加器,程序开发人员可以编写对新类型的支持。如果创建累加器时指定了名字,则可以在Spark UI界面看到,这有利于理解每个执行阶段的进程。

    66520编辑于 2022-04-28
  • 来自专栏大数据开发

    数据开发:关于SpringMVC

    SpringMVC 是类似于 Struts2 的一个 MVC 框架,在实际开发中,接收浏览器的请求响应,对数据进行处理,然后返回页面进行显示,但是上手难度却比 Struts2 简单。 )和数据访问层(DAO,Data Access Object)。 很多应用程序的问题在于处理业务数据的对象和显示业务数据的视图之间存在紧密耦合,通常,更新业务对象的命令都是从视图本身发起的,使视图对任何业务对象更改都有高度敏感性。 基于请求驱动指的就是使用请求-响应模型,框架的目的就是帮助我们简化开发,SpringMVC也是要简化我们日常Web开发。 View类型(jsp、freemarker、velocity) 一般情况下需要通过页面标签或者页面模板技术将模型数据通过页面展示给用户,需要由程序员根据业务需求开发具体的页面。

    79430发布于 2021-02-05
  • 来自专栏大数据开发

    数据开发-HBase合并

    无论是在大数据开发的学习中还是其他的学习,小技巧都能够在我们的学习路上带来很多实用的帮助。 一、概述 老规矩,先来给大家复习下一些基础知识,免得又忘了。 当HBase合并时,会清空以下三种数据 1.标记为删除的数据。 当我们删除数据时,HBase并没有把这些数据立即删除,而是将这些数据打了一个个标记,称为“墓碑”标记。 在HBase合并时,会将这些带有墓碑标记的数据删除。 2.TTL过期数据 TTL(time to live)指数据包在网络中的时间。 如:列族设置版本号是5,当此列族第六次保存数据时,会将最早一次数据删除。 HB7add29012eac247e6e00be3444eb88.png 以上就是本期的所有内容了,至此大数据开发的HBase的知识点也告一段落了,如果忘了之前的知识,可以翻一翻我的文章,我都是按学习顺序写的

    1.1K21发布于 2021-05-10
  • 来自专栏cwl_Java

    数据-UDF开发实例

    UDF 开发实例 3.3.1. Step 1 创建 Maven 工程 <dependencies> <! Step 2 开发 Java 类集成 UDF public class MyUDF extends UDF { public Text evaluate(final Text str) {

    78510发布于 2019-12-26
  • 来自专栏Java项目实战

    Python数据开发代码示例

    引言 随着人工智能和大数据的快速发展,机器学习和数据科学成为了炙手可热的领域。Python作为一种功能强大且易于学习的编程语言,成为了开发机器学习和数据科学应用的首选语言。 本文将介绍如何在Python中进行机器学习和数据科学开发,并提供代码示例。 环境准备 在开始之前,我们需要准备好Python的开发环境。 ,可以开始进行机器学习和数据科学开发了。 数据准备 在进行机器学习和数据科学开发之前,我们需要准备好相应的数据数据可以来自各种来源,例如CSV文件、数据库或Web API。 我们首先准备了开发环境,然后使用一个经典的鸢尾花数据集作为示例数据进行演示。

    55140编辑于 2023-08-08
  • 来自专栏我只不过是出来写写iOS

    iOS开发——解析XML数据

    移动端开发中,与后台服务数据请求打交道,现在通常是以JSON格式数据进行处理交互。最近碰到一个项目,后台数据交互返回XML格式数据,很久没有接触此类数据了,稍微记录下。 解析XML数据时,使用的是XMLReader第三方框架。该框架中的解析数据方法非常简单。 该框架本身提供了四种方法,以传入NSData与NSString格式的XML数据进行解析,并返回一个数据字典。 dictionaryForXMLString:(NSString *)string options:(XMLReaderOptions)options error:(NSError **)errorPointer; 出于技术开发的特性 开始代理实现 创建了一个堆栈字典dictionaryStack,用于管理每次执行解析代理时的新数据。 拼接key 这个代理方法中,在获取一个标签首尾间的字符数据时,这个方法可能被调用多次。要获取完整的数据,就需要使用append方法来拼接,并存入textInProgress ?

    1.6K10发布于 2019-04-02
  • 来自专栏全栈程序员必看

    数据开发和java开发有什么不同?

    最近发现有些同学并不太了解大数据开发工程师这个职位,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的Java或者PHP工程师在工作上有什么区别? 从业务系统的数据库中查询数据然后产出报表不是大数据开发。 端上(页面,h5,手机native)埋点上报数据记录到数据库中不是大数据开发。 什么是大数据开发? 1. 大数据开发需要的技能 到智联上搜了一下大数据开发工程师这个职位,随便点了几个职位,截图如下: 所以说,现在互联网公司所指的大数据开发用到的工具是:hadoop,hive,hbase,spark,kafka 大数据开发和一般业务开发的对比 在转做大数据开发之前,一直在用Java作业务系统: 例如hr系统(考勤,薪资等),收费系统。 谈谈我个人对业务系统开发和大数据开发的理解: 业务系统: 一句话:对数据库的各种增删改查操作。

    60710编辑于 2022-09-01
  • 来自专栏APP开发

    WebGL 开发数据孪生项目

    WebGL 开发数据孪生项目(如工业设备仿真、城市数字孪生、能源系统监控等)的核心目标是 “高保真、低延迟、强交互” 地呈现三维空间中的实时数据映射与动态分析。 实时数据与三维模型的动态绑定(1)多源异构数据的接入与解析问题:数据孪生需融合多种数据源(如 IoT 传感器实时数据、SCADA 系统工业数据、GIS 地理信息、业务系统数据库),数据格式多样(JSON 解决方案:数据中间层(Data Middleware):通过 WebSocket/HTTP 长连接接收实时数据,使用 Kafka/RabbitMQ 做消息队列缓冲高并发数据流,再通过 规则引擎(如 Node-RED 二、典型技术栈与工具链渲染引擎:Three.js(易上手,适合快速开发)、Babylon.js(功能全面,内置物理引擎和后处理)、原生 WebGL(极致性能控制,但开发成本高);数据处理:Node.js 三、总结WebGL 数据孪生项目的核心难点在于 “用有限的计算资源(GPU/CPU)实现无限的数据复杂度” ,需要开发者平衡 渲染性能、数据实时性、交互体验与跨平台兼容性 。

    31810编辑于 2025-09-12
  • 来自专栏Linyb极客之路

    数据服务开发经验

    在我负责顺风车LBS以来,感受愈加强烈;区别于无状态服务,数据服务的几个方面需要格外关注。(此处假设数据服务类似redis基于内存,数据量大到需要磁盘存储,关注点会有所不同。) 架构设计:多主、主从或者主备,关系到数据分片;考虑服务故障、数据一致性、读写效率等;扩容缩容要方便; 数据同步:不同的集群架构,选择不同同步方式,主从同步或上游同步,RPC或者MQ; 数据存储:在线部分关注数据结构和锁粒度设计 数据同步 由于分区存在多个角色相同的服务,都接受分区全量数据数据一致性格外重要;多主架构,上游或者proxy保证数据一致性,如通过RPC请求: ? 数据同步 ? 以redis为例,数据同步通过数据文件和命令操作实现。初次同步master将数据文件完整发送给slave,后者load至内存;随后增量同步,逐命令或者定时同步写操作。 数据存储 数据结构 为了更合理的设计锁,通常都会自研一些数据结构,存储数据,提供快速读写功能。redis由于单线程设计,并没有过多考量,但还是设计了不少优秀的数据结构,如hash、跳表等。

    1.2K40发布于 2019-03-07
领券