首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏企鹅号快讯

    AI需要大数据,而大数据也需要AI

    美国知名AI作家Bernard Marr 说过:“过去,由于有限的数据集、非实时的数据和无法在数秒内分析大量数据,而导致AI发展受阻。 今天,可以实时访问数据和工具,实现快速分析,从而推动了AI和机器学习,并允许向数据优先的方法过渡。我们的技术现在已经足够灵活,可以访问这些庞大的数据集,以快速推进AI和机器学习应用程序。” AI和大数据形成了一种真正的共生关系,彼此需要。 然而,Manchett警告说,AI尚不足以满足非技术业务的需求。“为了实现大数据AI的目标,你仍然需要理解提取、转换和加载的概念,以及机器学习是什么,可以做什么。” 数据占据了中心位置。 “通过云计算,任何人都可以轻而易举地获得数据,大数据AI的可能性在我们的生活中变得越来越真实。”然后,AI和机器学习将变得司空见惯。

    803100发布于 2018-01-18
  • 来自专栏ATYUN订阅号

    【观点】AI需要大数据,而大数据也需要AI

    AI和大数据已经形成了一种真正的共生关系,彼此需要相得益彰。 美国知名AI作家Bernard Marr 说过:“过去,由于有限的数据集、非实时的数据和无法在数秒内分析大量数据,而导致AI发展受阻。 今天,可以实时访问数据和工具,实现快速分析,从而推动了AI和机器学习,并允许向数据优先的方法过渡。我们的技术现在已经足够灵活,可以访问这些庞大的数据集,以快速推进AI和机器学习应用程序。” AI和大数据形成了一种真正的共生关系,彼此需要。 “通过云计算,任何人都可以轻而易举地获得数据,大数据AI的可能性在我们的生活中变得越来越真实。”然后,AI和机器学习将变得司空见惯。

    54970发布于 2018-03-06
  • AI Agent + 数据工程

    一位在数据领域深耕多年的创业者告诉我,早期AI数据工程领域的切入点其实很务实——那些原本需要大量人工的数据治理工作,恰恰是大模型最擅长的地方。 比如从海量数据中提炼关键信息、自动生成数据文档、识别重复和冗余的表结构。这些事情以前要靠专人花时间梳理,现在AI可以快速完成。 但这只是第一步。 更深层的变化在于,数据工程的需求本身正在被AI重塑。 以前的交付物很明确:一张张处理好的数据表,加上一个Dashboard,业务方看数据就够了。 现在呢?业务方不仅看Dashboard,还想直接跟数据对话——问AI一个问题,AI直接给出答案。 好的数据工程,应该配合AI在事中就做好管理和体系搭建。” 这句话背后是一个残酷的现实:以前数据工程师的工作更像是管道工——把数据从A搬到B,分层、清洗、汇总。 现在的要求变成了规划师——不仅要搬数据,还要让数据能被AI正确理解和调用。 这需要的不仅是技术能力,更是思维方式的转变。

    21310编辑于 2026-02-28
  • 来自专栏AI系统

    AI系统】数据并行

    数据并行是一种广泛应用于分布式 AI 系统中的技术,旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集,以提高计算效率和速度。 分布式数据并行 DDP分布式数据并行(Distributed Data Parallel, DDP)是数据并行的一种高级形式,它综合了多种优化,是当前应用最广的并行算法之一,通常用于大型 NPU AI 集群和 AI 系统中。 在通信的同时也会继续计算梯度,这样就无需等待所有计算完成后再集中进行通信,也不必在计算完成后等待通信完成,从而将通信过程覆盖到计算时间内,充分利用 AI 集群,提高了 AI 集群使用率。 DDP 反向传播中计算与通信的重叠导致无需等待所有计算完成后再集中进行通信,也不必在计算完成后等待通信完成,提高了 AI 集群的使用率。

    92710编辑于 2024-12-07
  • 来自专栏技术墨客

    数据AI

    一篇关于數據倉庫建設、人工數據分析、AI數據分析的讲义 數據Data&信息Information 信息 信息是一個客觀存在物體的自然表現,比如說“I am a local villain.” 隨著數據的不斷累積和堆積在數據背後發現了驚人的統計規律,隨著這些統計規律的發展漸漸的出現了AI分析和數據分析。 數據&數據分析&AI 如下圖是建立數據分析工程的過程 ? 根據需要訓練AI模型。 數據倉庫的建立 聯機事物型系統&決策分析系統 在數據能力上,通常將系統的數據結構模型分為2類,聯機事物型、決策分析型。 數據倉庫案例展示superset 地址:http://192.168.0.212:8088 賬號:admin 密碼:admin 數據分析到AI訓練 進過大量的數據演練,可以逐漸的發現數據背後的統計規律。

    78750发布于 2019-11-21
  • 来自专栏AI

    AI中的数据存储

    流水线中的数据存储类型和量级 图片 每个AI流水线中都涉及到数据存储 数据源-数据提取过程中涉及到: PB级别的顺序写 数据准备过程中: TB级别的顺序读 模型训练过程中: GB级别的随机读 检查点和恢复过程中 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高 AI集群中的数据移动 图片 1.数据采集阶段,原始数据按顺序写入对象存储层 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展,

    1.3K11编辑于 2024-09-18
  • 转载:【AI系统】数据并行

    数据并行是一种广泛应用于分布式 AI 系统中的技术,旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集,以提高计算效率和速度。 分布式数据并行 DDP分布式数据并行(Distributed Data Parallel, DDP)是数据并行的一种高级形式,它综合了多种优化,是当前应用最广的并行算法之一,通常用于大型 NPU AI 集群和 AI 系统中。 在通信的同时也会继续计算梯度,这样就无需等待所有计算完成后再集中进行通信,也不必在计算完成后等待通信完成,从而将通信过程覆盖到计算时间内,充分利用 AI 集群,提高了 AI 集群使用率。 DDP 反向传播中计算与通信的重叠导致无需等待所有计算完成后再集中进行通信,也不必在计算完成后等待通信完成,提高了 AI 集群的使用率。

    41110编辑于 2024-12-13
  • openEuler 高效 AI 数据管道

    开篇介绍AI训练的瓶颈往往不是模型计算,而是数据预处理。openEuler提供高效的数据处理管道,支持并行加载、GPU预处理、数据增强等优化。今天聊聊如何加速AI数据处理。 数据处理优化:多进程DataLoader并行加载提升5-10倍,DALIGPU预处理释放CPU,预取机制减少等待时间,数据缓存避免重复读取。 存储优化:NVMeSSD提升I/O吞吐,分布式文件系统支持大规模数据集,数据格式优化TFRecord/Parquet提升读取效率。 QPS提升40%,Web服务器并发提升50%,大数据任务快35%。 优化要基于数据驱动,每次都要测试对比,确保有效且稳定。

    21710编辑于 2025-12-03
  • 来自专栏人工智能LeadAI

    数据部门如何All In AI

    这也是很多大数据部门领导非常焦虑的地方。 那么出路在哪里呢? 02 ALL IN AI 事实上,真正能帮助业务提高效能,提供创新产品的必然是AIAI是一种模式的输出。 从上面我们可以看到,数据部门的最大价值,最终会通过AI来进行落地,并且还会给部门/公司提供了极为丰富的想象空间。 03 如何All In AI? 我们知道,AI平台是基于数据平台的之上的,其结构是一个金字塔形状的。所以第一步你需要有一个良好的数据平台,其次你还需要有一个AI平台,让单一算法落地变得容易。 现阶段,按我的了解,AI平台通常只能做到针对单一算法的自助化。那么为了让组织更加合理高效,重构数据部门团队就很有必要了。 04 总结 本文我们说了为什么要All In AI,要实现All In AI 不仅仅需要有一个好的平台(数据、算法平台),也需要有良好的动员人力资源的能力,采用一个合理的算法组织架构充分利用人力资源。

    42430发布于 2018-07-30
  • AI将受困于人类数据

    划重点:当前大型模型已逼近“人类数据”边界,唯有让智能体通过与环境实时交互来生成可随能力指数级扩张的原生数据AI 才能迈入“经验时代” 。 以下为演讲全文:从人类数据时代迈向经验时代刚才听了Bengio教授的演讲,现在确实是AI发展的激动人心的时代。我想分享两句引言,它们指向了我今天要表达的两个重要观点。 当时还没有AI这个领域,我认为这是第一次有人在公开场合展示AI。图灵强调的是一台能够从自己的第一人称经验中学习的机器,这就是我们今天真正在谈论的内容。现在,我们正处在人类数据时代。 AI需要一个新的数据源,这个数据源会随着智能体变得更强而增长和改善。任何静态数据集都将是不够的。你可以从经验中获得这种数据,从与世界的第一人称互动中获得。 如果观察控制AI的呼吁和控制人类社会的呼吁,会发现这两者惊人得相似。关于AI,有很多呼吁。有暂停或停止AI研究的呼吁,有限制可以用来制造AI的算力的呼吁,有确保AI安全制造和要求披露的呼吁。

    21600编辑于 2025-06-18
  • AI数据采集管理系统

    此时,一套基于AI技术的智能数据采集管理系统应运而生,它如同精密运转的数字中枢,将杂乱无章的信息流转化为可挖掘的金矿,为企业数字化转型提供坚实的数据底座。 一、多源异构数据的无缝对接:打破“数据孤岛”壁垒系统具备强大的跨平台、多格式数据接入能力,无论是结构化数据库、半结构化日志文件,还是非结构化的音视频素材,均可通过标准化接口实现统一纳管。 五、自适应迭代优化循环:与企业发展同频共振系统具备自我进化的自适应迭代能力,通过持续收集用户反馈和使用习惯数据AI引擎会自动调整采集策略优先级。 六、典型应用场景示例:赋能多行业数字化转型AI数据采集管理系统已在多个行业落地应用,创造显著价值:在智能制造领域,系统实时监控生产线参数波动,提前预警设备故障风险,帮助企业将良品率提升15%;智慧城市建设中 八、未来演进方向展望:开启数据智能新篇章随着联邦学习、隐私计算等新技术的成熟,下一代AI数据采集管理系统将实现更多突破:通过联邦学习技术,实现跨组织联合建模而不共享原始数据,打破数据协作的隐私壁垒;采用边缘节点自主决策与云端协同优化模式

    35110编辑于 2025-10-16
  • AI+Data:AI时代的企业数据治理

    随着AI应用对多源异构数据的需求增加,企业对于非结构化数据的价值化需求也在加速释放,而相应的数据治理模块也将获得进一步的关注与优化。 对于部署AI应用的企业来说,数据资源的质量直接决定了AI应用能否成功落地。因此,在推进AI应用的过程中,开展针对性的数据治理工作是首要且必要的步骤。 AI模型对数据高度敏感,低质量的数据会导致“garbage in, garbage out”的问题,即输入数据的缺陷会直接影响到输出结果的质量。 为了确保AI模型的有效性和准确性,必须保证数据的完备性和准确性。有效的数据治理不仅可以为AI模型提供高质量的数据原料,还能提高模型的拟合效果,进而增强AI应用的实际性能。 在金融、医疗、零售、工业以及互联网等数据基础建设较好的行业中,面向AI时代的数据治理正在逐步显现其优势。

    1.1K10编辑于 2025-01-03
  • 来自专栏祝威廉

    数据部门如何All In AI

    这也是很多大数据部门领导非常焦虑的地方。 那么出路在哪里呢? All In AI 事实上,真正能帮助业务提高效能,提供创新产品的必然是AIAI是一种模式的输出。 从上面我们可以看到,数据部门的最大价值,最终会通过AI来进行落地,并且还会给部门/公司提供了极为丰富的想象空间。 如何 All In AI? 对于这件事情,我们要仔细研究一个核心的东西: 资源。 我们知道,AI平台是基于数据平台的之上的,其结构是一个金字塔形状的。所以第一步你需要有一个良好的数据平台,其次你还需要有一个AI平台,让单一算法落地变得容易。 现阶段,按我的了解,AI平台通常只能做到针对单一算法的自助化。那么为了让组织更加合理高效,重构数据部门团队就很有必要了。 总结 本文我们说了为什么要All In AI,要实现All In AI 不仅仅需要有一个好的平台(数据、算法平台),也需要有良好的动员人力资源的能力,采用一个合理的算法组织架构充分利用人力资源。

    46320发布于 2018-08-27
  • 数据质量决定AI命运

    上个月参加一个AI技术沙龙,我问了在座的技术负责人这样一个问题。 原本以为会听到关于算力、算法或者成本的回答,结果大家的答案出奇一致——数据质量。 一个创业公司的CTO感慨地说:"我们现在花的钱,80%都在找数据、清洗数据、标注数据,真正的模型训练反而是小头。" 这个回答让我意识到,我们正处在AI发展的一个重要转折点。 解密高质量数据集的三张面孔 很多人对数据集的理解还停留在"图片+标签"的层面,认为只要有数据就能训练AI模型。但实际上,高质量数据集远不止这么简单。 从数据模态来看,现代AI需要的是多维度的数据生态。 2025年,AI智能体和高质量数据集建设的双重推进,将把人工智能带入一个新的发展阶段。这个阶段的特征是数据质量成为决定性因素,技术创新与数据资源同等重要。 数据质量决定AI命运,也决定我们在AI时代的命运。

    16610编辑于 2026-02-02
  • 来自专栏嵌入式音视频

    AI数据分析-数据可视化模块

    NumPy(Numerical Python) 是科学计算基础库,提供大量科学计算相关功能,比如数据统计,随机数生成等。 Numpy 是 Python 语言在科学计算领域取得成功的关键之一,如果想通过 Python 语言学习数据科学、人工智能(包括深度学习、语言处理等分支),就必须学习 Numpy。

    96220编辑于 2023-03-16
  • 数据编织平台实现AI代理自助数据访问

    数据编织初创公司实现AI代理自助数据访问数据管理初创公司某机构宣布对其即时数据编织平台进行重大更新,使其兼容"代理式"人工智能,实现真正的"大规模自助数据访问"。 用户连接数据源后几分钟内即可获得数据驱动的决策。AI代理的数据访问最新版本的即时数据编织平台据称可扩展自助数据访问,同时避免数据重复或创建新管道的风险。 更重要的是,如今不仅人类需要答案,AI代理也越来越需要能够快速访问数据并挖掘关键洞察。 这是在AI时代数据交付和消费方式的基础性变革。"某机构首席执行官表示,新的即时数据编织平台旨在帮助企业跟上代理式AI发展的步伐。 但我们正在赋予数据团队新的超能力,使他们能够按需提供可信的、具有上下文的答案。这是在AI时代扩展自助数据服务最快、最开放的方式。"

    27610编辑于 2025-10-06
  • 来自专栏云云众生s

    AI 引入数据中心

    AI 引入数据中心 翻译自 Bringing AI to the Data Center 。 不管你喜不喜欢,许多公司最重要的数据都存在于数据中心。很快,这将不再是交付 AI 的障碍。 亚马逊也有自己的芯片,用于为 AI/ML 工作负载提供动力。 针对 AI 进行优化 GPU 一直是最近占据头条新闻的 AI 创新热潮的基础。 将 AI 带给数据 由于所有这些辛勤工作和创新,人工智能将不再专门提供给在云中拥有数据的组织。这对隐私非常重要,这是许多组织将数据保存在自己的服务器上的一个重要原因。 像 ThirdAI 这样的团队的努力也使所有组织能够“将 AI 带给数据”。 长期以来,公司被迫做相反的事情:将他们的数据带到人工智能上。 将 AI 带给数据是我们 DataStax 通过实时 AI 工作非常关注的事情,因为它是基于 ML/AI 采取行动,取悦客户并增加收入的最快方式。

    35610编辑于 2024-03-27
  • 来自专栏机器学习算法与Python学习

    顶级AI数据】资源送给你!

    这是我最喜欢的数据集之一,每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。 同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。 2、Amazon数据集 AWS开放数据地址 https://registry.opendata.aws/ ? 这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。 这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。 其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

    61830发布于 2019-07-04
  • AI数据分析全攻略:如何利用AI工具提升数据洞察力

    在当今数字化时代,AI 数据分析愈发重要,它助力我们从海量数据中挖掘有价值的信息。而掌握 AI 数据分析基础、运用各类工具与技术以及实现数据洞察与决策支持,是我们在这一领域取得成效的关键。 一、 AI数据分析基础1.1 AI数据分析概述1.1.1 数据分析的定义与重要性数据分析是指通过统计方法、数据挖掘技术、信息处理和人工智能等手段,对大量数据进行收集、整理、处理和分析,以提取数据中的有价值信息的过程 数据预处理:AI可以自动识别和纠正数据集中的错误、异常和缺失值,提高数据质量。此外AI还可以进行数据清洗、数据集成、数据转换等操作,为后续分析提供高质量的数据基础。2. 结果解释:AI可以帮助解释模型的预测结果,提高模型的可解释性。此外AI还可以进行异常检测、关联分析等操作,发现数据中的隐藏模式。优势相比于传统数据分析方法,AI数据分析中具有以下优势:1. 自动化:AI可以自动完成数据预处理、特征工程、模型构建等操作,提高数据分析的效率。2. 高效性:AI可以快速处理大量数据,提高数据分析的速度。3.

    1.5K10编辑于 2025-10-09
  • 来自专栏云云众生s

    提升AI效率:数据分块与文档数据

    文档型数据库凭借其灵活的模式和存储嵌套数据结构的能力,在数据分块方面提供了相当大的优势。 译自 Boost AI Efficiency: Data Chunking Meets Document Databases,作者 Apoorva Joshi; Jourdan Patrick。 在当今数据驱动的世界中,高效管理大型数据集对于现代AI应用的成功至关重要。一种获得显著关注的方法是数据分块——将大型数据集分解成更小、更易于管理的片段,以便更容易地处理、存储和检索。 在AI应用中,分块使得处理大型文本数据集更容易,其中将文本分成较小的块可以提高处理和检索效率,从而提高性能和可扩展性。 这种方法有利于AI应用中的查询和检索,在这些应用中,快速访问特定信息至关重要。通过将数据分成块,系统可以更有效地处理和存储信息,优化大型应用中的性能和资源使用。

    43210编辑于 2024-12-17
领券