首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 第七章 AI数据质量-2

    1.数据不足:对于许多AI任务,特别是计算机视觉任务,需要大量的标注数据来训练模型。然而,在现实世界中获取这些数据可能非常困难和昂贵,尤其是对于稀有或危险的场景。 2.数据多样性:为了训练出泛化能力强的AI模型,需要具有多样性的训练数据。然而,现实世界中的数据往往存在偏差,这可能导致模型在某些场景下表现不佳。 合成数据我们既可以通过AI的方式来合成,如传统的生成对抗网络(GAN: Generative Adversarial Networks)以及最新的扩散模型(Diffusion Model)来合成数据,同时我们也可以借助 水平翻转图像也可以用于增强面部识别等任务的数据集,其中同一人的图像可能来自不同的角度。 2.旋转:旋转图像可以用来创建不同角度旋转的新图像。 图7-5 原图与图像增强效果图 7.5.2 基于AI合成数据 合成数据生成技术是一种通过计算机程序或模型来生成人工数据的技术,可以用于增加数据集的大小和多样性,从而提高机器学习模型的性能和鲁棒性。

    81610编辑于 2025-04-15
  • 来自专栏大数据杂货铺

    Edge2AI之从边缘摄取数据

    在本次实操中,您将使用 MiNiFi 从边缘捕获数据并将其转发到 NiFi。 实验总结 实验 1 - 在 Apache NiFi 上运行模拟器,将 IoT 传感器数据发送到 MQTT broker。 实验 2 - 创建一个流以使用 Cloudera Edge Flow Manager 从 MQTT broker收集数据并将其发布到 MiNiFi 代理。 ,并将数据发送到 MQTT 代理 ( mosquitto )。 实验 2 - 配置边缘流管理 Cloudera Edge Flow Management (EFM) 为您提供环境中所有 MiNiFi 代理的可视化总览,并允许您更新每个代理的流配置,并通过NiFi Registry 转到 NiFi Web UI 并确认数据正在流向 NiFi。检查消息的内容,就像我们之前所做的那样,确认有问题的读数已经消失。 验证数据后停止模拟器。

    2.1K10编辑于 2022-04-27
  • 来自专栏大数据杂货铺

    Edge2AI自动驾驶汽车:构建Edge到AI数据管道

    建立简单的云数据管道 该应用程序的数据管道建立在云中的EC2实例上,首先是MiNiFi C ++代理将数据推送到CDF上的NiFi,最后将数据发送到CDH上的Hadoop分布式文件系统(HDFS)。 此数据已传输到两个PutHDFS处理器,一个处理器用于将CSV文件加载到HDFS(2),另一个用于将所有图像文件加载到HDFS(3)。 ? 结论 本文介绍了Cloudera DataFlow是什么,以及在构建从边缘到AI的桥梁时如何将其组件作为必不可少的工具。 通过完成Edge2AI自动驾驶汽车教程,了解有关Cloudera自动驾驶汽车以及如何在仿真中构建自己的汽车的更多信息。 来源:https://blog.cloudera.com/edge2ai-autonomous-car-building-an-edge-to-ai-data-pipeline-2-of-3/

    1.6K10发布于 2020-02-11
  • 来自专栏量子位

    AI2想从常识测试开始让AI理解物理世界,数据集已公布

    近日,坐落在西雅图的艾伦人工智能研究所(AI2)的研究人员发起了新项目AI2逻辑挑战(AI2 Reasoning Challenge,ARC),他们将用小学难度水平的知识考验AI系统,看看它们的常识水平在什么 就拿今年一月微软和阿里巴巴的AI在斯坦福问答数据集的表现超过人类这事来说,这些AI还无法回答更复杂的问题,也很难利用其他的知识来源。 目前,ARC项目的进展和相关的数据集已经公开,感兴趣同学可以移步ARC项目的官网看看AI2是怎样测试AI对物理世界的理解的。 大侠请接好项目地址: http://data.allenai.org/arc/ 还有一份AI2给出的相关研究报告,也请一同接好: http://ai2-website.s3.amazonaws.com/ publications/AI2ReasoningChallenge2018.pdf

    87640发布于 2018-07-24
  • 来自专栏Android知识点总结

    2-AI--Activity启动方式

    standard.gif 依次打开Activity1、22、1、2 E/TASK_ID: Activity1 Task id is 89 E/TASK_ID: Activity2 Task id singleTop.gif 依次打开Activity1、22、1、2 E/TASK_ID: Activity1 Task id is 82 E/TASK_ID: Activity2 Task id is singleTask.gif 依次打开Activity1、22、1、2 E/TASK_ID: Activity1 Task id is 94 E/TASK_ID: Activity2 Task id singleInstance.gif 依次打开Activity1、22、1、2 E/TASK_ID: Activity1 Task id is 115 E/TASK_ID: Activity2 Task E/TASK_ID: Activity1 销毁 可见Activity2单独在一个栈中,多次开启Activity2不会新建实例 ?

    70240发布于 2018-09-26
  • 来自专栏大数据杂货铺

    Edge2AI之流复制

    由于我们还没有为源主题生成任何数据,因此复制的主题也是空的。 集群 A:为了检查复制是否正常工作,我们需要开始为集群A中的Kafka 主题global_iot生成数据。 即使统计数据尚未更新,请尝试单击放大镜图标查看数据。即使统计数据尚未刷新,这通常也会立即显示出来。 集群 B:单击集群复制图标 ( ) 并检查吞吐量和延迟指标,以确保一切都按预期工作。 让消费者从主题中读取一些数据,然后在屏幕上显示几行数据后按 CTRL+C。上面的命令将检索到的消息保存在good.failover.before文件中。 有时我们可以看到相邻消息之间有近 2 秒的间隔。 消费者故障回复的工作方式相同。在我们让消费者失败之前,我们需要将偏移量反向转换(从集群 B 到集群 A)。 有时我们可以看到相邻消息之间有近 2 秒的间隔,这是正常的。

    1.1K30编辑于 2022-04-27
  • 来自专栏Unity游戏开发

    游戏AI-A*寻路(2)

    我们修改A*PathfindingProject的部分源码来实现战术寻路 在Path中我们修改GetTraversalCost函数来实现路径代价的重新计算 源码

    84510发布于 2019-05-28
  • 来自专栏奇点大数据

    游戏AI小试牛刀(2

    上次我们说到用深度学习来做斗地主游戏AI的一个实验项目,这次我们来说说技术实现层面的一些问题。 对于这样一个应用场景来说,我们是可以把它当做类似于图片分类的场景去做的。

    87750发布于 2018-04-10
  • 来自专栏Go语言学习专栏

    2 - AI 应用开发 - AI 超级智能体项目教程

    一、Prompt 工程 基本概念 Prompt 工程(Prompt Engineering)又叫提示⁠词工程,简单来说,就是输入给 AI 的指令。比如下面这段内容,就是提示词: 请问什么是数据库? 用户:帮我生成什么是数据库这道面试题的答案 2)系统 Prompt (System Prompt):这是设置 AI 模型行为规则和角色定位的隐藏指令,⁠用户通常不能直接看到。 [如果回答仍然不够具体] 进一步改进: 详细分析AI在医学影像诊断领域的具体应用,包括: 1. 现有的2-3个成功商业化AI诊断系统及其准确率 2. 这些系统如何辅助放射科医生工作 3. 没有正确处理文件不存在的情况 2. 数据处理逻辑中存在边界条件错误 3. 代码注释不够详细 请重新生成代码,特别注意: 1. 添加完整的异常处理 2. 测试并确保所有边界条件 3. 隐私合规:用户数据本地加密,禁用敏感信息上传。 11. 答案可靠性:知识库需标注来源,避免版权争议。 12. 技术边界:明确提示AI不适用于高度开放式问题(如哲学讨论)。

    39410编辑于 2026-03-17
  • 来自专栏ADAS性能优化

    AI Weekly | Nov. 2, 2019

    Defense Innovation Board unveils AI ethics principles for the Pentagon AI ethics principles to guide DeepMind's AlphaStar Final beats 99.8% of human StarCraft 2 players In a paper published in the journal 2 players. (via Harvard Business Review) AI could be a disaster for humanity. He wrote the book on AI and is leading the fight to change how we build it.

    26620编辑于 2022-05-13
  • 来自专栏python数据分析实践

    数据规整(2

    1 分层索引(见上一篇文章) 2 联合与合并 (1)数据库风格的联合 数据集的联合将通过一个或多个键进行联合,这些操作与数据库类似。pandas通过merge函数进行联合。 例如下面语句: pd.merge(df1, df2, left_on = 'key', right_index = True, how = 'outer') 表示数据合并是依据df1的key列和df2 如果数据是多层索引,例如df1的索引列是key1和key2,则语句应该变为: pd.merge(df1, df2, left_on = ['key1', 'key2'], right_index = True, how = 'outer') (3)联合重叠数据 另外的一个数据联合场景,既不是合并操作,也不是连接操作。 本章的数据规整到此结束,目前已经了解了pandas的基础知识,包括数据导入、清洗和重新规整。

    1.1K10编辑于 2023-02-23
  • 来自专栏Unity游戏开发

    游戏AI-个体AI角色的操控行为(2)

    Force() { //随机位移 Vector3 randomDisplacement = new Vector3((Random.value - 0.5f) * 2 * wanderJitter, 0, (Random.value - 0.5f) * 2 * wanderJitter); //从初始点加上一个随机位移 circleTarget Wander.gif 6.避开障碍 通过在AI前方发射一条一定长度的射线来检测AI前方是否有需要躲避的物体,在有障碍时,我们给AI一个向量为向前方的向量加上障碍中心到AHead的向量,来让AI物体避开障碍 velocity = m_vehicle.velocity; Vector3 normalizedVelocity = velocity.normalized; //从AI

    85410发布于 2019-05-28
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    AI Earth ——开发者模式案例2:Landsat系列影像数据去云

    Landsat 系列数据去云¶ AIE平台中提供的 Landsat 影像均为 USGS Collection 2 中的数据,该集合使用 QA_PIXEL 波段对云、雪进行描述。 149.0)) return image.addBands(opticalBands, None, True).addBands(thermalBands, None, True) Landsat 数据检索 province', '浙江省')) \ .geometry() #加载影像 dataset = aie.ImageCollection('LANDSAT_LC08_C02_T1_L2' aie.Filter.lte('eo:cloud_cover', 20.0)) print(dataset.size().getInfo()) 算法调用¶ 对检索到的 dataset 进行去云算法到用并进行数据地图可视化显示 applyScaleFactors) image = images_no_cloud.mosaic() vis_params = { 'bands': ['SR_B4', 'SR_B3', 'SR_B2'

    74310编辑于 2024-02-02
  • 来自专栏新智元

    AI2新模型OLMo2,训练过程全公开,数据架构双升级

    新智元报道 编辑:peter东 乔杨 【新智元导读】非营利研究机构AI2近日推出的完全开放模型OLMo 2,在同等大小模型中取得了最优性能,且该模型不止开放权重,还十分大方地公开了训练数据和方法。 最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 训练过程全公开 不同于Llama、Qwen这类只开源模型权重的项目,这次AI2也秉持了一贯的开源风格,即不止发布了训练好的OLMo 2模型权重,还公开了训练数据、代码、训练过程。 预训练数据混合了高质量的网页数据、代码数据和学术论文数据等。 在预训练阶段,OLMo 2通过多种技术改进了训练稳定性,例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。 Deepseek V3能够以20分之一的成本进行训练,而OLMo 2团队也通过减少主机-设备同步、数据预处理、数据缓存等多种方法降低了训练成本,并取得了显著的成效。

    34210编辑于 2025-02-15
  • 来自专栏企鹅号快讯

    AI需要大数据,而大数据也需要AI

    美国知名AI作家Bernard Marr 说过:“过去,由于有限的数据集、非实时的数据和无法在数秒内分析大量数据,而导致AI发展受阻。 今天,可以实时访问数据和工具,实现快速分析,从而推动了AI和机器学习,并允许向数据优先的方法过渡。我们的技术现在已经足够灵活,可以访问这些庞大的数据集,以快速推进AI和机器学习应用程序。” AI和大数据形成了一种真正的共生关系,彼此需要。 然而,Manchett警告说,AI尚不足以满足非技术业务的需求。“为了实现大数据AI的目标,你仍然需要理解提取、转换和加载的概念,以及机器学习是什么,可以做什么。” 数据占据了中心位置。 “通过云计算,任何人都可以轻而易举地获得数据,大数据AI的可能性在我们的生活中变得越来越真实。”然后,AI和机器学习将变得司空见惯。

    803100发布于 2018-01-18
  • 来自专栏Y大宽

    RNA-seq(2)-2:下载数据

    这节按生信技能树的要求进行数据下载,同时下载一组肝癌数据。 PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式 1.0 论坛作业数据下载 首先,按照这个方法可以去查找文章和数据。 1.00下载自己的数据 首先在https://www.ncbi.nlm.nih.gov/sra,输入liver cancer,下载个较小的肝癌数据。 i=2;i<=5;i++));do ascp -QT -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp

    1.1K40发布于 2018-09-10
  • 来自专栏心源易码

    AI驱动TDSQL-C Serverless数据库技术实战】 AI电商数据分析系统——探索Text2SQL下AI驱动代码进行实际业务

    本篇通过 Python + Langchain + Llama大模型 + TDSQL-C Serverless 的框架,开发完成 AI电商数据分析系统 Demo的构建和部署。 在应用场景方面,Text2SQL 使非技术用户能够更轻松地从数据库中提取信息,帮助企业快速获取关键信息,促进数据驱动决策的制定。 /图表.png', width=800) 这段代码主要使了LangChain库与MySQL数据库搭建了一个简单的 AI电商数据分析demo。 并且在等待一段时间后,成功出图:三、Text2SQL下的AI驱动本篇实践中,我们基于Text2SQL原理,利用腾讯云的TDSQL-C MySQL Serverless和高性能应用服务HAI构建一个高效、 可扩展的AI电商数据分析系统,其中:数据存储:TDSQL-C MySQL Serverless提供弹性存储和高可用性,适合电商数据的大规模存储和查询需求。

    41910编辑于 2024-09-30
  • 来自专栏AI科技评论

    开发 | Comma.ai 发布无人驾驶数据集 comma2k19

    项目地址:https://github.com/commaai/comma2k19 comma.ai 发布了 comma2k19, 这是加利福尼亚280高速公路上超过33小时通勤的数据集。 comma2k19是一个完全可重现且可扩展的数据集。 数据采用comma EONs收集,其传感器类似于任何现代智能手机,包括道路相机,手机GPS,温度计和9轴IMU。 有关原始GNSS的示例,请查看 Laika 数据集结构 目录结构 数据被分成10块,每一块大约200分钟的车程。 数据集的1-2块是RAV4,其余的是civic。RAV4的dongle_id是b0c9d2329ad1606b, civic的dongle_id是99c94dc769b5d96e。 联系 有任何问题、疑虑或者建议,请联系harald@comma.ai 项目地址:https://github.com/commaai/comma2k19

    1.5K30发布于 2018-12-29
  • 来自专栏月色的自留地

    从锅炉工到AI专家(2)

    数据 上一节说到,大多的AI问题,会有很多个变量,这里深入的解释一下这个问题。 比如说某个网站要做用户行为分析,从而指导网站建设的改进。通常而言如果没有行为分析,并不需要采集用户太多的数据。 但从“机器学习”的角度看,这些数据量的变化,并没有什么不同,可能在算法上,也不需要有太大的改变。所以严格上讲,这样的数据管理,还不能叫大数据。 我们继续向下看,为了进行用户行为的分析。 我们还要增加很多用户数据的采集点。 但实际上离最优解还有很大差距.下面这张图是降维到2维的一张示意图,可以看的更清楚: ? 图中的G点是最优解,A/B/C/D点都是局部最优解。 陷入局部最优解的时候实际上只有这样几个选择:1.随机产生另外一组初始值,同时增加尝试求解过程的次数,从而得到不同的解,取其中最好的值;2.变更梯度下降步长;3.变更或者优化算法。

    58640发布于 2018-06-20
  • 来自专栏AI系统

    AI系统】Im2Col 算法

    N\times\left(\frac{H}{h}+2 (KH-1)\right)\times\left(\frac{W}{w}+2 (KW-1)\right)\times C作为早期的 AI 框架,Caffe 在 AI 框架发展的早期,Caffe 使用 Im2Col 方法将三维张量转换为二维矩阵,从而充分利用已经优化好的 GEMM 库来为各个平台加速卷积计算。 在 AI 框架中,Im2Col 通常是为了优化卷积操作而设计的,它通过将多次卷积操作转换为一次大矩阵乘法,从而可以利用现有的高性能线性代数库来加速计算。 随着 AI 框架的发展,很多框架也实现了更加高效的卷积算法,比如 Winograd 算法或者直接使用 cuDNN 等专门的卷积计算库,这些库内部可能对 Im2Col 操作进行了进一步的优化。 随着 AI 框架和硬件的发展,许多框架已经采用了更加高效的卷积实现,如直接卷积(Direct Convolution)、Winograd 算法或利用专用硬件加速器,这些实现可能不再需要显式的 Im2Col

    1.6K10编辑于 2024-12-17
领券