首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI科技评论

    干货 | 2 分钟论文:如何使用数据合成烟雾流 ?

    来源 / Two Minute Papers 翻译 / 张丽敏 校对 / 凡江 整理 / 雷锋字幕组 本期论文:基于CNN特征描述符的数据驱动合成烟雾流体 Data-Driven Synthesis of 如果我们可以在人工智能技术的基础上,可以理解模仿烟雾的关键,提取出粗略的数据,并添加一些非常精细的细节进去,那么我们可以在更短的时间内完成整个计算过程,以此获得获得更高分辨率的模拟烟雾,而非等待数日,乃至一周甚至更长 我们建立一个模拟数据库,把它们分成小块,在低分辨率和高分辨率下观看同样的视频,看看这些视频互相之间的联系。 当我们找到最合适的碎片时,就可以将粗糙的模拟切换到数据库中最合适的高分辨率碎片。理论上你可能会说,制造这样一个科学怪人一般的烟雾模拟听起来很有吸引力,事实上,当我们看到最后的模拟效果,简直是完美!

    1.1K50发布于 2018-03-14
  • 来自专栏GIS与遥感开发平台

    GEE合成无云的Landsat-8和哨兵-2数据

    Google Earth Engine(合成的影像) Landsat-8(30m分辨率)和哨兵-2(10m分辨率)都是我们常用的遥感影像数据。 而用Google earth engine,我们就可以直接下载镶嵌好的数据,十分的方便。 今天,我们就以Landsat-8和哨兵-2为例,演示如何合成无云的影像并且下载。 (GEE数据下载方法上期已经讲过,就不再写在代码里了。) 哨兵-2数据合成 哨兵-2数据的空间分辨率为10m,时间分辨率为5天。 选择的数据为2018-06-01到2018-10-30之间的数据,我们把云量大于百分20的数据筛选掉。并且通过哨兵-2的质量检查波段进行去云处理。 然后,对所有的数据进行平均值合成,就可以得到一景无云的哨兵数据

    7.3K21编辑于 2022-04-29
  • 来自专栏深度学习和计算机视觉

    创建合成CT图像数据

    我们创建的图像看起来非常逼真,适合创建用于深入学习的训练数据集。我们应用此方法为Covid19的CT挑战赛的开发人员创建一个合成玩具数据集。 数据隐私是医学图像数据公开的一个重要挑战。 示例图像如图2所示。 ? 以上是四个胸部CT的冠状位中心切片。你可以猜出哪些是合成的吗?文章最后给出答案。 考虑到源数据本身在任何时候都不可公开访问,开发人员数据集中的合成图像不再与任何原始源数据关联。 拓扑差异导致错误注册,这表现为合成图像中的涂抹或压缩伪影。 插值伪影:由于合成体中的体素强度是通过插值计算出来的,因此图像与原始数据相比具有稍微模糊的外观。 原文链接:https://towardsdatascience.com/creating-synthetic-ct-data-for-deep-learning-2dca1e43c4f0 ☆ END ☆

    1.5K20发布于 2020-07-20
  • 来自专栏杨焱的专栏

    Word 模板动态数据合成

    * 项目名称:dev * 文件名称:DocxTemplateUtils.java * 日期:17-10-11 下午2:18 * 作者:yangyan * */ package com.deyatong.common.util > params; //数据填充对象 InputStream is; //读入模板文件的流 XWPFDocument doc; //内存中构建的文档对象 /** = xt.getRow(rowIndex + i); if (row2 == null) { row2 = xt.createRow(); } List<XWPFTableCell> cells = row2.getTableCells(); List<String> clist = data.get (i); for (int k = 0; k < clist.size(); k++) { XWPFTableCell cell = row2.getCell

    1.2K30编辑于 2022-02-19
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    歌声合成相关的数据

    GTZAN Genre Collection GTZAN数据集是一个非常流行的音乐数据集,包含10个音乐流派,每个流派有100首30秒的音频片段。 获取方式: 你可以在 marsyas.info 网站上找到GTZAN数据集的下载链接。 2. Million Song Dataset (MSD) MSD是一个包含100万首歌的元数据和音频特征的数据集。虽然它不包含实际的音频文件,但可以与其他数据集结合使用。 获取方式: 访问 VoxCeleb 网站,按照指示申请和下载数据集。 4. FMA: Free Music Archive FMA数据集是一个开源的音乐数据集,包含各种流派的音频文件和元数据。 使用数据集的建议 阅读文档:下载数据集前,请仔细阅读相关文档和许可协议,确保合法使用数据数据预处理:下载数据后,可能需要进行预处理,如格式转换、特征提取等。

    97710编辑于 2024-06-06
  • 来自专栏企鹅号快讯

    漫谈语音合成之Char2Wav模型

    漫谈语音合成之Char2Wav模型 语音合成是指将文本转化成音频的过程,整个过程的难点可以用两个词语来形容:清晰度(Intelligibility)和自然度(Naturalness),清晰度是指合成的音频是否是干净的 合成式(Concatenative TTS),这种方法需要大量的剪辑音频组成的数据库,然后根据文本内容从数据库中挑选相应的音频片段,把它们拼到一起播放即可。 这种方法所需要的工作量以及数据库数量相比于合成式都要少,但是,这些特征都是人为手动提取的,是基于我们人类对音频的理解,这些手动提取的特征不一定就完全适合语音合成。 Char2Wav模型是由Bengio组提出来的一种基于深度学习的端对端语音合成模型,Char2Wav由两部分构成,分别是reader和neural vocoder,其中reader是一个基于注意力机制的 不同于传统的语音合成模型,Char2Wav直接将文本作为输入就可以输出音频,Char2Wav的模型结构如下图所示。

    1.5K90发布于 2018-01-22
  • 来自专栏未竟东方白

    【Matlab】表情合成尝试(2)——传统的表情映射

    本来觉得是不难的东西结果由于踩了很多坑结果搞了好久才搞出来,勉强算是知道怎么开头做这个表情合成了,那就这样,一步一步。 二.进行表情标记 使用Matlab来进行表情标记是表情合成的第一步,我们需要将最能圈出人的表情的部分圈出来。 这样最终合成的表情更加自然。 还有一点很自然,标定的点越多到时合成的效果就会越理想,但是要保证几张图片的点数量相等且顺序相同。 这样就能得到一个PiecewiseLinearTransformation2d对象。然后使用imwarp函数依据这个变形对象输出得到的图像,warp途中可能会警告有些像素值被变形到画布外了,不用在意。 然后最后使用imwrite把图片矩阵写回文件中,传统的表情合成就是这样子的了。 (下面是最终图片) ?

    1.2K10发布于 2020-07-29
  • 来自专栏DrugOne

    . | 百亿合成数据驱动智能合成规划研究

    基于RDChiral的合成数据生成 研究首先开发了一套基于RDChiral模板算法的合成数据生成方法。 随后,利用RDChiral逆向合成模板提取算法,从USPTO-FULL数据集中提取反应模板,并将分子片段与模板反应中心进行精确匹配,最终构建了包含超100亿条反应的合成数据集。 通过结构相似性分析(TMAPs)发现,合成数据不仅完整覆盖了USPTO-50k数据集已知的化学空间,还显著拓展至分子量更大、结构更复杂的区域。 研究团队基于LLaMA2架构,首先利用十亿级合成反应数据进行预训练,通过四个自监督学习任务使模型掌握产物、反应物与模板间的转化规律。 本研究开发的RSGPT模型基于LLaMA2架构,采用无模板方法和RLAIF强化学习,实现了高精度逆合成规划,不仅显著提升了单步反应预测准确率,还可拓展至复杂药物的多步合成路线设计。

    40310编辑于 2025-08-09
  • 来自专栏数据派THU

    【干货书】深度学习合成数据

    来源:专知本文为书籍,建议阅读8分钟这是关于深度学习的合成数据的第一本书。 这是关于深度学习的合成数据的第一本书,其覆盖的广度可能使这本书成为未来几年合成数据的默认参考。 这本书包括了优化的必要的筋,尽管讨论的核心是训练深度学习模型的日益流行的工具,即合成数据。预计合成数据领域将在不久的将来经历指数增长。这本书是这一领域的全面综述。 在最简单的情况下,合成数据指的是用于训练计算机视觉模型的计算机生成图形。合成数据还有很多方面需要考虑。 此外,它还涉及了计算机视觉之外的合成数据的应用(在神经编程、生物信息学、NLP等方面)。它还调研了关于改进合成数据开发和生成它的替代方法(如GANs)的工作。 这本书介绍和回顾了机器学习各个领域合成数据的几种不同方法,最值得注意的是以下领域: 领域自适应,使合成数据更真实,和/或适应模型,以对合成数据进行训练,并为生成具有隐私保证的合成数据

    46440编辑于 2022-03-04
  • 来自专栏自然语言处理(NLP)论文速递

    DeepMind | 提出合成数据是AGI的关键,可使PaLM2 性能暴涨6%!

    【导读】AI可以从自己生成的「合成数据」中学习,最重要的是,能够大幅提升数据问题解决和代码生成的能力。 合成数据,或许就是大模型的未来。 不久前Jim Fan就在推特上表示,合成数据将提供下一万亿个高质量的训练token。 还有人认为,因为人类无法产生足够多的高质量数据,「合成数据」似乎是实现AGI的关键。 现在看来,确实如此。 谷歌DeepMind和Mila实验室的研究人员发现,「合成数据」能够让大模型数学问题解决,以及代码生成能力大幅提升。 论文中,他们提出了一种全新的方法—— ,利用AI系统生成数据来自我训练。 为了解决这一障碍,模型生成的「合成数据」却成为一个非常有潜力的替代方案,不仅能够扩展,还可拉低成本。 对此,在这项工作中,主要研究模型生成的合成数据与人类生成的数据,在赛级数学问题解决(MATH)和和代码生成(APPS)基准上有效性和可扩展性的比较。

    69910编辑于 2023-12-19
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    GEE数据集——全球Landsat 32天合成影像数据(LANDSATCOMPOSITESC02T1_L2_32DAY)

    GEE数据集——全球Landsat 32天合成影像数据(LANDSAT/COMPOSITES/C02/T1_L2_32DAY) 简介 Landsat数据集中的 LANDSAT/COMPOSITES/C02 /T1_L2_32DAY 是一种基于Landsat卫星影像的合成数据,主要用于环境监测、土地利用变化、农业监测等领域。 以下是该数据集的具体介绍: 数据集概述 数据来源: Landsat系列卫星(如Landsat 8和Landsat 9) 数据类型: 32天合成影像 产品级别: Level 2 (L2),意味着数据经过了大气校正和其他预处理步骤 主要特点 时间合成: 该数据集基于32天的时间窗口内的多次观测,生成合成影像。 通过合成,可以减少云层和气象影响,提高影像的可用性。 结论 LANDSAT/COMPOSITES/C02/T1_L2_32DAY 数据集为用户提供了高质量的遥感影像,适用于多种应用场景。通过时间合成和大气校正,用户能够获得更为准确和可靠的地表信息。

    35900编辑于 2025-01-20
  • 来自专栏进阶高级前端工程师

    深度分析React源码中的合成事件2

    ;事件注册事件注册是自执行的,也就是React自身进行调用的:// 注册React事件registerSimpleEvents(); registerEvents$2();registerEvents 上面分为5个函数写,主要是区分不同的事件注册逻辑,但是最后都会添加到allNativeEvents的Set数据结构中。 dragEnter, mouseMove, scroll;连续事件:continuous,常见的如:error, progress, load, ;它们的优先级排序:0:离散事件, 1:用户阻塞事件, 2: registerEvents$2注册类似onMouseEnter,onMouseLeave单阶段事件,只注册冒泡阶段事件。 相关参考视频讲解:进入学习合成事件在合成事件中,会根据domEventName来决定使用哪种类型的合成事件。

    86040编辑于 2023-01-04
  • 来自专栏AI研习社

    合成数据生成——数据科学家必备技能

    什么是合成数据集? 顾名思义,合成数据集是一个以编程方式生成的数据存储库。因此,它不是通过任何真实的调查或实验收集的。 ML算法的合成数据,但是如果它能够帮助解决无法使用或获取用于学习目的的真实数据集的安全性和隐私问题,那么它的用途将非常广泛。 尽管它的机器学习算法已被普遍使用,合成数据生成的功能也不容小觑。 请注意,在下图中,用户如何输入符号表达式m ='x1 ** 2-x2 ** 2'并生成此数据集。 ? 然而,有时希望能够基于复杂的非线性符号输入生成合成数据,并且我们讨论了一种这样的方法。 本文的目的是表明年轻数据科学家不必因无法使用合适的数据集而陷入困境。

    1.5K10发布于 2019-05-08
  • 来自专栏云计算D1net

    厂商备战大数据 技术融合成趋势

    大量设备接入所产生的海量数据,将给包括服务器、存储以及网络等数据中心领域技术带来严峻的挑战。这将迫使数据中心相关技术做出创新、变革。 遍布各地的联网设备,把数据集中到单一数据中心不太现实,主数据中心与多个小型数据中心(mini data center)相互配合将成为趋势。 尽管数据量大,但并不是所有数据都一直保持活跃,有些数据访问时间往往只有几小时,由此催生了一个冷存储生态系统。 掘金大数据 数据库各显其能 大数据蕴含着不可估量的商业价值,但目前的分析方法或手段似乎难以发掘出其全部商机。改进或创新数据分析技术则已经成为一种商机。 ,例如,大数据

    67150发布于 2018-03-16
  • 来自专栏CreateAMind

    合成动态视频效果及声音合成

    Synthesizing Dynamic Textures and Sounds by Spatial-Temporal Generative ConvNet 左面是原始视频,右面是合成的效果。 ?

    1.1K20发布于 2018-07-24
  • 来自专栏自然语言处理(NLP)论文速递

    数学推理增强,Xwin-Math利用合成数据解锁LLaMA-2-7B潜力!

    7B)在数学问题解决方面已经展现出较强的潜力,并可使用基于合成数据的有监督微调方法促使模型愈发稳定地将数学能力激发出来。 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表现。 研究中还提到,通过使用合成数据,可以有效地扩大 SFT 数据集,而且这种方法几乎与真实数据一样有效。 这表明基于合成数据的有监督微调是提升模型数学能力稳定性的有效方式。 此外,研究还提供了对不同推理复杂性和错误类型下扩展行为的洞察。 这表明研究中合成数据的方式并没有显著地过拟合到评测集中,展现出良好的泛化能力。 这项研究不仅展示了合成数据在扩展 SFT 数据方面的有效性,而且为大型语言模型在数学推理能力方面的研究提供了新的视角。

    33310编辑于 2024-03-15
  • 来自专栏web全栈

    java导入导出excel数据&图片合成工具

    java导出和导入excel数据 可以使用hutool的ExcelUtil工具。 Set<Role> roles = new HashSet<>(); Role role = new Role(); // 普通用户 role.setId(2L excel表格的的关键操作: 1、将Java对象List转换成List<Map<String, Object>>的List,每个Map为excel一行数据 2、新建文件,使用ExcelUtil写入数据 3、可使用HttpServletResponse输出响应流,在客户端直接下载 java服务端图片合成的工具 ImageCombiner是一个专门用于Java服务端图片合成的工具,没有很复杂的功能,简单实用 ,足够覆盖图片合成的日常需求。

    2K10编辑于 2023-04-28
  • 来自专栏机器学习与生成对抗网络

    人脸分析:用合成数据来代替真实数据

    现在训练数据也用合成的了。 而且人脸分析任务上,准确性还不输真实数据的那种。 这是微软团队的一项最新研究,论文标题就已经说明了一切。 Fake it till you make it. 文章介绍了一种程序生成的3D人脸模型与一个合成数据库结合起来训练图像,结果人脸解析等任务上,效果与真实数据相当。 研究人员表示,为一些不可能实现人工标注的地方,开辟了新方法。 因此,研究团队就考虑用合成数据来增加或替代真实数据。然鹅,此前因为人脸模型本身复杂实现难度较为困难。 那么这次是如何实现的呢? 除此以外,还合成了标签。 接着到了训练阶段,研究人员创建了一个10万张分辨率为512 × 512的图像的数据集,并做了数据增强处理,共用了150 张NVIDIA M60 GPU渲染48小时。 此外,团队还训练了人脸解析网络(仅使用合成数据)和标签适应网络,以解决合成标签和人工注释标签之间的系统差异。 最终,人脸分析、地标定位等任务上的效果与其他采用真实数据的模型相当。

    86120发布于 2021-10-22
  • 测试数据生成:从Mock到AI合成数据

    一家医疗健康平台的实践提供了参考:他们使用患者真实就诊数据训练了一个合成数据生成模型,然后用模型生成的合成患者数据进行系统测试。 ,合成数据在合规与有效性之间找到了不需要妥协的第三条路。 工具导向型管理者看到AI合成数据的先进性,会推动快速引入,但忽视了团队是否具备评估合成数据质量的能力,最终可能用高质量的工具生产低质量的数据。 差异越大的地方,就是现有测试数据方案最需要改进的地方,也是AI合成数据价值最大的切入点。 同步建立合成数据的质量评估能力:在引入工具的同时,培养工程师评估合成数据质量的能力——包括统计特征分析和业务场景等效性判断。没有这个能力,合成数据只是换了一种方式生成的Mock数据

    18610编辑于 2026-04-14
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    语音合成demo 前端代码以及合成样本

    文章目录 语音合成样本 语音合成demo 服务前端代码 语音合成样本 百度网盘 :链接: https://pan.baidu.com/s/1Jx2OLHwfv0qgk1rfTXpDFQ 密码: hv82 网盘链接:链接: https://pan.baidu.com/s/1iDjyxETiimR_p25uUBXvLQ 密码: hfjf 语音合成demo 服务前端代码 # /usr/local/bin python

    2.1K20发布于 2021-01-14
领券