首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏计算机视觉理论及其实现

    Multimodal UnsupervisedImage-to-Image Translation

     无监督图像到图像的翻译是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而不需要看到任何相应图像对的示例。虽然这种条件分布本质上是多模式的,但现有的方法过于简化了假设,将其建模为确定性的一对一映射。因此,它们无法从给定的源域图像生成不同的输出。为了解决这一限制,我们提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式编码。为了将图像翻译到另一个域,我们将其内容编码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架,并建立了几个理论结果。与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例风格图像来控制翻译输出的风格。

    50330编辑于 2023-10-07
  • 来自专栏人工智能与演化计算成长与进阶

    CFP in Multimodal Multiobjective Path Planning Optimization

    These problems are defined as multimodal multiobjective optimization problems (MMOPs). It is necessary to study multimodal multi-objective optimization. Path planning problem is a typical multimodal multiobjective optimization problem. for multimodal multiobjective path planning optimization problem Surrogate techniques for multimodal for multimodal multiobjective optimization test problems Decision making in multimodal multiobjective

    65820发布于 2021-01-04
  • 来自专栏DrugOne

    奥地利科学院博后招聘Multimodal ML for protein and tissue dynamics

    奥地利科学院博后招聘Multimodal ML for protein and tissue dynamics We invite outstanding candidates to apply for interdisciplinary institute, offers exciting opportunities for innovations in machine learning methods to integrate multimodal perturbation modeling with temporal dynamics, feature learning, physical principles, and disentanglement of multimodal

    12010编辑于 2025-11-17
  • 来自专栏人工智能头条

    面部表情识别新方式:Multimodal Learning实现Image与Landmark的融合

    Multimodal Learning用于面部表情识别,多模态分别表现为图像数据和标记点数据,使用Multimodal Learning对二者融合的意义在于更全面地表现表情信息以及区分不同模态的数据对表情识别的影响 模式识别领域国际权威期刊Pattern Recognition在2015年4月发表了山东大学视觉传感与智能系统实验室与华为诺亚方舟实验室的研究成果“Multimodal Learning for Facial Expression Recognition”,该文章提出的多模态学习(Multimodal Learning)算法开拓了面部表情识别的一种新方式。

    1.3K50发布于 2018-06-06
  • 来自专栏人工智能头条

    深度学习新方向:Multimodal CNN实现图像文本匹配

    诺亚方舟实验室提出的学习图像与文本匹配关系的Multimodal CNN模型 诺亚方舟实验室致力于图像与自然语言相结合的多模态的匹配学习,并以图像与自然语句的双向检索作为其核心任务之一。 与其他公司或者高校譬如Google、微软,百度,斯坦福大学、和多伦多大学等的策略不同,诺亚方舟实验室在业界首先构建了一个多模态的卷积神经网络(Multimodal CNN)。 华为诺亚方舟实验室构建的Multimodal CNN模型包含一个图像CNN用于描述图像信息,一个匹配(matching)CNN一方面完成文本信息中的单词的语义构建,更为重要的是学习图像与文本之间的匹配关系 另外Multimodal CNN模型挖掘以及学习了图像与文本在单词级别,短语级别,以及句子级别的匹配关系,进而完全的描述了图像与文本的复杂的匹配关系。 诺亚方舟实验室研究员介绍,其研究的Multimodal CNN模型在图像与文本的双向搜索的任务上,超过了其他公司以及高校,达到了业界的领先水平。

    1.4K50发布于 2018-06-06
  • 李飞飞AI论文《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》快读

    今日推荐:【新火种AI | AI三重问:什么是AI?什么是AI模型?什么是AI大模型?

    5.4K10编辑于 2024-11-25
  • 来自专栏大数据智能实战

    Toward Multimodal Image-to-Image Translation(BicycleGAN)图像一对多转换测试

    CycleGAN、pix2pix、iGAN的主要贡献者最近在NIPS 2017上又推出了一篇文章Toward Multimodal Image-to-Image Translation(见https:/

    46520编辑于 2022-05-07
  • 来自专栏AI SPPECH

    35:Multimodal Memory系统设计:短期记忆、长期记忆、结构化+Graph记忆架构

    作者: HOS(安全风信子) 日期: 2026-04-05 主要来源平台: GitHub 摘要: 本文深入探讨Multimodal Memory系统设计,通过短期记忆、长期记忆、结构化和Graph Multimodal Memory系统的核心优势 4. 核心技术架构 4.1 系统架构 4.2 核心组件 5. 本节为你提供的核心技术价值 掌握Multimodal Memory系统设计,通过短期记忆、长期记忆、结构化和Graph记忆架构的结合,构建高效的多模态记忆系统,提升AI系统的知识管理和推理能力,解决传统记忆系统的局限性 Multimodal Memory系统的核心优势 多模态支持:支持文本、图像、视频等多种模态内容 分层记忆结构:短期记忆和长期记忆的分层设计 结构化组织:通过结构化和Graph记忆架构组织知识 增强推理能力 总结与建议 12.1 总结 Multimodal Memory系统通过短期记忆、长期记忆、结构化和Graph记忆架构的结合,构建了高效的多模态记忆系统。

    20110编辑于 2026-04-05
  • 来自专栏NLP/KG

    Prompt工程师指南:对抗性Prompting、主动prompt、ReAct、GraphPrompts、Multimodal CoT Prompti

    Prompt工程师指南高阶篇:对抗性Prompting、主动prompt、ReAct、GraphPrompts、Multimodal CoT Prompting等 1.对抗性 Prompting 对抗性 3.4 Multimodal CoT Prompting Zhang et al. (2023) 最近提出了一种多模态链式思维提示方法。传统的 CoT 集中在语言模态上。

    2.1K90编辑于 2023-05-15
  • 来自专栏数智化医院

    多模态思维链(Multimodal Chain of Thought, MCoT)六大技术支柱在医疗领域的应用

    多模态思维链(Multimodal Chain of Thought, MCoT)通过整合文本、图像、视频等多模态数据,结合逻辑推理与深度学习技术,在医疗领域展现出强大的应用潜力。

    1.4K20编辑于 2025-04-17
  • 来自专栏GPUS开发者

    微软发布Phi系列新成员:Phi-4-multimodal与Phi-4-mini,引领小型语言模型新潮流

    本周,微软宣布推出Phi家族的最新成员——Phi-4-multimodal和Phi-4-mini,这两款小型语言模型(SLMs)旨在为开发者提供先进的AI能力,开启智能应用的新篇章。 Phi-4-multimodal:多模态融合的创新里程碑 Phi-4-multimodal作为微软首个多模态语言模型,标志着AI发展领域的新里程碑。 Phi-4-multimodal的核心在于其先进的跨模态学习技术,这使得设备能够同时理解和推理来自多个输入模态的信息。 跨平台与定制化优势 得益于其较小的体积,Phi-4-mini和Phi-4-multimodal模型可以在计算资源受限的推理环境中使用。 下表展示了Phi-4-multimodal的微调场景示例。

    48310编辑于 2025-02-28
  • 来自专栏OpenMMLab

    MMGPT:能聊天的多模态对话机器人

    https://github.com/open-mmlab/Multimodal-GPT 我们还特别提供了 Multimodal-GPT 的网页 demo,欢迎大家体验! 为什么选择 Multimodal-GPT Multimodal-GPT 接入了基于指令模板的多模态任务数据,用户可以根据任务使用现有的指令模板或自定义新的指令模板。 Multimodal-GPT 整体结构如下图所示: MultiModal-GPT 网络结构示意图 统一的指令模板 Multimodal-GPT 提出了一个统一的指令模板来整合单模态语言数据和多模态视觉 示例 Multimodal-GPT 表现出了多模态的能力,例如 MultiModal-GPT 可以成功识别出千层面,并提供准备这道菜的综合配方。 Multimodal-GPT 更多强大的能力等你解锁!最后,再次欢迎社区小伙伴来 Multimodal-GPT Star、Issue、PR!

    92520编辑于 2023-08-23
  • 科研绘图系列:python语言绘制SCI图合集

    /*, *source_data/multimodal_performance/*​* Figure 8 - *source_data/multimodal_risk_stratification/*​ /*​* Figure s24 - *source_data/multimodal_risk_stratification/*​* Table s1, s2 - None代码加载pythonimport models accross integration strategiesresults_multimodal_1y = pd.concat(list_best_1y, axis=1)results_multimodal _1y["metric"] = "1y death AUC"​results_multimodal_6m = pd.concat(list_best_6m, axis=1)results_multimodal _6m["metric"] = "6m progression AUC"​results_multimodal = pd.concat([results_multimodal_1y, results_multimodal

    48820编辑于 2025-01-13
  • 我们如何用 Gateone.ai 将通用多模态智能转化为可交付的企业级产品引擎

    当 Llama-4-Multimodal 能“边看图边写代码、边读财报边画图”:我们如何用 Gateone.ai 将通用多模态智能转化为可交付的企业级产品引擎就在我们为“多模态大模型落地难”而反复重构产品架构时 ,Meta 突然在内部测试版中释放了 Llama-4-Multimodal——一个真正打通视觉、文本、结构化数据与程序逻辑的通用多模态模型。 编辑​一、通用多模态智能的“能力爆炸”与工程塌方我们第一时间将 Llama-4-Multimodal 接入企业智能助手平台,试图打造“上传一张图,输出一整套解决方案”的自动化产品,却迅速撞上三重落地断层 二、Gateone.ai:为 Llama-4-Multimodal 装上“企业级产品化引擎”转机出现在我们将 Llama-4-Multimodal 接入 Gateone.ai 的那一刻——它不再是一个全能但失控的 ✅ 模块化能力调度器:按需启用,按量计费 Gateone 的 Capability Slicing Layer 将 Llama-4-Multimodal 拆解为可独立调用的微能力:视觉解析模块($0.001

    27410编辑于 2025-10-30
  • 来自专栏AI SPPECH

    5:为什么2025年的RAG课程在2026年直接过时?

    本文对比2025与2026 RAG能力边界,揭示1M+长上下文、Multimodal GraphRAG、Agentic Retrieval成为标配的技术演进逻辑。 通过3个过时项目失败复盘,提供3步技术栈替换方案与升级后召回率、成本改善数据,附赠企业级Multimodal RAG最小可用版本模板。 2.1 2025年RAG的局限 2.2 2025 vs 2026能力对比 三、2025 RAG课程过时的5大原因 3.1 原因一:长上下文革命 3.2 原因二:GraphRAG成为标配 3.3 原因三:Multimodal 融合排序 return self.hybrid_rank(graph_results, vector_results) 3.3 原因三:Multimodal RAG 2025年:仅支持文本 能力 GraphRAG混合检索 Agentic多轮推理 自进化能力 关键词: RAG 2.0, Agentic RAG, GraphRAG, Multimodal, 长上下文, 技术升级, 安全风信子

    26810编辑于 2026-04-03
  • 来自专栏机器之心

    微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B

    Phi-4-Multimodal 是这家公司的首个多模态语言模型,微软表示:「Phi-4-multimodal 标志着我们人工智能发展的一个新里程碑。 Phi-4-Multimodal 模型架构。 Phi-4-multimodal 在语音相关任务中表现出了卓越的能力。 Phi-4-multimodal 展示了强大的推理和逻辑能力,适合分析任务。参数量更小也使得微调或定制更容易且更实惠。下表中展示了 Phi-4-multimodal 的微调场景示例。 下方视频展示了 Phi-4-multimodal 的推理能力: Phi-4-mini:3.8B,小身材大能量 Phi-4-Mini 和 Phi-4-Multimodal 共享同一个语言模型骨干网络。

    30200编辑于 2025-02-27
  • 来自专栏机器学习与统计学

    2025多模态好发论文的方向!

    1.多模态大模型 论文:Harnessing Multimodal Large Language Models for Multimodal Sequential  Recommendation 内容 2.多模态预训练 论文:Parameter-Inverted Image Pyramid Networks for  Visual Perception and Multimodal Understanding 3.多模态生成 论文:GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on  Graphs CVPR25 内容 该论文提出了 4.多模态数据高效学习 论文:Multimodal Task Vectors Enable Many-Shot  Multimodal In-Context Learning 内容 该论文提出了一种名为 7.多模态推理 论文:Mind with Eyes: from Language Reasoning to  Multimodal Reasoning 内容 本文提供了一个关于多模态推理方法的系统性综述

    92010编辑于 2025-06-09
  • 来自专栏腾讯技术工程官方号的专栏

    内容 AI:建立统一的跨媒体多模态内容理解内核

    Multimodal Machine Learning: A Survey and Taxonomy[J]. Harmonized Multimodal Learning with Gaussian Process Latent Variable Models[J]. Multimodal sentiment analysis using hierarchical fusion with context modeling [J]. Multimodal Learning of Social Image Representation by Exploiting Social Relations [J]. From content to links: Social image embedding with deep multimodal model [J].

    5.2K30发布于 2020-01-10
  • 来自专栏AI科技大本营的专栏

    赠书 | 新手指南——如何通过HuggingFace Transformer整合表格数据

    这方面的论文有Tsai等人于2019年发表的《MulT, Multimodal Transformer for Unaligned Multimodal Language Sequences》,以及Rahman 等人于2020年发表的《Multimodal Adaptation Gate (MAG) from Integrating Multimodal Information in Large Pretrained (链接: https://github.com/georgianpartners/Multimodal-Toolkit? (列表链接: https://multimodal-toolkit.readthedocs.io/en/latest/modules/model.html? EMNLP 2019) 音频、视频、文本对准Transformers Multimodal Transformer for Unaligned Multimodal Language Sequences

    1.9K20发布于 2020-12-08
  • 来自专栏CreateAMind

    声音图片 多感知论文

    https://www.groundai.com/project/disentangling-by-partitioning-a-representation-learning-framework-for-multimodal-sensory-data Disentangling by Partitioning: A Representation Learning Framework for Multimodal Sensory Data Wei-Ning Hsu, James Glass (Submitted on 29 May 2018) Multimodal sensory data resembles the form of information Previous work leveraging multimodal data has mainly focused on retaining only the modality-invariant Specifically, PVAE integrates a variational inference framework and a multimodal generative model that

    76220发布于 2018-08-20
领券