首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 数据不够怎么办?新加坡国立大学揭秘扩散语言模型的“秘密武器”

    为克服这些局限性,我们引入“用视频思考”这一新范式,利用视频生成模型(如Sora-2)在统一的时间框架内连接视觉和文本推理。 评估表明,Sora-2是一个强大的推理者。在以视觉为中心的任务中,Sora-2通常与最先进的(SOTA)VLMs相当,甚至在某些任务(如Eyeballing Games)上超越VLMs。 在以文本为中心的任务中,Sora-2在MATH上达到92%的准确率,在MMMU上达到75.53%的准确率。此外,我们系统地分析了这些能力来源。我们还发现,自洽性和情境学习可以提高Sora-2的性能。

    18810编辑于 2025-11-13
  • 来自专栏福大大架构师每日一题

    openai-python v2.2.0版本更新详解:新增Videos API与ChatKit测试功能

    AsyncOpenAI() async def main() -> None: video = await client.videos.create_and_poll( model="sora

    18310编辑于 2025-12-18
  • 视频模型在真推理还是“演”推理?港中文等提出新基准拷问:Chain-of-Frame到底是真是假?

    优势差异显著: Sora-2 在物理、具身与医学推理中表现相对突出; Veo-3 在真实空间推理上具优势; Seedance-1.0-Pro 在旋转与三维几何任务中略胜一筹。

    21910编辑于 2025-11-17
  • Ai大模型Api巨头跑路?GrsAi网站打开失败,无法访问究竟什么问题!解决方法来了

    "#国内地址,海外地址:https://grsaiapi.comdef sora2_video(prompt):    """生成视频"""    data = {        "model": "sora

    25100编辑于 2026-03-05
  • 每周AI论文速递(251103-251107)

    为突破这些限制,我们提出"视频思维"新范式,通过 Sora-2 等视频生成模型,在统一时序框架中实现视觉与文本推理的融合。 评估结果表明,Sora-2 具备卓越的推理能力:在视觉中心任务中,其性能与最先进 (SOTA) VLMs 相当,且在视觉推理游戏等任务中实现超越;在文本中心任务中,Sora-2 在 MATH 数据集上达到

    42110编辑于 2025-11-20
  • Sora 2邀请码获取全攻略与Sora 2 API调用指南!没有码也能体验

    Content-Type": "application/json", "Authorization": f"Bearer {API_KEY}"}# 构建请求体payload = { "model": "sora

    4.8K00编辑于 2025-10-14
  • 好莱坞导演坐不住了!SkyReels-V4发布:首个影院级音视频联合生成/修复/编辑统一框架

    在“带有音频的文生视频”赛道中,SkyReels-V4 与 Veo 3.1, Kling 3.0, grok-imagine-video, Sora-2, Vidu-Q3, Wan 2.6等主流强力模型展开了对决

    65910编辑于 2026-03-05
  • 每周AI论文速递(251215-251219)

    我们对领先的视频模型 (Veo-3, Sora-2, Wan-2.2) 和图像模型 (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image) 进行了基准测试

    27610编辑于 2025-12-29
领券