文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。 PaddleOCR-VL-1.5 的竞争非常接近(94.62 vs 94.50),两者参数量相同(0.9B),但各有优劣——PaddleOCR-VL-1.5 在文本和公式上略优,GLM-OCR 在表格上领先相比 Gemini 87.087.490.0多语言69.354.886.2印章识别90.542.291.3票据 KIE94.5—97.3在印章识别上,GLM-OCR(90.5)大幅超越 PaddleOCR-VL-1.5(42.2),与 Gemini
近期,谷歌的首席执行官Sundar Pichai在两天前的晚间透露了一个重要消息:谷歌将开源其最新的多模态大型模型Gemma-3,该模型以低成本与高性能为特色。Gemma-3提供了四种参数规模供选择,分别是10亿、40亿、120亿和270亿。值得注意的是,即便是参数量最大的270亿版本,也仅需一张H100显卡即可实现高效推理。相比之下,要达到相同效果,同类模型所需的算力至少要高出10倍。这使得Gemma-3成为当前性能卓越且参数规模较小的大模型之一。
这是 的第 549 篇原创 https://afoo.me Gemini 3 的发布可能太重量级了 (https://blog.google/products/gemini/gemini-3) ,
强如Gemini-3在Agentic模式下能利用长上下文获得提升,而部分开源模型在长视频下性能反而大幅下降。 总结 VideoDR将视频理解的战场从封闭测试集延伸到了无限的开放网络。
, 这个系统包括了Pro,Lite,Mini三款通用Agent模型加一个Code模型, 来自@赛博禅心的图,Seed2.0 Pro vs GPT-5.2 High· Claude Opus-4.5 ·Gemini
初步体验1.常规测试Q1:总结内容,生成知识卡片网页总结这个网页(https://blog.google/intl/zh-tw/products/explore-get-answers/gemini-3
初步体验 2.1 常规测试 Q1:总结内容,生成知识卡片网页 总结这个网页(https://blog.google/intl/zh-tw/products/explore-get-answers/gemini
直接上数据 旗舰 397B-A17B 对标闭源巨头 直接看最硬核的 Benchmark 对比: Benchmark GPT-5.2 Claude 4.5 Opus Gemini-3 Pro Qwen3.5
这一步如果卡在获取权限上,可以考虑使用UIUIAPI.com中转站(支持模型如 Gemini-2.5/Gemini-3 Pro等全系谷歌模型,国内开发者适用,胜在能解决问题)光说不练假把式。
参考链接: https://blog.google/products/gemini/gemini-3/ 声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。
Gemini 3 开发者指南:https://ai.google.dev/gemini-api/docs/gemini-3?hl=zh-cn2.
指定输出格式 安全控制 safety_settings 详见官方文档 默认安全规则 内容安全过滤 8.2 官方资源汇总 官方文档:https://ai.google.dev/gemini-api/docs/gemini