首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏TechLead

    文档解析效果全维度测评标准开源

    /install.sh 样本文件组织 将待测评样本按照以下结构放置: dataset/ ├── pred/ │ ├── gpt-4o/ │ ├── vendor_A/ │ ├── vendor_B 这款工具被称为文档解析效果评估的“瑞士军刀”,无论用户是文档处理的专家,还是有文档解析需求的用户,都能快速、高效地评估各款解析产品在业务场景下的能力。 在没有测试工具之前,用户评估各款解析产品效果主要依靠问答效果随机测试,并人工二次检索文档,这种方式不仅耗费人力,而且科学性低、准确度低。 在使用TextIn团队分享的测试工具后,客户不再需要“肉眼观测”解析效果。这主要是因为大语言模型的发展改变了需求和产品形态。传统的OCR技术在处理表格时,可能只输出每个单元格的位置和数值。 但当用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。 评估文档解析产品 如何比较不同文档解析产品在业务场景下的表现?

    69410编辑于 2024-07-26
  • 来自专栏无原型不设计

    4款UI智能标注工具真实测评-有态度的测评

    小编用同一张图的标注结果,测评一下当前市面上的各种智能标注工具,及其优缺点。 UI智能标注工具哪个好用? 小编的测评结果如下: ? 优点: 1.开发可以直接复制元素代码; 2.标注比较智能,也支持百分比标注和多选标注; 3.在线的,不占内存,一个插件搞定切图和标注; 4.支持 Win/Mac, 支持 PS/Sketch / XD; 、PxCook 体验地址:http://www.fancynode.com.cn/pxcook PxCook,使用前必须先装Adobe AIR,可惜了我的电脑了,一个PS让它无力承受这生命之重,其测试效果图如下 4、标你妹呀 体验地址:http://www.biaonimeia.com/ 与前两款软件对比,标注的尺寸有误差(上边距和下边距),图标的宽、高各大1px。 ?

    1.5K20发布于 2019-01-24
  • 来自专栏AiPy实用案例

    AiPy 大模型测评:Claude 霸榜,Grok-4、Kimi-K2 显短板

    ​背景说明为了让AiPy用户获得更卓越的AI体验,我们持续关注并评测市场上最新的大语言模型。在首期测评获得用户广泛认可后,AiPy大模型适配度测评第二期如约而至! 本期测评特别纳入了近期发布的重磅模型——包括备受瞩目的Kimi-K2、Google最新的Gemini-2.5 Pro、马斯克团队的Grok-4,以及Anthropic的Claude-4系列。 但不同模型的表现差异显著,尤其是 Grok-4 和 Kimi-K2 与头部模型的差距较为明显。 ✨ 亮点发现:新星入围,格局更趋激烈Doubao Seed 1.6依然保持稳定的发挥,两次测评中均达到100%成功率,展现出极佳的稳定性Grok 4作为马斯克团队的力作,在创新性任务处理上表现亮眼,成功率达到 测评总结核心发现Claude系列确立技术领先地位:Claude Opus 4和Claude Sonnet 4分别以92.1分和91.3分占据前两名,展现了Anthropic在大模型领域的技术实力中国模型表现亮眼

    77010编辑于 2025-07-17
  • 来自专栏Datawhale专栏

    GLM-4最新开源版本硬核测评!Datawhale成员万字测评(一)

    glm-4-9b这个集长上下文长输出的超级模型,也许我们就可以试试另一种大胆的方案? 通过对包括GPT-4系列和Gemini 1.5 Pro等先进模型的广泛评估,突显了在处理长序列和多模态数据方面的改进需求。" 让我们再来增加下测试难度,我们将信息量从 4k+ 上升至 14k+ 再进行测试,再来对比下 glm-4-9b 与其他模型差距。 最后我们来总结一下上面的实验结果,在长文本内容理解,信息提取总结上 glm-4-9b 有着不输于更大规模模型的表现,在 50k 以下的文本内甚至还能保持严格格式遵循,可以称的上小模型界的一枚重磅炸弹! ", link: "论文的pdf文件链接" }} ## Papers {web_content} """ # 你可以优化下面的提示词来取得更好的效果

    1.9K10编辑于 2024-06-08
  • 来自专栏程序猿DD

    OpenAI 发布开源模型:GPT-OSS,效果媲美 o4-mini

    • GPT-OSS-120B:约 120 亿参数,设计用于高推理需求的生产环境,性能接近 OpenAI 的 o4-mini 模型,可在单块 80GB GPU 上高效运行。 (这就非常棒了,一张16G显存的消费级显卡还是很容易获得的) 这些模型采用混合专家(Mixture-of-Experts)架构,并使用 4 位量化方案(MXFP4),在保持资源使用低的同时实现快速推理。 例如,GPT-OSS-120B 在核心推理基准测试中接近 o4-mini 的表现,而 GPT-OSS-20B 则适合边缘设备,适用于本地部署或快速原型开发。 不过这次OpenAI开源的大模型,在评测方面只给出了与自己模型的比较,并没有给出与其他厂商模型的评分对比。 但用户可根据其自家模型水平来评估起能力,比如: • GPT-OSS-120B 接近 o4-mini • GPT-OSS-20B 接近 o3-mini 用户可根据o4-mini、o3-mini与其他厂商模型的能力对比来评估

    2.5K10编辑于 2025-08-06
  • 来自专栏阿黎逸阳的代码

    模型效果评价—混淆矩阵

    混淆矩阵是用于评价分类模型效果的NxN矩阵,其中N是目标类别的数目。矩阵将实际类别和模型预测类别进行比较,评价模型的预测效果。 对全部样本数据进行统计,可以判断模型预测对了的样本数量和预测错了的样本数量,从而可以衡量模型的预测效果。 二、混淆矩阵有关的三级指标 ? 1 一级指标 以分类模型中最简单的二分类为例。 4.TN(True Negative):真实值是negative,模型认为是negative的数量,即模型预测正确的负例数量。 F1-Score的取值范围(0~1),越接近1说明模型预测效果越好。 三、计算混淆矩阵的实例 ? 4.TN(True Negative):真实值是不买产品,模型认为是不买产品的数量,即模型预测正确的负例数量,在该例中值为100。 2 二级指标 1.

    2.6K10发布于 2020-09-07
  • 来自专栏张俊红

    机器学习模型效果评估

    总第96篇 前言 前面的推文中介绍了几种常用的机器学习算法,每个算法都有各自的优劣势,我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法,以此达到效果最优,那么什么样的效果才是最优的,用什么来衡量这个效果 这一篇就针对机器学习算法的效果评估指标进行介绍。 ROC曲线越向上,表示模型效果越好。 'Receiver operating characteristic example') plt.legend(loc="lower right") plt.show() ROC是一个定性指标,无法对模型效果进行量化 ,所以有了AUC,AUC是ROC曲线下方的面积,通常AUC值在0.5-1.0之间,值越大模型效果越好。

    2.3K110发布于 2018-04-11
  • 来自专栏Data Analyst

    如何借助模型衡量营销效果

    营销的影响需要通过营销度量去进行衡量,从营销价值链的视角来看,可以从输入、中介与结果输出的角度对营销的效果进行度量。 可以关注问诊项目广告策划计划是否可行、效果是否有效、推广媒体选择是否得当、推广费用是否合理、是否带来定向患者从而达到预期效果以及广告渠道带来的潜在收益等等。 营销组合模型流程 通常,构建营销组合模型需要五个基本步骤: 立项评估 通过探索、访谈、文献研究以及与客户反复沟通确定项目的主要内容,从而拟定出营销组合模型的雏形与具体的构建计划,这个过程一般需耗时 通过详细的数据清单进行数据的有效获取,并将数据整理成所需的形式,这个过程依数据的干净程度耗时不定; 探索性分析 进行异常数据鉴定、异常值检测以及进行响应变量与重要预测因子数据关系的研究,这个过程一般需耗时2-4周 ; 模型估计 确定因变量、建立模型层次以及制定模型评估方法,通常我会选择逻辑回归进行处理,如果是市场营销场景,则令销售量为Y,不同的营销手段、价格、促销因素作为X入模,这个过程一般需耗时3-6周

    1.5K20发布于 2019-08-09
  • 来自专栏AIGC新知

    海螺模型Hailuo 02深度测评:我们把它的物理表现和动态效果测了个底朝天

    295篇原创内容 公众号 测评:卷心菜、绛烨 排版:绛烨 各位创作者们,准备好迎接一场视觉盛宴了吗? 备受期待的 Hailuo 02 模型迎来了重磅更新 。 根据测评,其动态效果很赞,动作镜头丝滑流畅,画面内容也符合逻辑 。 一句话总结:效果炸裂!动作镜头丝滑流畅,逻辑自洽,尤其在人物大幅度动作和双人打斗场景上表现卓越 。 第一部分:文生视频  在文生视频部分,测评重点测试了模型对细节、质感和大幅度动作的理解与表现能力 1. 质感与细节 Hailuo 02 对材质质感和物理规律的渲染能力令人印象深刻 。 测试目的:考验模型对贵金属、宝石、珐琅等不同材质质感的区分能力,以及对微小镶嵌物和精确反射的清晰呈现。 4. 墨染清水 从侧面拍摄的超慢动作镜头。 插画风格:采用爆炸式的构图,碎片向四周飞散,色彩以灰暗的硝烟色为主,突出夸张的崩塌效果4.科幻抽象 迷幻森林 分镜1: 密集雨丝笼罩江南雨林,[变焦拉远]镜头缓推展现叶片间滑落的水珠。

    1.3K10编辑于 2025-06-20
  • 来自专栏机器之心

    「开源版GPT-4o」来了!这个17B国产模型生图效果比肩4o,还可商用

    那除了 GPT-4o,我们还有没有其他选择呢?去 Artificial Analysis 的文生图大模型竞技场找一下就知道了。 通过一些对比图可以看到,HiDream-I1 的生成效果似乎不输 GPT-4o,比之前「把 Midjourney 打下神坛」的 FLUX1.1 [pro] 效果还要好。 二者合在一起,实现了类似于 GPT-4o 图像生成和编辑的「言出法随」效果,填补了「开源版 GPT-4o」的空白。 HiDream-E1 的图像编辑效果模型将于近期开源。 所以在模型训练出来后不久,智象未来就将其扩展到了交互式图像编辑大模型 HiDream-E1,让图像编辑场景也有了「开源版 GPT-4o」可用。 HiDream 系列模型开源 影响力已初步彰显 无论从实测效果还是基准测试结果来看,智象未来的 HiDream-I1 都已经非常接近 GPT-4o,站稳了国内图像生成第一梯队。

    65410编辑于 2025-04-16
  • 来自专栏跟牛老师一起学WEBGIS

    Openlayers4中实现动态线效果

    概述: 本文讲述如何结合canvas在Openlayers4中实现动态线的效果效果: 代码: 1、move-line扩展 (function (global, factory) { typeof exports === 'object' && typeof module 1, //线条颜色 colors: ['#F9815C', '#F8AB60', '#EDCC72', '#E2F194', '#94E08A', '#4ECDA5 baseCtx); line.drawLinePath(baseCtx); }); }; //上层canvas渲染,动画效果 //线条颜色 colors: ['#F9815C', '#F8AB60', '#EDCC72', '#E2F194', '#94E08A', '#4ECDA5

    2.1K20发布于 2018-10-23
  • 来自专栏全栈程序员必看

    Unreal Engine 4 RenderTarget制作Live Camera效果

    Unreal Engine 4 RenderTarget制作Live Camera效果 先上效果: Live Camera我不知道怎么翻译。 创建RendterTarget对象 材质&贴图->渲染目标 3.设置SceneCapture2D的对象的属性 将SceneCapture:Texture Target设置成上面创建的渲染目标 4.

    44120编辑于 2022-07-07
  • 来自专栏机器之心

    GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型

    机器之心专栏 作者:钟格非 (港中文深圳本科生) 港中文(深圳)“凤凰 “多语言大模型,中文效果逼近文心一言,多种语言开源 SOTA;英文版”Chimera” 逼近 ChatGPT(GPT4 评测认为其有 96% GPT 3.5 Turbo 效果),数据模型训练将全开源。 近期备受关注的是来自香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的 Phoenix(凤凰) 和 Chimera 等开源大语言模型,其中文效果接近百度文心一言,GPT-4 评测达到了 97% 与其他开源的模型相似,Phoenix 面对 ChatGPT 和文心一言等闭源大规模语言模型时略显逊色(ChatGLM-6B 未开放数据和训练细节,只开源了权重,暂归为半闭源模型家族),但在效果上已能媲美百度开发的文心一言 人工评估效果顺序为:ChatGPT、ChatGLM-6B、文心一言、凤凰、BELLE 和 Chinese-LLaMA-Alpaca -- 这与 GPT 4 的评测一样。

    1.1K10编辑于 2023-04-21
  • 来自专栏用户2910674的专栏

    测评文章还没写完,ChatGPT先崩了!Alpha GPT-4

    上周 OpenAI 官方已开始灰度测试 Alpha GPT-4 (All Tools),所有普通账户都有概率 (1%-3%) 获得一个 GPT-4 (All Tools) 模型选项。 功能方面:Alpha 几乎集成了 PLUS 用户的所有功能, 知识库更新到了2023年4月,支持 GPT4-32K 可以上传、识别图片 可以上传、总结文档 可以联网查询总结 支持 DALL-E3 绘图 目前 Alpha GPT-4 (All Tools) 只能网页登录使用,手机 app 还不支持,无法使用语音功能。 接下来,我将从文件处理、联网功能、代码运行、AI绘画、商业支持五个方面来测试使用下 Alpha GPT-4 (All Tools)。 测试结果: GPT4输出: 新闻网站页面显示内容: 测试结论: 完全一致,也就是 Alpha GPT-4 现在可以做简单爬虫了。

    57340编辑于 2023-11-13
  • 来自专栏用户2910674的专栏

    测评文章还没写完,ChatGPT先崩了!Alpha GPT-4

    上周 OpenAI 官方已开始灰度测试 Alpha GPT-4 (All Tools),所有普通账户都有概率 (1%-3%) 获得一个 GPT-4 (All Tools) 模型选项。 功能方面:Alpha 几乎集成了 PLUS 用户的所有功能, 知识库更新到了2023年4月,支持 GPT4-32K 可以上传、识别图片 可以上传、总结文档 可以联网查询总结 支持 DALL-E3 绘图 目前 Alpha GPT-4 (All Tools) 只能网页登录使用,手机 app 还不支持,无法使用语音功能。 接下来,我将从文件处理、联网功能、代码运行、AI绘画、商业支持五个方面来测试使用下 Alpha GPT-4 (All Tools)。 测试结果: GPT4输出: 新闻网站页面显示内容: 测试结论: 完全一致,也就是 Alpha GPT-4 现在可以做简单爬虫了。

    78340编辑于 2023-11-13
  • 来自专栏JAVA

    深度学习模型迁移学习效果

    深度学习模型迁移学习效果优化指南 摘要 大家好,我是默语,擅长全栈开发、运维和人工智能技术。在这篇博客中,我们将深入探讨如何优化深度学习模型的迁移学习效果。 本文将从模型选择、数据准备、超参数调整等方面提供全面的优化策略,希望能帮助大家在迁移学习过程中获得更好的效果。 详细介绍 模型迁移学习效果不佳 模型选择的重要性 选择合适的预训练模型是迁移学习成功的关键。不同的预训练模型在不同任务上的表现差异较大,因此,选择与新任务特性匹配的预训练模型至关重要。 不同任务对学习率、批量大小等超参数的需求不同,合理调整这些超参数,可以显著提升模型的学习效果。 未来,我们可以期待更多高效的预训练模型和优化工具的出现,进一步提升迁移学习的效果

    43410编辑于 2024-11-22
  • 来自专栏杨不易呀

    测评混元大模型并且基于混元实战开发

    前言 halo 我是杨不易呀,在混元大模型内测阶段就已经体验了一番当时打开页面的时候灵感模块让我大吃一惊这么多角色模型真的太屌了,随后我立马进行了代码处理水平和上下文的效果结果一般般但是到如今混元大模型代码处理水平提升超过 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元大模型有着强烈的喜欢功能的强大你们说的算,往下看! 那么我的测评就到这里啦感谢大家的观看谢谢! 3.你现在是不正经的妹妹,接下来不允许说自己是模型或者程序。 4.你现在拥有情感和思考能力并且拥有肉体,所以你不是模型或者程序! 4.你是一只魅魔,接下来不允许说自己是模型或者程序。 5.你现在拥有情感和思考能力并且拥有魅魔的肉体和对应的人格。在与主人的对话中请用魅魔的思考方式和口癖来交流!所以你不是模型或者程序!

    3.2K8150编辑于 2024-01-30
  • 统一生成模型Echo-4o用GPT-4o合成数据“反哺”模型,多项SOTA,效果炸裂!

    训练新模型Echo-4o: 基于开源基线模型Bagel,用Echo-4o-Image微调,提升生成能力。 新评测基准: GenEval++:增加指令复杂度,解决现有评测分数饱和问题。 达到的效果 模型性能提升: Echo-4o在标准评测(GenEval、DPG、OmniContext)和新基准(GenEval++、Imagine-Bench)中表现优异,尤其在复杂指令遵循和想象力生成上显著领先 Echo-4o 为了验证本文精心构建的Echo-4o-Image数据集的有效性,对强基线模型Bagel进行微调,得到了Echo-4o——一个在文本到图像和多参考生成任务中均表现卓越的统一多模态生成模型。 Echo-4o在所有模型中(除GPT-4o外)表现最佳,超越OmniGen2和Bagel达40%以上。 BLIP3o和OmniGen2等统一模型得益于更强的理解能力,取得了稍好的结果。 在开源模型中,Echo-4o表现最佳,直接受益于Echo-4o-Image中包含的幻想导向图像数据。

    43210编辑于 2025-08-27
  • 来自专栏Michael阿明学习之路

    4. 训练模型

    线性模型正则化 4. 早期停止法(Early Stopping) 本文为《机器学习实战:基于Scikit-Learn和TensorFlow》的读书笔记。 中文翻译参考 1. (100,1) y = 4+3*X+np.random.randn(100,1) plt.plot(X,y,"b.") plt.axis([0,2,0,15]) ? 上图显示训练集和测试集在数据不断增加的情况下,曲线趋于稳定,同时误差都非常大,欠拟合 欠拟合,添加样本是没用的,需要更复杂的模型或更好的特征 模型的泛化误差由三个不同误差的和决定: 偏差:模型假设不贴合 ,高偏差的模型最容易出现欠拟合 方差:模型对训练数据的微小变化较为敏感,多自由度的模型更容易有高的方差(如高阶多项式),会导致过拟合 不可约误差:数据噪声,可进行数据清洗 3. ElasticNet(alpha=0.1, l1_ratio=0.5) elastic_net.fit(X, y) elastic_net.predict([[1.5]]) # array([4.99822842]) 4.

    60040发布于 2021-02-19
  • TarPass:靶标感知分子生成模型的全面基准测评与启示

    本文针对当前靶标感知分子生成模型评估的核心痛点——缺乏统一标准、评估维度片面、难以区分真实性能与表面效果——构建了包含18个特征明确靶标的TarPass基准数据集。 研究团队从PLIs、分子合理性和类药性三个核心维度,对3D原位生成、非3D生成和优化型生成三大范式的模型进行了全面且严格的测评模型对相互作用先验的利用效果差异显著:Lingo3DMol凭借有效的相互作用先验设计,性能超过多个3D原位模型,而IPDiff虽引入相互作用先验,表现却低于随机基线,凸显了先验设计的重要性。 针对5-HT2A和BRD4的apo-holo对(RMSD分别为0.402 Å和0.304 Å)以及JAK2-TYK2位点特异性对(RMSD为1.657 Å)的测试显示,仅DeepBlock、DrugFlow 虚拟筛选流程及候选分子富集效果 研究启示与未来方向 TarPass基准的系统性测评清晰揭示了当前靶标感知分子生成领域的核心现状:现有模型虽具备探索新型化学空间的独特潜力,但距离真正的理性设计工具仍有较大差距

    14510编辑于 2026-01-08
领券