首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏TechLead

    文档解析效果全维度测评标准开源

    测评指标介绍 TextIn文档解析测评工具将测评指标分为五个维度:表格、段落、标题、阅读顺序和公式。这些维度通过定量测评来展示各解析产品的具体表现。 这款工具被称为文档解析效果评估的“瑞士军刀”,无论用户是文档处理的专家,还是有文档解析需求的用户,都能快速、高效地评估各款解析产品在业务场景下的能力。 在没有测试工具之前,用户评估各款解析产品效果主要依靠问答效果随机测试,并人工二次检索文档,这种方式不仅耗费人力,而且科学性低、准确度低。 在使用TextIn团队分享的测试工具后,客户不再需要“肉眼观测”解析效果。这主要是因为大语言模型的发展改变了需求和产品形态。传统的OCR技术在处理表格时,可能只输出每个单元格的位置和数值。 但当用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。 评估文档解析产品 如何比较不同文档解析产品在业务场景下的表现?

    66810编辑于 2024-07-26
  • 来自专栏阿黎逸阳的代码

    模型效果评价—混淆矩阵

    对于分类模型,在建立好模型后,我们想对模型进行评价,常见的指标有混淆矩阵、KS曲线、ROC曲线、AUC面积等。也可以自己定义函数,把模型结果分割成n(100)份,计算top1的准确率、覆盖率。 混淆矩阵是用于评价分类模型效果的NxN矩阵,其中N是目标类别的数目。矩阵将实际类别和模型预测类别进行比较,评价模型的预测效果。 比如样本的实际类别是狗,若模型预测类别也是狗,则说明对于该样本模型预测对了。若模型预测类别为猫,则说明对于该样本模型预测错了。 对全部样本数据进行统计,可以判断模型预测对了的样本数量和预测错了的样本数量,从而可以衡量模型的预测效果。 二、混淆矩阵有关的三级指标 ? 1 一级指标 以分类模型中最简单的二分类为例。 F1-Score的取值范围(0~1),越接近1说明模型预测效果越好。 三、计算混淆矩阵的实例 ?

    2.5K10发布于 2020-09-07
  • 来自专栏张俊红

    机器学习模型效果评估

    总第96篇 前言 前面的推文中介绍了几种常用的机器学习算法,每个算法都有各自的优劣势,我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法,以此达到效果最优,那么什么样的效果才是最优的,用什么来衡量这个效果 这一篇就针对机器学习算法的效果评估指标进行介绍。 ROC曲线越向上,表示模型效果越好。 'Receiver operating characteristic example') plt.legend(loc="lower right") plt.show() ROC是一个定性指标,无法对模型效果进行量化 ,所以有了AUC,AUC是ROC曲线下方的面积,通常AUC值在0.5-1.0之间,值越大模型效果越好。

    2.3K110发布于 2018-04-11
  • 来自专栏Data Analyst

    如何借助模型衡量营销效果

    营销的影响需要通过营销度量去进行衡量,从营销价值链的视角来看,可以从输入、中介与结果输出的角度对营销的效果进行度量。 出院者平均住院日、医师科研项目量以及学术论文发表量等等; 就医患者满意度评估 可以关注患者总体评价、医师服务态度、医疗技术水平、医院环境质量与安全评价以及问诊收费合理性等等; 问诊项目广告效果评估 可以关注问诊项目广告策划计划是否可行、效果是否有效、推广媒体选择是否得当、推广费用是否合理、是否带来定向患者从而达到预期效果以及广告渠道带来的潜在收益等等。 营销组合模型流程 通常,构建营销组合模型需要五个基本步骤: 立项评估 通过探索、访谈、文献研究以及与客户反复沟通确定项目的主要内容,从而拟定出营销组合模型的雏形与具体的构建计划,这个过程一般需耗时 确定因变量、建立模型层次以及制定模型评估方法,通常我会选择逻辑回归进行处理,如果是市场营销场景,则令销售量为Y,不同的营销手段、价格、促销因素作为X入模,这个过程一般需耗时3-6周; 模型优化

    1.5K20发布于 2019-08-09
  • 来自专栏AIGC新知

    海螺模型Hailuo 02深度测评:我们把它的物理表现和动态效果测了个底朝天

    卷心菜 YA 卷心菜 AI 叨叨 1篇原创内容 AIGC新知 分享AI实践,探讨人与AI如何协作 --〉智能体 | 工作流 | 大模型 | AI赋能。 295篇原创内容 公众号 测评:卷心菜、绛烨 排版:绛烨 各位创作者们,准备好迎接一场视觉盛宴了吗? 备受期待的 Hailuo 02 模型迎来了重磅更新 。 根据测评,其动态效果很赞,动作镜头丝滑流畅,画面内容也符合逻辑 。 一句话总结:效果炸裂!动作镜头丝滑流畅,逻辑自洽,尤其在人物大幅度动作和双人打斗场景上表现卓越 。 第一部分:文生视频  在文生视频部分,测评重点测试了模型对细节、质感和大幅度动作的理解与表现能力 1. 质感与细节 Hailuo 02 对材质质感和物理规律的渲染能力令人印象深刻 。 给创作者的三个核心建议: 指令要具体 模型能理解精确的逻辑。

    1.2K10编辑于 2025-06-20
  • 来自专栏JAVA

    深度学习模型迁移学习效果

    深度学习模型迁移学习效果优化指南 摘要 大家好,我是默语,擅长全栈开发、运维和人工智能技术。在这篇博客中,我们将深入探讨如何优化深度学习模型的迁移学习效果。 本文将从模型选择、数据准备、超参数调整等方面提供全面的优化策略,希望能帮助大家在迁移学习过程中获得更好的效果。 详细介绍 模型迁移学习效果不佳 模型选择的重要性 选择合适的预训练模型是迁移学习成功的关键。不同的预训练模型在不同任务上的表现差异较大,因此,选择与新任务特性匹配的预训练模型至关重要。 不同任务对学习率、批量大小等超参数的需求不同,合理调整这些超参数,可以显著提升模型的学习效果。 未来,我们可以期待更多高效的预训练模型和优化工具的出现,进一步提升迁移学习的效果

    42610编辑于 2024-11-22
  • EdgeOne测评

    以下是对腾讯云 EdgeOne 标准版与其他产品以及腾讯云 EdgeOne 标准版与其他版本的测评:腾讯云 EdgeOne 标准版与市面同类产品:腾讯云 EdgeOne 标准版与市面上的同类产品相比,具有以下优势

    87910编辑于 2024-08-03
  • 来自专栏鸡蛋君

    VMBox测评

    今天在LET论坛看到发的offer OVZ配置 硬盘:50GB SSD 内存:2GB DDR3 流量:2TB IPv4:1 优惠码:YYNISQ1W7J 洛杉矶:点击购买 荷兰:点击购买 加上前几

    1.1K20发布于 2018-06-28
  • 来自专栏杨不易呀

    测评混元大模型并且基于混元实战开发

    前言 halo 我是杨不易呀,在混元大模型内测阶段就已经体验了一番当时打开页面的时候灵感模块让我大吃一惊这么多角色模型真的太屌了,随后我立马进行了代码处理水平和上下文的效果结果一般般但是到如今混元大模型代码处理水平提升超过 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元大模型有着强烈的喜欢功能的强大你们说的算,往下看! 三、动画效果:使用Vue.js创建简单的过渡和动画效果。 PROMPT 诗词 那么我们知道混元是中文的模型自然比同类的大模型更加懂中国的东西,那么我们看看根据古诗词进行绘画的效果 这里我就使用油画风格(指定) prompt: 帮我画一张图片: 无言独上西楼, 那么我的测评就到这里啦感谢大家的观看谢谢!

    3.2K8150编辑于 2024-01-30
  • TarPass:靶标感知分子生成模型的全面基准测评与启示

    本文针对当前靶标感知分子生成模型评估的核心痛点——缺乏统一标准、评估维度片面、难以区分真实性能与表面效果——构建了包含18个特征明确靶标的TarPass基准数据集。 研究团队从PLIs、分子合理性和类药性三个核心维度,对3D原位生成、非3D生成和优化型生成三大范式的模型进行了全面且严格的测评模型对相互作用先验的利用效果差异显著:Lingo3DMol凭借有效的相互作用先验设计,性能超过多个3D原位模型,而IPDiff虽引入相互作用先验,表现却低于随机基线,凸显了先验设计的重要性。 虚拟筛选实践:多层流程实现有效富集 尽管模型存在诸多局限,研究团队基于测评洞察设计的多层虚拟筛选流程,仍展现出显著的实用价值。 虚拟筛选流程及候选分子富集效果 研究启示与未来方向 TarPass基准的系统性测评清晰揭示了当前靶标感知分子生成领域的核心现状:现有模型虽具备探索新型化学空间的独特潜力,但距离真正的理性设计工具仍有较大差距

    12410编辑于 2026-01-08
  • 来自专栏机器之心

    多模态大模型能力测评:Bard 是你需要的吗?

    机器之心专栏 机器之心编辑部 为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场,让真实用户来提问和投票哪个模型表现得更好。 六大多模态能力结构图 多模态大模型竞技场 多模态大模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。 用户上传图片和提出相应问题之后,平台从后台模型库中随机采样两个模型。两个模型分别给出回答,然后用户可以投票表决哪个模型表现更佳。 Bard 是 12 个模型中唯一的工业界闭源模型,因此不知道模型具体的大小、设计和训练数据集。相比之下,其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答,而 Bard 支持多轮对话。

    83720编辑于 2023-09-08
  • 来自专栏机器学习与统计学

    量化大模型,本地部署,效果不打折

    这标志着模型量化技术的一个重要突破:极低的比特数不再意味着性能的大幅牺牲。 这种方法并非对模型的所有层“一视同仁”地进行压缩。通过研究,Unsloth 发现模型中的某些张量(如 attn_k_b)对量化操作极为敏感。 例如,在 Qwen2-VL-2B-Instruct 案例中,简单将所有层量化为 4 位会导致模型将下图的火车误认为海岸场景: 这种策略尤其对 MoE(Mixture of Experts)模型有效,现已成为 结论 Unsloth 的动态量化技术证明,通过智能的、非均匀的量化策略,我们可以在大幅压缩模型体积的同时,保持甚至超越 SOTA 模型的性能。 对于追求本地化、低成本部署高性能模型的用户来说,Unsloth 的动态量化模型无疑是当前最值得关注的方案之一。

    44210编辑于 2025-11-29
  • 来自专栏钟意博客

    iPhone SE测评-新款苹果测评-Joi博客文章

    ---- SE测评 大家期待很久的新款iPhoneSE终于来了,在4.15上线官网,24号开售。 那新款iPhone的参数?基带?性能?性价比? 如何? 今天小编给大家带来iPhoneSE的测评 ---- 微言: Chris Gardner:You got a dream, you gotta protect it. 小朋友你是不是有很多问号¿¿¿ 所以很多用户说新款se是8的升级款 不过这价格香啊3299 拆机测评 来看看艾奥科技的公司的拆机测评 根据拆机的结果来看,这两款iPhone的内部结构几乎完全相同

    97520发布于 2021-10-11
  • 来自专栏JackeyGao的博客

    Conoha主机测评

    Conoha主机测评 Posted November 02, 2015 最近由于心知肚明原因, 原来的linode主机已不能使用。所以最近又开始了疯狂找主机的历程, 说起这个简直不能提起。

    3.3K10发布于 2018-08-02
  • 来自专栏华仔的技术笔记

    ugChain技术测评

    本文旨在从技术的角度,针对ugChain开源出来的代码,进行测评;另外本文对以太坊dapp开发者是一个很好的学习资料,可以了解一个优秀的商业级的区块链项目是如何设计和开发。 测评 ugChain社区开源地址:https://github.com/ugchain ugChain智能合约项目地址:https://github.com/ugchain/ugc-contract.git

    1.6K50发布于 2018-05-17
  • 来自专栏AI研习社

    如何优化你的图像分类模型效果

    一种不错的方式是先用小的尺寸,如64 x 64进行训练,再用这个模型的参数,在128 x 128尺寸上进行训练,如此以往。每个较大的模型都在其体系结构中包含以前较小的模型层和权重。 ? 由于我们的问题中的类别是Place365数据集的子集,所以我使用了一个用Place365权重初始化的ResNet50模型。 这个模型的权重在“pytorch weights”中提供。 方法-1 使用之前训练的模型,我对整个训练数据进行了预测。然后丢弃概率得分超过0.9但是预测错误的图像。下面这些图像,是模型明显错误分类的。深入观察以后,我发现这些图像是被人工错误分类了。 ? 组成模型的相关性较低。 改变模型的训练集,能得到更多的变化。 在本例中,我通过选择最大发生类来集成所有模型的预测。如果有多个类有最大出现的可能,我随机选择其中的一个类。 如果可能,深度学习模型在这些模型上训练之后,使用他们的参数作为你模型的初始权重。 想要继续查看该篇文章相关链接和参考文献?

    1.9K10发布于 2019-05-29
  • 利用Transformer模型提升产品检索效果

    利用Transformer模型提升产品检索效果当顾客点击产品搜索结果列表中的某个商品时,暗示该商品优于未点击项。 传统"学习排序"模型通过比较点击/未点击结果的"成对比较"或"列表排序"方式利用这种隐式反馈。但这种方法存在缺乏绝对反馈的缺陷——例如当列表中无任何点击时,模型无法利用这一负面信号。 该模型采用自然语言处理中流行的Transformer架构,能够:通过分类令牌捕捉列表整体质量利用注意力机制动态评估商品特征的上下文重要性对零点击列表仍能进行有效学习技术架构模型输入包含商品特征(XI)和分类令牌 但在包含丰富特征的亚马逊内部搜索数据上,我们的模型实现全面超越:准确率提升12%超过基线神经网络首次在工业级数据集上超越GBDT模型特别擅长处理零点击或全点击的特殊场景研究表明,当数据集具备以下特征时,

    19100编辑于 2025-07-27
  • 利用Transformer模型提升商品检索效果

    学习排序"模型利用这种隐式反馈来改进搜索结果,通过"成对"(比较结果对)或列表式(判断结果在列表中的位置)方式进行评估。这种方法存在的问题是缺乏绝对反馈。 它使用自然语言处理中流行的Transformer模型来关注同一列表中商品之间的差异,预测它们被点击的相对可能性。实验中,将该方法与标准神经网络模型和使用梯度提升决策树(GBDT)的模型进行了比较。 在三个公共数据集上,GBDT表现最佳,但新模型优于基线神经网络。而在某中心内部搜索数据上,新方法全面优于基线模型模型为数据集中的每个商品分配值:未点击为0,点击为1,购买为2。 Transformer模型接收列表中每个产品的信息以及类别标记,生成向量表示:产品表示捕获评估与查询匹配度的信息,类别标记表示捕获列表整体信息。 在某中心搜索数据上,新模型实现了比其他方法更好的性能,包括强大的GBDT模型。基于这些结果,研究将继续从客户反馈中学习。用户视角是排序问题的核心,点击和购买数据似乎是值得进一步研究的信号。

    24310编辑于 2025-08-19
  • 来自专栏TestOps云层

    Fiddler Everywhere测评

    正好整理新课程的时候要更新Fiddler,于是去官网上看了一下,发现了Fiddler EveryWhere的版本,于是下载看看吧。

    91920编辑于 2022-04-07
  • 来自专栏点云PCL

    测评活动分享

    在点云PCL公众号相机测评活动的支持下,首先拿到了小觅相机,所以这篇文章将对小觅MYNTEYE-S1030-IR在ORB-SLAM2和RTAB-Map两种SLAM方案下的效果进行测评,为了增强对比效果会和我自制双目摄像头进行对比 首先介绍一下这次我们的测评相机:MYNTEYE-S1030-IR标准版 实物拍摄 ? ? ? ? ? MYNTEYE-S1030 IMU 坐标系统为右手系,坐标轴方向如下: ? 后端主要采用BA优化方法,内部包含了一个轻量级的定位模型,实现利用VO 追踪未建图区域和与地图点匹配实现零漂移定位。 好了到了激动人心的时刻了,下面就来测试一下MYNTEYE-S1030-IR 跑ORB-SLAM2的效果吧! rtabmap_ros 的三维图就具备彩色信息,这一点比MYNTEYE-S1030-IR标准版好一些,但是这两个开源项目都没有使用到小觅相机的IMU信息,所以这里只是单纯的从图像信息对两款相机测试两个开源项目的效果

    2.7K30发布于 2019-08-28
领券