首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏TechLead

    文档解析效果全维度测评标准开源

    测评指标介绍 TextIn文档解析测评工具将测评指标分为五个维度:表格、段落、标题、阅读顺序和公式。这些维度通过定量测评来展示各解析产品的具体表现。 这款工具被称为文档解析效果评估的“瑞士军刀”,无论用户是文档处理的专家,还是有文档解析需求的用户,都能快速、高效地评估各款解析产品在业务场景下的能力。 在没有测试工具之前,用户评估各款解析产品效果主要依靠问答效果随机测试,并人工二次检索文档,这种方式不仅耗费人力,而且科学性低、准确度低。 在使用TextIn团队分享的测试工具后,客户不再需要“肉眼观测”解析效果。这主要是因为大语言模型的发展改变了需求和产品形态。传统的OCR技术在处理表格时,可能只输出每个单元格的位置和数值。 但当用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。 评估文档解析产品 如何比较不同文档解析产品在业务场景下的表现?

    69410编辑于 2024-07-26
  • 来自专栏数据STUDIO

    效果绝了!用爬山算法集成6个机器学习模型

    它通过对解空间进行随机扰动来达到跳出局部最优解的效果。 3. 4 iv(g) 101763 non-null float64 5 n 101763 non-null float64 6 建模 我用了如下6模型完成了一次集成,效果惊人 Random Forest Extra Trees HistGradientBoosting LightGBM XGBoost CatBoost 首先, 我们在不进行特征工程或 HPO 的情况下建立一些标准模型。 current_best_test_preds return [hill_ens_pred_1, hill_ens_pred_2] 接下来,我们通过 10 倍交叉验证建立了几个标准模型

    84911编辑于 2024-07-24
  • 来自专栏阿黎逸阳的代码

    模型效果评价—混淆矩阵

    对于分类模型,在建立好模型后,我们想对模型进行评价,常见的指标有混淆矩阵、KS曲线、ROC曲线、AUC面积等。也可以自己定义函数,把模型结果分割成n(100)份,计算top1的准确率、覆盖率。 混淆矩阵是用于评价分类模型效果的NxN矩阵,其中N是目标类别的数目。矩阵将实际类别和模型预测类别进行比较,评价模型的预测效果。 比如样本的实际类别是狗,若模型预测类别也是狗,则说明对于该样本模型预测对了。若模型预测类别为猫,则说明对于该样本模型预测错了。 对全部样本数据进行统计,可以判断模型预测对了的样本数量和预测错了的样本数量,从而可以衡量模型的预测效果。 二、混淆矩阵有关的三级指标 ? 1 一级指标 以分类模型中最简单的二分类为例。 F1-Score的取值范围(0~1),越接近1说明模型预测效果越好。 三、计算混淆矩阵的实例 ?

    2.6K10发布于 2020-09-07
  • 来自专栏张俊红

    机器学习模型效果评估

    总第96篇 前言 前面的推文中介绍了几种常用的机器学习算法,每个算法都有各自的优劣势,我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法,以此达到效果最优,那么什么样的效果才是最优的,用什么来衡量这个效果 这一篇就针对机器学习算法的效果评估指标进行介绍。 ROC曲线越向上,表示模型效果越好。 'Receiver operating characteristic example') plt.legend(loc="lower right") plt.show() ROC是一个定性指标,无法对模型效果进行量化 ,所以有了AUC,AUC是ROC曲线下方的面积,通常AUC值在0.5-1.0之间,值越大模型效果越好。

    2.3K110发布于 2018-04-11
  • 来自专栏Data Analyst

    如何借助模型衡量营销效果

    营销的影响需要通过营销度量去进行衡量,从营销价值链的视角来看,可以从输入、中介与结果输出的角度对营销的效果进行度量。 可以关注问诊项目广告策划计划是否可行、效果是否有效、推广媒体选择是否得当、推广费用是否合理、是否带来定向患者从而达到预期效果以及广告渠道带来的潜在收益等等。 3-6周 数据获取 通过详细的数据清单进行数据的有效获取,并将数据整理成所需的形式,这个过程依数据的干净程度耗时不定; 探索性分析 进行异常数据鉴定、异常值检测以及进行响应变量与重要预测因子数据关系的研究 ,这个过程一般需耗时2-4周; 模型估计 确定因变量、建立模型层次以及制定模型评估方法,通常我会选择逻辑回归进行处理,如果是市场营销场景,则令销售量为Y,不同的营销手段、价格、促销因素作为X入模 ,这个过程一般需耗时3-6周; 模型优化 实现预算方案最优化,这个过程一般需耗时1-2周 ?

    1.5K20发布于 2019-08-09
  • 来自专栏AIGC新知

    海螺模型Hailuo 02深度测评:我们把它的物理表现和动态效果测了个底朝天

    295篇原创内容 公众号 测评:卷心菜、绛烨 排版:绛烨 各位创作者们,准备好迎接一场视觉盛宴了吗? 备受期待的 Hailuo 02 模型迎来了重磅更新 。 根据测评,其动态效果很赞,动作镜头丝滑流畅,画面内容也符合逻辑 。 一句话总结:效果炸裂!动作镜头丝滑流畅,逻辑自洽,尤其在人物大幅度动作和双人打斗场景上表现卓越 。 第一部分:文生视频  在文生视频部分,测评重点测试了模型对细节、质感和大幅度动作的理解与表现能力 1. 质感与细节 Hailuo 02 对材质质感和物理规律的渲染能力令人印象深刻 。 更令人兴奋的是,全新的“大师”与“至臻”会员方案也已上线,单条视频生成成本低至25贝壳/6秒,极具性价比! 语言的描述终究有限,真正的震撼需要亲身体验。 ”案例所示 最后,全新的 「大师」 与 「至臻」 会员方案也已同步上线,单条视频生成成本低至 25 贝壳/6s,性价比超高!

    1.3K10编辑于 2025-06-20
  • 来自专栏用户7230014的专栏

    云服务IPv6支持能力测评项目发布

    论坛期间,中国信息通信研究院和下一代互联网国家工程中心正式发布了云服务IPv6支持能力测评项目,并为腾讯云、阿里云、华为云以及移动云颁发了云服务IPv6支持能力测评证书。 本次发布的云服务IPv6支持能力测评是由中国信息通信研究院和下一代互联网国家工程中心共同参与,以推进IPv6规模部署专家委员会的《云服务IPv6支持度测评指标和方法》以及全球IPv6论坛IPv6 Enabled Logo委员会全球IPv6测试中心的《IPv6 Enabled Cloud Logo测试规范》为依据的测评项目。 测评从服务功能性、服务可用性、网络介入性能、服务易用性、服务安全性、覆盖能力、IPv6升级改造方案完备性七个指标来对云服务IPv6能力进行测评,帮助企业定位云服务平台 IPv6 改造中出现的问题,有效促进云服务平台开展 在论坛的颁奖仪式中,中国信息通信研究院为腾讯云、阿里云、华为云以及移动云颁发了云服务IPv6支持能力测评证书。

    1.3K4848发布于 2020-09-01
  • 来自专栏mac软件推荐

    DxO FilmPack 6 for Mac(胶片模拟效果滤镜软件)

    DxO FilmPack 6 for Mac是一款由法国图像处理软件开发公司DxO Labs开发的照片后期处理软件。 此外,它还提供了一些特殊效果工具,如黑白转换、交叉处理和柔化边缘等。 DxO FilmPack 6 for Mac还具有批量处理功能,可自动应用相同的设置到多个照片上,从而加快照片后期处理的效率。 广泛的创意效果:除了胶片模拟,DxO FilmPack 还包括一系列创意效果,例如纹理、漏光和帧等。 自定义:该软件提供高度自定义,允许用户调整效果的强度、更改边框或框架的颜色等。 易于使用的界面:DxO FilmPack 6 具有直观且用户友好的界面,使用户可以轻松地将胶片模拟和创意效果应用于他们的照片。 DxO FilmPack 6 for Mac(胶片模拟效果滤镜软件)

    84930编辑于 2023-04-13
  • 来自专栏JAVA

    深度学习模型迁移学习效果

    深度学习模型迁移学习效果优化指南 摘要 大家好,我是默语,擅长全栈开发、运维和人工智能技术。在这篇博客中,我们将深入探讨如何优化深度学习模型的迁移学习效果。 本文将从模型选择、数据准备、超参数调整等方面提供全面的优化策略,希望能帮助大家在迁移学习过程中获得更好的效果。 详细介绍 模型迁移学习效果不佳 模型选择的重要性 选择合适的预训练模型是迁移学习成功的关键。不同的预训练模型在不同任务上的表现差异较大,因此,选择与新任务特性匹配的预训练模型至关重要。 不同任务对学习率、批量大小等超参数的需求不同,合理调整这些超参数,可以显著提升模型的学习效果。 未来,我们可以期待更多高效的预训练模型和优化工具的出现,进一步提升迁移学习的效果

    43410编辑于 2024-11-22
  • 来自专栏卡拉云-低代码开发工具

    最好用的 6 个 React Tree select 树形组件测评与推荐

    本文完整版:《最好用的 6 个 React Tree select 树形组件测评与推荐》 React 树形选择器(React tree select)组件在搭建 React 的 app 中特别常用,React 本文记录了我自己使用多年最好用的 6 款 React tree select 组件,每一款都经过我实际测试,推荐给大家。 三角按钮展开树形结构,平滑的动态效果。内置搜索功能,可快速过滤搜索,效率极快。 这套组件有流畅漂亮的动画效果,展开、关闭组件时可见。除此之外,没有任何其他多余的功能,它只有多层树状结构,简单的开合以及点击选择。针对仅需要树状选择组件的使用场景。 React 树形选择器总结 本文推荐了我自己使用多年的 6 款最好用的 React Tree select 树形选择器,这其中一定有一款适合你。

    8K10编辑于 2022-06-06
  • 来自专栏HTML5学堂

    兼容IE6 a标签hover特殊效果

    HTML5学堂:虽然IE6现在使用率越来越低,很多网站也放弃了对IE6,甚至放弃了对IE7的兼容,但是IE6还是有很多人在使用。 当我们在处理a标签的hover效果的时候,会出现一些兼容问题,那我们来看一下面这个效果。 <! 原效果 ? 鼠标放上去的效果 a{float: left}将a标签转化成块元素,这样可以设置宽和高。 a:hover b{}当鼠标放在a标签上时,只是将a标签的b的内容隐藏掉,而不是将a隐藏掉。 如果将a标签隐藏掉的,hover效果将消失,使display:none;失效。

    1.1K40发布于 2018-03-12
  • 来自专栏杨不易呀

    测评混元大模型并且基于混元实战开发

    前言 halo 我是杨不易呀,在混元大模型内测阶段就已经体验了一番当时打开页面的时候灵感模块让我大吃一惊这么多角色模型真的太屌了,随后我立马进行了代码处理水平和上下文的效果结果一般般但是到如今混元大模型代码处理水平提升超过 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元大模型有着强烈的喜欢功能的强大你们说的算,往下看! 三、动画效果:使用Vue.js创建简单的过渡和动画效果。 需求: 考验混元大模型的理解和 sql 代码能力看看是否可以 prompt: 帮我写一个 SQL 给每个班级里面新增不同的学生数据 ok 非常的正确,并且给出了 SQL 语句的解释插入6条学生数据,每个班级中都有 那么我的测评就到这里啦感谢大家的观看谢谢!

    3.2K8150编辑于 2024-01-30
  • 来自专栏存储内核技术交流

    redis 6多线程模型

    redis 多线程架构 redis6之前的版本一直单线程方式解析命令、处理命令,这样的模式实现起来简单,但是无法使用多核CPU的优势,无法达到性能的极致;到了redis 6,redis6采用多线程模式来来读取和解析命令 ,但是命令的执行依然通过队列由主线程串行执行,多线程的好处是分离了命令的解析和命令执行,命令的解析有独立的IO线程进行,命令执行依旧有main线程执行,多线程增加了代码的复杂度 开启多线程模型 Redis.conf readQueryFromClient->processInputBuffer->processCommandAndResetClient->processCommand->call } } } //多线程模型初始化

    59520编辑于 2022-08-17
  • TarPass:靶标感知分子生成模型的全面基准测评与启示

    本文针对当前靶标感知分子生成模型评估的核心痛点——缺乏统一标准、评估维度片面、难以区分真实性能与表面效果——构建了包含18个特征明确靶标的TarPass基准数据集。 部分模型存在特定结构处理缺陷,如SimpleSBDD无法处理HDAC6中的锌离子,TamGen不能接受AlphaFold预测的5-HT2A结构,这些细节也为实际应用中的模型选择提供了重要参考。 模型对相互作用先验的利用效果差异显著:Lingo3DMol凭借有效的相互作用先验设计,性能超过多个3D原位模型,而IPDiff虽引入相互作用先验,表现却低于随机基线,凸显了先验设计的重要性。 -6),将候选分子数量缩减至20-30个,达到实验验证的可行规模。 虚拟筛选流程及候选分子富集效果 研究启示与未来方向 TarPass基准的系统性测评清晰揭示了当前靶标感知分子生成领域的核心现状:现有模型虽具备探索新型化学空间的独特潜力,但距离真正的理性设计工具仍有较大差距

    14510编辑于 2026-01-08
  • 来自专栏机器之心

    多模态大模型能力测评:Bard 是你需要的吗?

    机器之心专栏 机器之心编辑部 为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 在此背景下,我们首先提出了多模态大模型多模态能力的全面评估框架 LVLM-eHub,整合了 6 大类多模态能力,基本涵盖大部分多模态场景,包括了 47 + 个相关数据集。 同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场,让真实用户来提问和投票哪个模型表现得更好。 https://arxiv.org/abs/2308.03729 Multimodal Chatbot Arena:http://vlarena.opengvlab.com 多模态能力与数据集 我们整合了 6 用户上传图片和提出相应问题之后,平台从后台模型库中随机采样两个模型。两个模型分别给出回答,然后用户可以投票表决哪个模型表现更佳。

    85920编辑于 2023-09-08
  • 来自专栏机器学习与统计学

    量化大模型,本地部署,效果不打折

    Unsloth 秘密武器是动态量化,核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化。 Non-Thinking Mode) Unsloth 动态量化技术揭秘 Unsloth 动态量化的核心思想是 “选择性量化”: 将重要的层保留为 8 或 16-bit,非重要层则压缩至 1、2、3、4、5 或 6- 这种方法并非对模型的所有层“一视同仁”地进行压缩。通过研究,Unsloth 发现模型中的某些张量(如 attn_k_b)对量化操作极为敏感。 结论 Unsloth 的动态量化技术证明,通过智能的、非均匀的量化策略,我们可以在大幅压缩模型体积的同时,保持甚至超越 SOTA 模型的性能。 对于追求本地化、低成本部署高性能模型的用户来说,Unsloth 的动态量化模型无疑是当前最值得关注的方案之一。

    53510编辑于 2025-11-29
  • 来自专栏AI研习社

    如何优化你的图像分类模型效果

    问题 下面的问题是把给定的图片分类到下面的6个类别中去。 ? 数据类别 数据中包含25,000张自然风景的图片,这些图片来自世界各地。 一种不错的方式是先用小的尺寸,如64 x 64进行训练,再用这个模型的参数,在128 x 128尺寸上进行训练,如此以往。每个较大的模型都在其体系结构中包含以前较小的模型层和权重。 ? 由于我们的问题中的类别是Place365数据集的子集,所以我使用了一个用Place365权重初始化的ResNet50模型。 这个模型的权重在“pytorch weights”中提供。 组成模型的相关性较低。 改变模型的训练集,能得到更多的变化。 在本例中,我通过选择最大发生类来集成所有模型的预测。如果有多个类有最大出现的可能,我随机选择其中的一个类。 如果可能,深度学习模型在这些模型上训练之后,使用他们的参数作为你模型的初始权重。 想要继续查看该篇文章相关链接和参考文献?

    2K10发布于 2019-05-29
  • 利用Transformer模型提升商品检索效果

    学习排序"模型利用这种隐式反馈来改进搜索结果,通过"成对"(比较结果对)或列表式(判断结果在列表中的位置)方式进行评估。这种方法存在的问题是缺乏绝对反馈。 它使用自然语言处理中流行的Transformer模型来关注同一列表中商品之间的差异,预测它们被点击的相对可能性。实验中,将该方法与标准神经网络模型和使用梯度提升决策树(GBDT)的模型进行了比较。 在三个公共数据集上,GBDT表现最佳,但新模型优于基线神经网络。而在某中心内部搜索数据上,新方法全面优于基线模型模型为数据集中的每个商品分配值:未点击为0,点击为1,购买为2。 Transformer模型接收列表中每个产品的信息以及类别标记,生成向量表示:产品表示捕获评估与查询匹配度的信息,类别标记表示捕获列表整体信息。 在某中心搜索数据上,新模型实现了比其他方法更好的性能,包括强大的GBDT模型。基于这些结果,研究将继续从客户反馈中学习。用户视角是排序问题的核心,点击和购买数据似乎是值得进一步研究的信号。

    25010编辑于 2025-08-19
  • 利用Transformer模型提升产品检索效果

    利用Transformer模型提升产品检索效果当顾客点击产品搜索结果列表中的某个商品时,暗示该商品优于未点击项。 传统"学习排序"模型通过比较点击/未点击结果的"成对比较"或"列表排序"方式利用这种隐式反馈。但这种方法存在缺乏绝对反馈的缺陷——例如当列表中无任何点击时,模型无法利用这一负面信号。 该模型采用自然语言处理中流行的Transformer架构,能够:通过分类令牌捕捉列表整体质量利用注意力机制动态评估商品特征的上下文重要性对零点击列表仍能进行有效学习技术架构模型输入包含商品特征(XI)和分类令牌 但在包含丰富特征的亚马逊内部搜索数据上,我们的模型实现全面超越:准确率提升12%超过基线神经网络首次在工业级数据集上超越GBDT模型特别擅长处理零点击或全点击的特殊场景研究表明,当数据集具备以下特征时,

    19900编辑于 2025-07-27
  • 来自专栏哆哆Excel

    Thinkphp66模型学习与知识总结(二)

    Thinkphp66模型学习与知识总结(二)   上一次学习了模型,对模型有一点小认识,今天再来学习一下,我一开始是没有想到要学习模型,原因是CURD(增删改查)中很多可以用Db类在控制器中完成,其实模型有很多好东西的 位字符型的数字以方便测试用的      public function numStr($num)       {             static $seed = array(0,1,2,3,4,5,6,7,8,9 numStr(8), 'user_status' =>rand(1,4), ]; $res = Users::create($data); dump($res->toarray()); } **2.效果如图 第一步,你要在数据表中有一个字段是delete_time, 第二步要在模型中引入类:use think\model\concern\SoftDelete;, 第三步在模型中开启//开了软删除功能     ,这也是模型类的好处哦

    1.2K30编辑于 2022-10-25
领券