首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型应用:大模型的词化处理详解:BPE、WordPiece、Unigram.11

    引言 词化(Tokenization)是大模型预处理的核心步骤,将连续文本切分为模型可理解的最小语义单元(Token),这些词可以是单词、子词或字符。 核心概念合并标准:选择使语言模型似然增加最大的对。语言模型:通常是一个基于词的n-gram模型。3. 处理逻辑1. 初始化:和BPE一样,拆分为原子单元,统计 Token 频率;2. 11. 对新文本进行分词(使用最长匹配策略)。注意:在WordPiece中,通常使用一个语言模型来评估合并后的似然变化,但这里我们使用对数似然增益的公式作为合并标准。6. 训练Unigram语言模型(即计算每个词的概率)5. 判断词表大小是否达到目标,如果未达到,则继续删除词6. 计算删除每个词后的困惑度(或损失函数,通常是似然的变化)7. 删除困惑度上升最小的词(即对模型影响最小的词)8. 更新词表,并重新计算每个词的概率(重新训练语言模型)9. 重复步骤5-8直到词表大小达标10. 生成最终词表11.

    57833编辑于 2026-02-08
  • 来自专栏游戏开发司机

    C++:11---友函数、友

    一、友(friend) 概念:通过友,打破了类的封装性,可以访问类内的所有成员 分类:友函数、友类 二、友函数 概念:友函数是一个普通函数,不属于类,但需要在类内表明友关系 友函数可访问类内所有成员,但类不可以访问友函数内部数据 格式 友函数可以在类内声明时,需要加上关键字friend 友函数可以在类外声明,类外定义。 友类也不属于类成员,不拥有this指针 一个类A成为另一个类B的友类时,类A就可以访问类B的所有成员 友类的形式分为两种 使整个类成为友 使类中的某一部分函数成为友 使整个类成为友 class 四、友特点 单方向性:即友可访问类,但是类不能访问友 不传递性:A是B的友,C是A的友,但C不是B的友 不继承:在上面的友类中有介绍 ? 五、友的声明和作用域的关系 使用一个友时,要考虑到其友的声明和作用域的问题,请看下面代码 class X { public: friend void f(){} //友函数在类内定义 X()

    78720发布于 2021-02-03
  • 来自专栏大数据&分布式

    统一数据:模型定义、数据采集

    背景 数据管理可分为如下5个流程步骤:模型定义、数据采集、数据加工、数据存储、数据应用。其中,模型定义是整个数据管理的前提和规范,用于定义可管理的数据范式。 模型定义 模型数据标准的M2层,是对数据M1层的抽象。更多详情可参考《数据资产管理体系与标准》。 基于数据定义数据范式 M2:模型层,是针对M1模型层的抽象,例如,Hive模型可理解为Hive Metastore的相关表定义 M3:元元模型层 Hive Metastore 的模型定义如下所示 因此模型并不是越灵活越好,在模型设计时,需考虑使用场景决策模型的管理。 通用数据模型:支持关系型数据源的数据治理,如MySQL、PG、Oracle等数据管理; 备注:如果需考虑文件数据等场景,需要对模型扩展。

    4.1K43编辑于 2024-05-14
  • 模型初试

    模型基础产品体验 那么先来测试一下腾讯混模型的基础产品体验,混生文、混多模态以及混生图。 以下为混以“玩转混模型“为主题而生成的文章及其配图,图片下增添了混对于其配图的解释: (腾讯混模型的概述 - 风格:现代科技风格 - 内容:展示混模型的抽象图形,背景为科技感的未来城市, 突出其作为腾讯自主研发的大型预训练模型的核心地位) 一、腾讯混模型的魅力所在 腾讯混模型是腾讯自主研发的一款大型预训练模型,它具备强大的自然语言处理能力和理解力,能够广泛应用于文本生成、情感分析 (混模型的魅力所在 - 风格:信息图表风格 - 内容:以图表形式展示混模型的四大核心优势:规模庞大、训练数据丰富、灵活性强、持续进化,每项优势旁配简短的描述和图标) 二、玩转腾讯混模型的实操指南 ) 三、腾讯混模型的创新应用案例 腾讯混模型已经在多个领域展现出惊人的实力: - 教育领域:辅助教师批改作业,为学生提供个性化学习建议。

    69210编辑于 2024-09-24
  • 来自专栏NLP/KG

    深度学习应用篇-学习:基于优化的学习-MAML模型、LEO模型、Reptile模型

    深度学习应用篇-学习[14]:基于优化的学习-MAML模型、LEO模型、Reptile模型 1.Model-Agnostic Meta-Learning Model-Agnostic Meta-Learning (MAML): 与模型无关的学习,可兼容于任何一种采用梯度下降算法的模型。 1.3 MAML 模型结构 MAML 是一种与模型无关的学习方法,可以适用于任何基于梯度优化的模型结构。 学习器为基础学习器的编码器和解码器提供参数, 参数包括特征提取模型的参数、编码器的参数、解码器的参数等, 通过最小化所有任务上的泛化误差,更新参数。 2.5 LEO 模型结构 LEO 是一种与模型无关的学习,[1] 中给出的各部分模型结构及参数如表1所示。 表1 LEO 各部分模型结构及参数。

    2.3K100编辑于 2023-10-11
  • 来自专栏ClearSeve

    C++11内存模型

    最近看了极客时间——《现代C++实战三十讲》中的内存模型与Atomic一节,感觉对C++的内存模型理解还不是很清楚,看了后面的参考文献以及看了一些好的博客,算是基本了解了,根据参考文献整合一下。 Thread-1: Thread-2: x = 100; // A std::cout << x; // B C++11 C++11的内存模型共有6种,分四类。其中一致性的减弱会伴随着性能的增强。 参考链接 【1】C++11中的内存模型上篇 – 内存模型基础 【2】C++11中的内存模型下篇 – C++11支持的几种内存模型 【3】理解 C++ 的 Memory Order 【4】如何理解 C++ 11 的六种 memory order 【5】《现代C++实战三十讲》中的内存模型与Atomic

    1K30编辑于 2022-02-11
  • 来自专栏LINUX阅码场

    深入理解C11C++11内存模型

    个人认为,内存模型表达为“内存顺序模型”可能更加贴切一点。 2011年发布的C11/C++11 ISO Standard为我们带来了memory order的支持, 引用C++11里的一段描述: The memory model means that C++ code C11/C++11使用memory order来描述memory model, 而用来联系memory order的是atomic变量, atomic操作可以用load()和release()语义来描述 C11/C++11内存模型 C/C++11标准中提供了6种memory order,来描述内存模型[6]: enum memory_order { memory_order_relaxed, - Frank Birbacher [ACCU 2017] C++11中的内存模型下篇 - C++11支持的几种内存模型 memory ordering, Gavin's blog c++11 内存模型解读

    2.9K30发布于 2020-06-04
  • 来自专栏媒矿工厂

    CDNI数据模型扩展

    目录 背景介绍 配置数据方面的挑战 SVA 对于 IETF 数据模型结构的扩展 背景介绍 CDNI(Content Delivery Networks Interconnection) 是一个定义了一系列接口 CDNI的具体的参考模型如下图所示。其中的每一个部分的作用是非常灵活的,内容提供商(CSP)同样可以作为 uCDN,商业的 CDN 或者 ISP 也可以既作为 uCDN 也可以作为 dCDN。 CDNI 参考模型 CDNI 的参考模型还定义了循环和递归的请求路由方式,也包括了基于DNS 和 HTTP 重定向的部署。 在本次演讲中,主要关注的是其中的数据接口部分(RFC 8006) 配置数据方面的挑战 目前 CDNI 配置数据方面存在的挑战主要在于,仍然缺少符合业界标准的 API 以及合适的配置数据模型,以使得内容和服务提供商将更多的操作实现自动化 SVA 对于 IETF 数据模型结构的扩展 SVA 对于 CDNI 数据模型的扩展主要集中在 GenricMetadata Object 部分, 并作为 RFC-8006 的扩展部分提交给了 IETF

    69510编辑于 2022-04-11
  • 来自专栏三掌柜的技术空间

    【玩转腾讯混模型】腾讯混模型:技术代码实践与应用

    目录前言国产大模型进入长跑期,从参数至上转向实用优先有价值的技术代码实战经验分享基于腾讯混模型的技术开发实践、新颖的技术场景应用对腾讯混模型的深入理解和代码使用技巧番外篇:发现腾讯混的友好之处结束语前言随着去年腾讯推出的混模型以来 本文将从三个方向分享与腾讯混模型相关的实际开发中代码的使用实践,其中包括有价值的实战经验、基于该模型的技术开发实践与应用,以及对腾讯混模型的深入理解和代码使用技巧的分享等。 国产大模型进入长跑期,从参数至上转向实用优先近半年时间,腾讯混模型在2023年腾讯全球数字生态大会上正式亮相,并宣布对外开放至今,腾讯混一直都是国内外技术圈关注的焦点,而且腾讯混的诞生和对外开放也标志着国产大模型进入了长跑期 下面分享一下腾讯混模型微信小程序的应用界面一角:有价值的技术代码实战经验分享先来通过技术代码实践相关来分享使用腾讯混模型的体验,在与腾讯混模型的技术代码实践中,以自然语言处理为例,我们可以了解如何使用腾讯混模型进行文本生成 基于腾讯混模型的技术开发实践、新颖的技术场景应用再来分享一下基于腾讯混模型的技术开发实践、新颖的技术场景应用的体验,大家都知道腾讯混模型的强大功能为开发者提供了广阔的技术开发实践和应用空间,

    1.9K53编辑于 2024-01-31
  • 来自专栏腾讯技术工程官方号的专栏

    Atlas数据存储模型分析

    core包含类型系统、数据导入导出、图引擎三大模块。类型系统定义了数据对象的模型,也是下文要继续介绍的重点。 类型系统 Atlas 允许用户为他们想要管理的数据对象定义一个模型。该模型由称为 "类型" 的定义组成。被称为 "实体" 的 "类型" 实例表示被管理的实际数据对象。 类型系统构成了数据模型的基石,具体的一条数据必须复合类型的schema约束,正如关系数据表中的一行数据必须遵守表schema约束一样。 下面介绍打通存储链路的最后一环,Atlas数据类型到Janusgraph存储的映射。 Atlas数据存储模型 Atlas在图中存储的数据分两大类:类型定义的存储和数据的存储。 希望通过这篇文章,使大家对Atlas数据存储模型会有更深的了解。 ?

    4.7K30发布于 2019-09-11
  • 来自专栏杨不易呀

    测评混模型并且基于混实战开发

    腾讯混模型现在正式全部开发,发起申请即可,在混模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混模型! 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混模型有着强烈的喜欢功能的强大你们说的算,往下看! ,接下来我们主要的就是 体验腾讯混模型代码能力 混模型对话页面 体验代码能力 我这里列举了不同的代码需求看看混模型提升了百分之二十的强悍之处!!!! 混模型内置了灵感模块其中: 一共有 11 种分别是赛博朋克风格、日漫动画风格、梵高风格、扁平插画风格、像素插画风格、马赛克风格、粘土手办风格、油画风格、黑白漫画风格、动画风格、乐高风格 可以说是非常的多了 我的第一个建议请求是“我正在审查 iPhone 11 Pro Max”。

    3.2K8150编辑于 2024-01-30
  • 【玩转腾讯混模型】如何使用腾讯混模型生成的Python代码

    直到腾讯混模型出世,让不会编程、但是又想享受编程带来便利,成为现实。这又叫做“自然语言编程”。 绝对能给我们的生活打开一个新世界。你只要向腾讯混模型描述你想干什么,它就能给你写出所有的代码。 这里以在win11上,安装Python。这款软件也是免费的。 以后,我们会在这里面运行腾讯混模型写好的程序。 4.1 让腾讯混模型写代码这里以转换文件为例:把文件夹里的视频mp4文件,转换成mp3音频文件写需求并把需求提交给腾讯混模型:参考提示词: 作为一个Python程序员,需要把文件夹里的MP4文件 混元代码能力展示混模型在代码生成、代码补全、代码审查、与注释生成等方面均有出色表现。下面将逐一介绍各项功能。5.1代码生成混模型能够理解用户的需求,自动生成高质量的代码。

    2.4K31编辑于 2024-01-15
  • 来自专栏深度学习

    【深度学习】序列生成模型(三):N统计模型

    N统计模型   N模型(N-Gram Model)是一种常用的序列建模方法,尤其是在处理数据稀疏问题时。该模型基于马尔可夫假设,即假设当前词的生成只依赖于其前面的 N-1 个词。    N模型的核心思想是使用前面 N-1 个词的历史信息来估计当前词的条件概率,对于一个 N模型,条件概率可以表示为: p(x_t | \mathbf{x}_{1:(t-1)}) \approx 当 N = 1 时,称为一(Unigram)模型。 每个词的生成只与它自身有关,与前面的任何词无关。 当 N = 2 时,称为二(Bigram)模型。 一模型 1.1 概述 定义: 一模型是N统计模型中的特例,其中每个词的生成概率独立于其他词,无关上下文。 N模型   在 N 模型中,条件概率 p(x_t | x_{t-N+1:t-1}) 表示在给定前面 N-1 个词的情况下,第 t 个词出现的概率。

    51010编辑于 2024-07-30
  • 【玩转腾讯混模型】腾讯混模型AIGC系列产品深度体验

    【玩转腾讯混模型】腾讯混模型AIGC系列产品深度体验腾讯推出的系列AI产品:混模型、大模型图像创作引擎、大模型视频创作引擎、腾讯元宝,共同构成了一个强大的AI生态系统;凭借腾讯自研的大规模预训练技术和先进的自然语言处理 ,可结合输入的文本输出相关文本内容,可在文本生成、创作、问答等场景服务各类行业内容创作:具备文学创作、文本摘要等内容创作能力体验流程1、体验地址混生文体验地址2、点击立即体验图片3、体验腾讯混模型图片大模型知识引擎图片 ,需要的小伙伴可以自行研究混生图基于混文生图大模型,具备强大的中文理解与图像生成能力,可结合输入的文本描述智能绘制出精美图像图像创作:为高质量的图像生成提供技术支持体验流程1、体验地址混生图体验地址图片 AIGC系列产品提供非常丰富的前沿技术:混生文、混生图、图像创作引擎、视频创作引擎以及基于腾讯混模型搭建的智能体腾讯元宝展现了广阔的应用潜力与价值虽然各项大模型在体验中的效果不是非常完善,如混生文的文章排版格式有时候会出现标点的混乱 、混生图调优的图片不是非常完美、图像视频创作引擎过于模版化等微小细节问题,但是在不久的将来对各项模型的调优会使模型更加完善真实!

    1.3K20编辑于 2024-10-15
  • 数据、数据模型:三个你似懂非懂,但必须弄清的概念

    我一直强调,数据是数据标准化的基石。没有它,所谓的“数据互通”就会变成一场鸡同鸭讲的混乱。第三部分:模型——构建数据世界的“宪法”最后,我们来看最高层、也最抽象的模型。 如果说数据描述具体的数据,数据定义具体的字段,那么模型就是定义“我们该如何去描述和定义数据”的规则。它是“模型模型”。这个概念有点绕,我们一步步来。 那张具体的类图,就是一个根据UML模型创造出来的“模型”。在数据管理领域,模型的作用是提供统一的建模框架。比如,一个企业要建立数据仓库,可能会采用“维度建模”作为其核心的模型。 数据模型(如具体的数据库表设计、维度模型)在中间层,它是根据模型这部“宪法”制定出来的“具体法律”。 虽然模型的设计通常由专家完成,但理解你所处环境的模型,对数据分析师大有裨益。

    57610编辑于 2026-01-14
  • 来自专栏数智转型架构师

    数据到模型,让AI更懂你的业务

    一、模型:听起来很“玄”,其实就是一张“空白表格” 如果说数据是“描述数据的数据”,那模型就是 “描述数据的模型”,或者更通俗一点,“创建元数据的模板”。 这个定义是不是更绕了? 二、模型 vs 数据:模板与填表的关系 我们来稍微总结一下,模型数据,就像“模板”和“填好内容的表”的关系: 模型(Metamodel):是蓝图、是模板、是规则。 没有模型,我们可能有无数种方式去描述张三和技术部的关系,最终导致混乱。有了模型,所有关于人和部门的描述都有了统一的“语法”。 没有模型,AI是汪洋大海中的一个漂流瓶;有了模型,AI就拥有了整片海洋的航海图和水文图。 五、行动指南:我们该如何着手构建自己的“模型”? 和数据一样,模型也需要专业的工具来承载。现代的企业架构工具或数据治理平台,都能让你通过可视化的方式,拖拉拽地定义自己的模型,并基于这套模型来管理数据。

    20010编辑于 2026-01-20
  • 来自专栏c++与qt学习

    c++模板学习11之类模板与友

    类模板与友 #include<iostream> #include<string> using namespace std; //提前让编译器知道person类存在 template<class T1 void printPerson1(person<T1, T2>& p) { cout << "姓名:" << p.name << " 年龄:" << p.age << endl; } //类模板与友 template<class T1,class T2> class person { //全局函数做友在类内实现(一般是只写函数声明,不做定义) friend void printPerson(person <T1,T2>&p) //类模板对象做函数参数 { cout << "姓名:" << p.name << " 年龄:" << p.age << endl; } //全局函数做友在类外实现

    39720发布于 2021-03-02
  • 来自专栏数值分析与有限元编程

    冰溜子的有限模型

    本文按照"模型简化-划分单元-组装整体刚度矩阵和整体节点力矩阵"的常规思路来建立冰溜子的有限模型模型简化 对于一根悬挂的冰溜子,将其简化为一维线性变截面杆模型,荷载就是其自重。 E}{l}\frac{A_1+A_2}{2} \begin{bmatrix}1 & -1 \\ -1 & 1 \\\end{bmatrix} \\ \end{split} \quad \cdots (11 这个模型由若干个离散的单元组成,每个单元都简化成等截面,由(11)可知,截面面积取单元两端截面积的平均值。 比如,我们用四个单元来建立这根杆的模型,如图3a所示 ▲图3 图3b即为由此得到的4个单元5个节点的有限模型。 \frac{\rho gA_il_i}{2} \begin{bmatrix} 1\\ 1\\ \end{bmatrix} 组装刚度矩阵 在一维问题中,每个节点只有一个自由度,图2b中的五个节点的有限模型就有五个自由度

    48410编辑于 2024-04-10
  • 来自专栏腾讯开源的专栏

    语音数字人模型,开源!

    比如这样 这样 以及,这样 这一能力来自5月28日腾讯混发布并开源的语音数字人模型HunyuanVideo-Avatar,由腾讯混视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV 模型可以生成主体一致性强、人物动作自然和背景动态性高的视频。 无论是日常对话、相声表演还是对唱场景,模型能精准驱动多个角色,确保唇形、表情和动作与音频同步,互动自然。 HunyuanVideo-Avatar 的核心优势源于多个技术创新,是由腾讯混团队与腾讯音乐天琴实验室合作的混MuseV联合项目组持续共同研发的成果,包括其角色图像注入模块,基于多模态扩散Transformer HunyuanVideo-Avatar的单主体能力已经开源,并在腾讯混官网(PC端,https://hunyuan.tencent.com/)上线,用户可以在“模型广场-混生视频-数字人-语音驱动-

    1.1K10编辑于 2025-06-10
  • 来自专栏云时之间

    NLP入门之N语法模型

    在这一篇文章中,我们将会介绍下n语法模型和解决因为数据缺乏的情况下引入的几种常用的平滑度算法, 1:n语法模型 n语法模型的基本的公式可以看作为下面的概率公式P: 这个公式所表示的含义其实是在产生第 ,所有的历史其实就是前边的i-1个词,这样的话我们构造的模型就成为(n-1)阶马尔科夫模型,或者说n语法模型(因为我们要预测第n个词). ),trigram(三语法),fourgram(四语法). 现在假设一个说话者的使用词有20000个,那么参数的数量如下图所示: 从这个图上我们看到,到四语法模型就已经拥有非常巨大的参数了,所以构造更多的语法模型显然是不现实的. 2:构建n语法模型 1;通常构建模型的第一步是处理语料 首先我们需要对语料进行处理,因为根据n语法要求,一个词的概率只跟前边的词的概率有关,因为要使所有的概率之和为1,因此我们要在句首和句尾加上一个句首标记和句尾标记,这样的话我们就可以计算,下边举一个例子

    1.9K50发布于 2018-04-10
领券