首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏WTSolutions

    OpenAI Agents SDK 中文文档 中文教程 (7

    来自 LLM 的流式处理事件。这些是 “原始” 事件,即它们直接传递 来自 LLM。

    50810编辑于 2025-03-18
  • 来自专栏杨熹的专栏

    中文NLP笔记:7. 基于HMM的中文分词

    基于 HMM 的中文分词器   在分词上,要做的是:已知 参数(ObservedSet、TransProbMatrix、EmitRobMatrix、InitStatus),求解状态值序列   解决这个问题的最有名的方法是 Viterbi 算法   一般流程为:   语料准备     爬取文本,用空格隔开   定义 HMM 中的状态,初始化概率,以及中文停顿词   将 HMM 模型封装为独立的类 HMM_Model pass     继承 HMM_Model 类并实现中文分词器训练、分词功能     init(),构造函数,定义了初始化变量     read_txt(),加载训练语料,读入文件为 txt,并且 UTF-8 编码,防止中文出现乱码     train(),根据单词生成观测序列和状态序列,并通过父类的 do_train() 方法进行训练     lcut(),模型训练好之后,通过该方法进行分词测试   训练模型     首先实例化 HMMSoyoger 类,然后通过 read_txt() 方法加载语料,再通过 train() 进行在线训练   模型测试 ---- 学习资料: 《中文自然语言处理入门实战

    1.9K30发布于 2019-02-20
  • 来自专栏运维技术迷

    Cenot7 中文乱码解决

    LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= 查看已安装的语言包 local -a查看,如果有返回zh_CN就说明已经有中文包了 @lnmp default]# locale -a | grep "zh_CN" zh_CN zh_CN.gb18030 zh_CN.gb2312 zh_CN.gbk zh_CN.utf8 修改语言为中文

    57420发布于 2020-04-22
  • 来自专栏Mac资源分享

    Rhinoceros 7 Mac中文激活版(犀牛7 mac版)

    犀牛7 mac版哪里可以下载? 设计行业的朋友应该都了解Rhinoceros 7中文版这款著名的3D建模设计软件,犀牛7 mac版能轻易整合3DS MAX与Softimage的模型功能部分,可以建立、编辑、分析及转译NURBS,兼容最新的 图片犀牛7 mac版功能亮点不受限制的自由形式3D建模工具,例如仅在成本高达20到50倍的产品中找到的工具。建模您可以想象的任何形状。从飞机到珠宝的任何设计,原型,工程,分析和制造所需的准确性。

    40420编辑于 2022-08-08
  • 来自专栏汇智网教程

    spaCy 2.1 中文模型下载

    中文版预训练模型包括词性标注、依存分析和命名实体识别,由汇智网提供 1、模型下载安装与使用 下载后解压到一个目录即可,例如假设解压到目录 /models/zh_spacy,目录结构如下: /spacy/ for token in doc: print(token.text) spaCy2.1中文预训练模型下载地址:http://sc.hubwiz.com/codebag/zh-spacy-model / 2、使用词向量 spaCy中文模型采用了中文维基语料预训练的300维词向量,共352217个词条。 将 BB 努力 RB 参与 VV 中国 NNP 的 DEC 三峡工程 NN 建设 NN 4、使用依存分析 spaCy中文依存分析模型采用 5、使用命名实体识别 spaCy中文NER模型采用ontonotes 5.0数据集训练。

    4.6K20发布于 2019-07-28
  • 来自专栏Soul Joy Hub

    中文文本纠错模型

    中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。 1. ://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 ,可支持 BERT 类模型为 backbone。 在通常 BERT 模型上进行了魔改,追加了一个全连接层作为错误检测即 detection, 与 SoftMaskedBERT 模型不同点在于,本项目中的 MacBERT 中,只是利用 detection spm=1001.2014.3001.5502 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型

    1.9K40编辑于 2022-05-10
  • 来自专栏张善友的专栏

    Windows Phone 7 WebBrowser 中文乱码问题

    中文转换成 Unicode编码就可以了 :     public static string Unicode2HTML(string HTML)     {             StringBuilder

    1.2K80发布于 2018-01-30
  • 来自专栏技术之路

    【Linux】Centos7 切换为中文

    86510编辑于 2024-04-23
  • 来自专栏学习笔记持续记录中...

    处理模型数据(7

    Spring MVC提供了以下几种途径输出模型数据: ModelAndView 控制器处理方法的返回值是ModelAndView,则其既包含视图信息,也包含模型数据信息 // success.jsp 返回的目标页面 ; return modelAndView; } } Map&Model Spring MVC 在内部使用了一个org.springframework.ui.Model接口存储模型数据 ,具体步骤: 1)SpringMVC在调用方法前会创建一个隐含的数据模型,作为模型数据的存储容器, 成为”隐含模型” 2)如果方法的入参类型为Map或Model,会将隐含模型的引用传递给这些入参。 3)在方法体内,可以通过这个入参对象访问到模型中的所有数据,也可以向模型中添加新的属性数据 Spring Web MVC 提供Model、Map或ModelMap让我们能去暴露渲染视图需要的模型数据。 @SessionAttributes 除了可以通过属性名指定需要放到会话中的属性处,还可以通过模型属性的对象类型指定哪些模型属性需要放到会话中 @SessionAttributes(types=User.class

    50500发布于 2020-03-18
  • 来自专栏梦里茶室

    【Chromium中文文档】进程模型

    这个文档描述了Chromium支持的不同线程模型,包括它的渲染器进程,以及现有模型实现的问题。 概述 网页内容已经发展到包含大量在浏览器内运行的活跃代码的地步,使得许多网站更像应用程序而非文档。 Chromium支持四种不同的进程模型,允许开发者实验,也有最适合大部分用户的默认模式。 支持的模型 Chromium支持四种不同的模型,它们影响浏览器分配页面给渲染进程的行为。 这些模型的区别在于他们是否影响内容的源,是否影响标签页间的关系,或者两者都会影响。这个章节在更深的细节上讨论每种模型,并在这个文档的后面描述当前Chromium的实现的一些问题。 正如每个网站实例一个进程的模型那样,不同网站的页面不会共享命运(不会同生共死。。)。 更少的内存占用。这个模型比上一个模型和每个标签一个进程的模型可能创建更少的并行进程。 Chromium也支持一种简单的模型,将一个渲染器进程分配给每组脚本相关的标签页。这个模型可以使用 --process-per-tab命令行开关来选中。

    2.1K100发布于 2017-12-29
  • 来自专栏CreateAMind

    keras中文-快速开始Sequential模型

    快速开始Sequential模型 Sequential是多个网络层的线性堆叠 可以通过向Sequential模型传递一个layer的list来构造该模型: 也可以通过.add()方法一个个的将layer 加入模型中: ---- 指定输入数据的shape 模型需要知道输入数据的shape,因此,Sequential的第一层需要接受一个关于输入数据shape的参数,后面的各个层则可以自动的推导出中间数据的 ,对于不能通过Sequential和Merge组合生成的复杂模型,可以参考泛型模型API ---- 编译 在训练模型之前,我们需要通过compile来对学习过程进行配置。 训练模型一般使用fit函数,该函数的详情见这里。下面是一些例子。 用于序列分类的栈式LSTM 在该模型中,我们将三个LSTM堆叠在一起,是该模型能够学习更高层次的时域特征表示。

    1.1K40发布于 2018-07-25
  • 来自专栏雨过天晴

    原 SyntaxNet 中文模型的使用

    下载Chinese模型文件 tensorflow 官网 2. 解压 Chinese.zip 到 syntaxnet 模型主目录 unzip Chinese.zip 3. syntaxnet 目录下运行: MODEL_DIRECTORY=/opt/tensorflow 链接 AI人工智能系列随笔:syntaxnet 初探(1) github:tensorflow/models docker:tensorflow/syntaxnet 语言模型下载 [知乎评论]https

    1.2K10发布于 2018-06-04
  • 来自专栏机器学习AI算法工程

    中文文档版式分析模型

    传统的文档版式分析模型往往难以准确区分文档中的段落和其他布局元素,这限制了文档信息的进一步处理和利用,而深度学习和模式识别技术的发展为文档版式分析带来了新的机遇,通过训练数据集,可以提高模型对文档结构的理解能力 ,但高质量的标注数据集是训练有效模型的基础。 当前,在版式分析领域,据我们了解,在论文场景中,以往的开源数据集如:CDLA(A Chinese document layout analysis),缺乏对段落信息的标注;在研报场景中的版式分析模型还相对空缺 因此,为了解决这一问题,我们通过人工标注的方式对论文文档进行细粒度标签改造以及数据优化,并构建起研报场景细粒度版式分析数据集,最好利用这些标注数据集,训练了多个全新的中文文档版式分析模型,在封闭测试集上表现优异 本次开源,我们优先开源了面向论文和研报两个场景的版面分析轻量化模型权重及相应的标签体系,旨在能够识别文档中的段落边界等信息,并准确区分文本、图像、表格、公式等其他元素,最终推动产业发展。

    61210编辑于 2024-06-21
  • 来自专栏杨熹的专栏

    中文NLP笔记:7. 如何做中文短文本聚类

    将得到的数据集打散,生成更可靠的训练集分布,避免同类数据分布不均匀   7. 抽取词向量特征,将文本中的词语转换为词频矩阵,统计每个词语的 tf-idf 权值,获得词在对应文本中的 tf-idf 权重 ---- 用 TF-IDF 的中文文本 K-means 聚类   使用 k-means++ 来初始化模型,然后通过 PCA 降维把上面的权重 weight 降到10维,进行聚类模型训练   定义聚类结果可视化函数   对数据降维到2维,然后获得结果,最后绘制聚类结果图 TSNE 保留下的属性信息,更具代表性,也即最能体现样本间的差异,但是 TSNE 运行极慢,PCA 则相对较快   在展示高维数据时,常常先用 PCA 进行降维,再使用 TSNE ---- 学习资料: 《中文自然语言处理入门实战

    4.1K20发布于 2019-02-20
  • 来自专栏Lansonli技术博客

    【laravel7.x中文文档】Redis

    Redis 是一个开源的,高级键值对存储数据库。由于它包含 字符串,哈希,列表,集合,和 有序集合 这些数据类型,所以它通常被称为数据结构服务器。

    2K10发布于 2021-10-09
  • 来自专栏信数据得永生

    Theano 中文文档 0.9 - 7. 教程

    7. 教程 译者:Python 文档协作翻译小组,原文:Tutorial。 本文以 CC BY-NC-SA 4.0 协议发布,转载请保留作者署名和文章出处。

    33140编辑于 2022-12-01
  • 模型评测体系介绍及中文模型表现

    基准测试能验证大模型效果,促进大模型能力的持续提升,指导厂家的选型、推广大模型的行业应用,提升大模型的安全合规性。 现有评测数据集的比例大致是这样的:通用语言类(53%)、行业(21%)、模型安全(7%)、多模态(13%)、可靠性/鲁棒性等(6%)。 评测数据集的发布机构有大学,也有学术机构。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外大模型的评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE 》(发送“大模型测试”可得) 3.SuperCLUE《中文模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.8K20编辑于 2025-05-30
  • 来自专栏机器学习算法与Python学习

    Torch7模型训练

    Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块,这里再次基础上再给出一些上Container、 Transfer Functions Layers和 Simple Layers模块的理解 并在后面给出一些简单的模型训练方法。下述程序在itorch qtconsole下运行。 上一篇博文讲到Module主要有四个函数(详细见Torch7搭建卷积神经网络详细教程),但是注意以下几点:forward函数的input必须和backward的函数的input一致,否则梯度更新会有问题 上述函数的具体使用方法可以看Torch7的官方API以及帮助文档。接下来仅介绍一些模型训练所需要的关键函数。 将image包导入当前运行环境,随机生成一张1通道32x32的彩色图像,如下 ?

    1K130发布于 2018-04-08
  • 来自专栏NLP/KG

    基于bloomz-7b指令微调的中文医疗问诊大模型,实现智能问诊、医疗问答

    基于bloomz-7b指令微调的中文医疗问诊大模型,实现智能问诊、医疗问答 码源见文末 1.项目简介 本项目开源了基于医疗指令微调的中文医疗问诊模型:明医 (MING)。 目前模型的主要功能如下: 医疗问答:对医疗问题进行解答,对案例进行分析。 智能问诊:多轮问诊后给出诊断结果和建议。 chatgpt ming-7B 根据您提供的体检指标,我将对其中涉及的各项指标进行分析和建议:血压:您的收缩压为130 mmHg,舒张压为75 mmHg,属于正常范围。 7. 血脂四项:您的总胆固醇和甘油三酯的值都高于正常范围,高密度脂蛋白胆固醇的值低于正常范围,低密度脂蛋白胆固醇的值接近正常范围。建议您控制饮食,适量运动,如有需要请咨询医生。8. chatgpt ming-7B 我可以理解您和您母亲对这个情况的担忧。骨质疏松是一种常见的骨骼疾病,主要是骨密度降低,骨组织变得脆弱容易骨折。让我逐个回答您的问题:1.

    74410编辑于 2024-02-22
  • 来自专栏数据派THU

    中文对话大模型BELLE全面开源!

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话大模型开源社区迎来了一名浓眉大眼的新成员! 开源地址:https://github.com/LianjiaTech/BELLE 该项目目前已经开源了如下内容,并且在持续更新中: 150万中文指令微调数据集 以Bloomz-7b1-mt(70亿参数 以LLAMA-7b(70亿参数)为基础,分别在60万,200万数据上进行指令微调后得到的模型Checkpoint。 对以上模型进行量化后的轻量化模型,便于部署、推理。 ,有助于模型在各种中文场景中的表现。 模型效果比较 以Bloomz-7b1-mt为基础,BELLE团队评估了不同数量的instruction tuning数据,对模型效果的影响。

    98220编辑于 2023-04-05
领券