搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与python集中营
【语料库】中文公开聊天语料库
该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料青云语料电视剧对白语料贴吧论坛回帖语料微博语料小黄鸡语料共8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。给出的语料原链接是为了说明该语料的原始出处是在哪里环境 python3 处理过程将各个来源的语料按照其原格式进行提取，提取后进行繁体字转换，然后统一变成一轮一轮的对话。数据来源及说明语料名称语料数量语料来源说明语料特点语料样例是否已分词 chatterbot 560 开源项目按类型分类，质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。否 xiaohuangji（小黄鸡语料） 45W 原人人网项目语料有一些不雅对话，少量噪音 Q:你谈过恋爱么 A:谈过，哎，别提了，伤心..。
9.9K50发布于 2019-05-29
来自专栏AI机器学习与深度学习算法
机器学习入门 5-8 实现多元线性回归
其中θ包含（θ0~θn）一共(n+1)个参数值，但是对于实际的样本来说，一共有n个维度，其中θ0是截距intercept，在有的时候在进行线性回归的时候，最终返回给用户的时候，有可能不是将整个θ返回给用户的，而是将截距和下面的θ1 ~ θn(称之为系数coefficients)分开，这样做的原因在系数部分，每个θ值都对应着原来样本中的一个特征，这些系数从某种意义上来讲可以描述这些特征对于最终样本相应贡献程度是怎样的，而θ0截距和我们的样本特征是不相干的，只是一个偏移，所以把这两个部分分开。所以在我们自己封装多元线性回归的时候就采用分开的方式。当然在sklearn中也是采用这样的封装方式。
53400发布于 2019-11-13
来自专栏明天依旧可好的专栏
原始语料库
第一步：判断数据中是否存在重复数据创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame
1K30发布于 2019-01-22
来自专栏机器学习AI算法工程
文本分类中语料库的获取——搜狗语料库
这次主要总结搜过语料库的获取，因为老师要求20万数据，而我自己只爬了2万多，所以用到了搜狗的语料库.
3.3K80发布于 2018-03-14
AI语料库智慧教学平台：用AI技术解锁语料教学新生态
传统语料教学中“资源零散难筛选、用法讲解不直观、练习反馈不及时”是长期痛点——教师要花大量时间整理语料、学生面对海量素材不知如何下手，很难实现“精准学、高效练”。而AI语料库智慧教学平台的出现，凭借前沿AI技术，把“智能语料导师”搬进课堂，让语料教学更精准、互动、可落地，彻底重构语言学习逻辑。核心技术之一是NLP语义检索与解析技术，这是平台的“语料导航大脑”。、语法规则，甚至标注语用禁忌。不同于普通语料库的关键词匹配，平台的AI模型经过多语种、多场景语料训练，能理解“同义替换”“场景延伸”需求，比如搜索“道歉表达”会自动关联日常、商务、学术等不同语境的语料。 AI语料库智慧教学平台用NLP、大数据分析等核心技术，让语料资源“活”了起来，破解了传统语料教学的效率低、匹配差、互动弱等问题。
45210编辑于 2025-10-29
语料智能·知识无界：AI 多功能语料库检索平台重塑语言研究新范式
语言研究进入智能检索新时代在全球化和数字人文研究蓬勃发展的背景下，传统语料库检索系统面临检索维度单一、多模态语料支持不足、深层语义关联缺失等核心挑战。 AI 多功能语料库检索平台通过融合大语言模型、多模态理解和知识图谱技术，构建了智能化、多维化、深度化的语料检索与分析体系，实现了从"关键词匹配"到"语义理解"的研究范式革新。 -检索-分析"四层技术架构：多模态语料处理引擎实现文本、语音、图像的统一表征学习；深度语义检索模型支持基于意图理解的智能检索；知识图谱关联系统构建语料间的语义网络；可视化分析平台提供丰富的语料数据洞察能力数据安全与版权保护体系针对语料资源的版权敏感性，建立全方位保护机制：访问权限控制实现分级分权的语料访问；数字水印技术保护语料版权；操作日志审计追踪所有检索行为；数据脱敏处理在保护隐私的前提下开放研究。、不断进化的新一代语料库研究基础设施。
46710编辑于 2025-10-30
来自专栏JasonhavenDai
人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的，严格按照人民日报的日期、版序、文章顺序编排的。，文件中每一行代表一自然段或者一个标题，一篇文章有若干个自然段，因此在语料中一篇文章是由多行组成的。语料中除了词性标记以外，还有“短语标记”，这种情况一般出现在机构团体名称、成语等情况中。 /w 4.生语料库和熟语料库语料库中存放的是在语言的实际使用中真实出现过的语言材料，语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过加工、分析和处理之后才能成为可用的语料库生语料库是指收集之后未加工的预料库相对而言，熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq
6K80发布于 2018-04-11
来自专栏AI机器学习与深度学习算法
实战语言模型~语料词典的生成
sorted list iterable：是可迭代类型; cmp：用于比较的函数，比较什么由key决定; key：用列表元素的某个属性或函数进行作为关键字，有默认值，迭代集合中的一项; reverse：排序规则 fin.close() fout.close() ▲处理后的结果对valid以及test样本同理使train中的方法即可： ▲数据处理以及处理后的结构大致流程：构建词汇表需要在训练样本中统计语料中出现的单词
1.6K00发布于 2020-06-01
来自专栏AI科技评论
Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准
首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。在当前版本的CCMatrix语料库中，作者限制为38种语言。（编者注：这是11月份数据，当时数据集规模为35亿并行语料，下同） CCMatrix：每种语言对的并行语料数量(单位：百万)，Margin阈值为1.06。
53110发布于 2020-02-21
来自专栏小小程序员——DATA
关联规则关联规则概述
关联规则概述关联规则 (Association Rules) 反映一个事物与其他事物之间的相互依存性和关联性。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下商品B也被客户挑选的机会就被发现了购物车分析是大型超市用来揭示商品之间关联的关键技术之一。
89810编辑于 2023-12-18
来自专栏AI研习社
Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准
首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。在当前版本的CCMatrix语料库中，作者限制为38种语言。（编者注：这是11月份数据，当时数据集规模为35亿并行语料，下同） CCMatrix：每种语言对的并行语料数量(单位：百万)，Margin阈值为1.06。
1.4K20发布于 2020-02-21
大模型语料标注需要注意哪些？
一、语料类型 1.自采语料 2.商业语料 3.开源语料二、抽检要求 1.人工抽检要求具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。以此来保证语料在人工抽检环节的质量水平。 2.技术抽检要求结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。合格标准:抽样合格率不应低于98%，保障技术抽检的语料质量。 3. 评估技术规范要求规范内容:评估采用的关键词库、分类模型应符合文件要求。确保在使用关键词、分类模型等技术进行语料抽检时，所使用的工具和模型是符合既定规范和标准的，从技术层面保障语料安全评估的科学性和准确性。
33910编辑于 2025-09-04
来自专栏算法channel
一种获取NLP语料的基本方法
学习自然语言处理，语料获取是第一步，那么如何抓取和提取语料呢，本文提供一种思路。维基百科语料库维基百科会定期把各种语言的百科网页全部打包存储起来，这里我们选择其中的中文维基百科网页，这个文件可以作为中文语料库来使用。下载其他语言观察上面https://dumps.wikimedia.org/zhwiki，若我们把 zhwiki 替换为 enwiki，就能找到英文语料，如果替换为 frwiki，就能找到法语语料，依次类推可以参考 ISO 639-1语言列表，相应替换便能找到对应语料。为了读取其中的文本信息，我们需要借助提取工具，WikiExtractor 是一款不错的开源提取工具，使用该工具，可以方便地处理语料库，输出为想要的存储格式。
2.6K20发布于 2021-03-12
来自专栏大数据智能实战
健康问答语料的爬虫(C#)
为了实现健康问答系统的构建，需要找一些语料，发现好大夫在线的数据挺好的，于是花了一个小时时间，写了个爬虫，能够爬取其页面上显示的40个疾病左右的问答语料。采用C#来编写，主要效率高一些。开辟了20个线程进行下载，约下载了30多万的问答语料。 ? 爬取下来的结果如下所示：可以看到当中存在着几轮对话，当然也有一些噪声，如尽快填表等。
1.5K60发布于 2018-01-09
终极法则——Embedding、LLM 与“语料为王”
终极法则：语料为王 (Data is King)无论是 Embedding 模型还是 LLM，我们必须牢记一个最根本的实践原则：模型的一切知识，都 100% 源于它所学习的训练数据（语料）。你计划应用模型的场景，必须与训练模型的语料场景高度匹配。如果你想为你的电商网站做一个商品搜索引擎，那么使用一个在海量商品评论和描述上训练过的 Embedding 模型，其效果会远超一个通用的新闻语料模型。
52710编辑于 2025-08-06
来自专栏AI算法与图像处理
SCI语料库！学术写作神器——Academic Phrasebank
https://www.phrasebank.manchester.ac.uk/introducing-work/
2.5K30编辑于 2022-12-11
来自专栏全志嵌入式那些事
语音识别语料归一化处理的方法
在进行语音识别模型的训练和测试语料收集的过程中，我们需要对收集到的语料进行归一化处理。收集到的语料应每个命令词或句子单个截下来，对其进行归一化处理。特别是在语料录制的过程中，由于志愿者的逐渐疲惫，后面录的命令词的声音，可能会偏弱一些。对语料进行归一化处理的基本原理是：取一段语料中幅度最大的点将其幅度拉大到接近1，记录拉大的比例，再将其他所有点均按这个比例拉伸。 /do_pcm -i in.pcm -o out.pcm --norm对语料进行处理，得到的out.pcm则为一个处理好的语料文件，如：幅度调整范围是-32767-72767 归一化处理前好的两个语料的对比（上方为处理前语料的音轨，下方为处理好语料的音轨）：频谱图对比：
40310编辑于 2024-02-02
来自专栏全栈程序员必看
iptables规则详解_iptables规则文件
-F, –清空 [集合名称] 删除指定集合中的所有规则, 如果没有指定或者指定了all就清空所有的集合。绑定不会受到清空操作的影响。 -L, –列出 [集合名名称] 列出指定集合的规则和绑定，如果没有指定或者指定为all就列出所有的集合。 -n选项，数字选项可以用来限定名称查找和生产数字输出，当-s ，分类选项已经使用，规则将分类排列（如果给出的集合类型支持这个选项）。 -s, –分类分类标准输出.当监听集合，规则列表分类的时候。 -n, –数字数字输出。当监听集合，绑定，ip地址和端口好需要输出的时候使用数字格式. 注意：当ipset列表更新时，需要重新添加iptables规则才会生效。版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。
3.3K20编辑于 2022-11-08
Sentinel 授权规则&&规则持久化
本篇博客我们来学习授权规则，授权规则是对请求者的一种身份的判断。 1、授权规则授权规则是对请求者的身份做一个判断。你有没有权限来访问我？ 1.1.基本规则而Sentinel的授权规则里啊，配置也比较简单，主要就是白名单和黑名单两种白名单。所以们就来学习一下如何将sentinel的规则持久化。 3.1 规则管理模式规则管理呢，它有三种模式：原始模式：Sentinel的默认模式，将规则保存在内存，重启服务会丢失。而它就会将这个规则持久化到一个本地的文件或者是数据库里去，那这样我们就实现了规则的持久化。但是呢，如果说我还有一个服务，也需要这个规则呢？我怎么知道这个规则有没有变化呢？可以看到啊，现在是不是多出了一个流控规则了，就是Nacos的流控规则那如果你点这个表单啊，在这添加的流控规则。最终就会进入Nacos了。但是呢，如果你现在是在这边去添加啊。
1.3K10编辑于 2023-10-17
2025全网最全广东省大模型备案攻略，速度收藏！
（2）《安全自评估报告》是大模型备案材料中难度最大，也是最重要的一份材料，其中包含语料安全评估、生成内容安全评估等多项评估内容，并要求形成整体评估结论。（3）《模型服务协议》需全面规定产品及服务的各项规则以及隐私条款等关键内容。（4）《语料标注规则》主要涵盖标注团队介绍、功能性及安全性标注细则以及标注流程等方面，明确针对不同功能需求和安全风险的标注标准和方法。四、大模型备案注意事项（1）模型完成度要求模型需开发完成并能提供测试阶段，才能进行大模型备案（2）模型备案周期大模型备案的周期较长，一般在5-8个左右，北京地区排队审核企业较多，周期更是长达8-10月之久
70211编辑于 2025-05-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【语料库】中文公开聊天语料库

机器学习入门 5-8 实现多元线性回归

原始语料库

文本分类中语料库的获取——搜狗语料库

AI语料库智慧教学平台：用AI技术解锁语料教学新生态

语料智能·知识无界：AI 多功能语料库检索平台重塑语言研究新范式

人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

实战语言模型~语料词典的生成

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

关联规则关联规则概述

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

大模型语料标注需要注意哪些？

一种获取NLP语料的基本方法

健康问答语料的爬虫(C#)

终极法则——Embedding、LLM 与“语料为王”

SCI语料库！学术写作神器——Academic Phrasebank

语音识别语料归一化处理的方法

iptables规则详解_iptables规则文件

Sentinel 授权规则&&规则持久化

2025全网最全广东省大模型备案攻略，速度收藏！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【语料库】中文公开聊天语料库

机器学习入门 5-8 实现多元线性回归

原始语料库

文本分类中语料库的获取——搜狗语料库

AI语料库智慧教学平台：用AI技术解锁语料教学新生态

语料智能·知识无界：AI 多功能语料库检索平台重塑语言研究新范式

人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

实战语言模型~语料词典的生成

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

关联规则 关联规则概述

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

大模型语料标注需要注意哪些？

一种获取NLP语料的基本方法

健康问答语料的爬虫(C#)

终极法则——Embedding、LLM 与“语料为王”

SCI语料库！学术写作神器——Academic Phrasebank

语音识别语料归一化处理的方法

iptables规则详解_iptables规则文件

Sentinel 授权规则&&规则持久化

2025全网最全广东省大模型备案攻略，速度收藏！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

关联规则关联规则概述