首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Goboy

    优化Java代码 9 条简单的规则

    注意,这条规则有一个极端情况 - Java 静态导入中有一堆静态方法(List.of()、Set.of()、Map.of()),这会损害代码质量,使其模棱两可。 因此,使用此规则时,需要确认这种静态导入是否使代码更具可读性?

    31410编辑于 2024-03-11
  • 来自专栏机器学习与python集中营

    语料库】中文公开聊天语料

    该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 注意 以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。 给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。 下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为

    9.9K50发布于 2019-05-29
  • 来自专栏CPS推广奖励

    22年9月推广大使额外奖励规则

    【重要风控规则说明】推广大使应在腾讯云推广许可范围内,使用正当的手段方式进行推广,不应进行任何欺骗或虚假性质的推广行为,包括但不限于:1、与其他推广大使、或被推广客户相互串通,弄虚作假,恶意刷单,骗取活动奖励 同时满足以下条件订单可参与本次【双月目标达成计划奖励】活动:1)订单类型为【客户首购】订单2)单笔订单金额≥¥703)满足CPS返佣条件订单(详见CPS推广奖励规则)图片注:9月额外激励随9月月结结算; 示例:某推广大使在9月拉新客户数790人,奖励现金5000元,随9月佣金发放;10月拉新客户数810人,奖励现金5000元;另9月和10月该推广大使累计拉新1600人,额外奖励现金3800元,10月合计总额外奖励现金 同时满足以下条件订单可参与本次【挑战个人最高推广月记录奖励】活动:1)订单类型为【客户首购】订单2)单笔订单金额≥¥203)满足CPS返佣条件订单(详见CPS推广奖励规则)图片示例:A推广大使2022年最高月拉新客户数 图片4)中奖记录查看图片四、老客户返佣规则更新9月1日-9月30日,老客户购买指定返佣产品(GPU云服务器、CBS云硬盘、网站建设、对象存储COS),推广大使可得10%返佣。

    12.5K170编辑于 2022-11-10
  • 来自专栏明天依旧可好的专栏

    原始语料

    第一步: 判断数据中是否存在重复数据 创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame

    1K30发布于 2019-01-22
  • 来自专栏智能大数据分析

    数据仓库作业六:第9章 分类规则挖掘

    9章 分类规则挖掘 第一题 1、设网球俱乐部有打球与气候条件的历史统计数据如下表1所示。 试用ID3算法对样本集进行学习并生成其决策树,再由决策树获得动物的分类规则。 根据样本数据, P_Y=\frac{9}{14},P_N=\frac{5}{14} ,因此: H(D)=-\left(\frac{9}{14}\log_2\frac{9}{14}+\frac{5}{14 }{9}\ ,\ \ p(x_4|C_1)=\frac{|S_{14}|}{|C_1|}=\frac{5}{9} 因此, \begin{aligned}p(X|C_1)=\frac{6}{9}×\frac {1}{9}×\frac{4}{9}×\frac{5}{9}\approx0.0183\end{aligned} (3)计算 p(X|C_2) 由公式 \begin{aligned}p(X|C_2)

    36500编辑于 2025-01-22
  • 来自专栏机器学习AI算法工程

    文本分类中语料库的获取——搜狗语料

    这次主要总结搜过语料库的获取,因为老师要求20万数据,而我自己只爬了2万多,所以用到了搜狗的语料库.

    3.3K80发布于 2018-03-14
  • 来自专栏艾编程

    编写干净代码的 9 条必须知道的规则

    在这篇文章中,我将告诉您 9规则,将您的烂尾代码变成艺术品。 所以喝杯咖啡,坐下来负责你的代码! 规则#1 - 让你的代码井井有条且易于阅读 你可以不整理你的衣橱,但一定要整理你的代码。 规则#3 - 使用描述性变量和函数名称 我知道将变量命名为 X 和 Y 很时髦。 但是请相信我,几个月后,即使是你也无法理解它们的真正含义。 为变量赋予描述性名称总是安全的。 规则# 8 - 自动化重复性任务 不要像轮子上的仓鼠一样,不停地原地打转,一遍又一遍地做着同样无聊的工作。 您应该使用工具和脚本来自动执行代码中的重复性任务。 #9 - 保持你的代码是最新的 不要成为恐龙。 9规则可帮助您编写干净高效的代码。 当然,这些并不是唯一重要的事情。但是通过遵循它们,您将能够开始编写不仅运行良好而且看起来令人愉悦的代码,让其他人阅读、理解和维护。

    66030编辑于 2023-02-02
  • 来自专栏PawSQL,在线的自动化SQL优化工具!

    PawSQL更新 | 新增9个SQL正确性审核规则

    PawSQL最新版本针对DML和DQL新增了审核和重写优化规则共计33个,整体的规则数目达到了83个,覆盖了正确性,安全性、可维护性、性能四个方面的SQL质量问题,并提供了优化建议,已经形成比较完善的针对数据操作的 本文介绍其中新增的9个正确性相关的审核规则。 正确性规则 1. 避免COUNT DISTINCT多个可空列 规则描述 当你使用COUNT(DISTINCT) 进行多列的计算时,它的计算结果可能和你预想的不同。 同表同字段比较 规则描述 同表同字段进行比较一般可以重写为更为简洁的表达式,一般都是由于错误导致的不合理的SQL语句。 9. 避免使用没有通配符的 LIKE 查询 规则描述 不包含通配符的LIKE 查询逻辑上与等值查询相同,建议使用等值查询替代。

    58210编辑于 2024-08-20
  • AI语料库智慧教学平台:用AI技术解锁语料教学新生态

    传统语料教学中“资源零散难筛选、用法讲解不直观、练习反馈不及时”是长期痛点——教师要花大量时间整理语料、学生面对海量素材不知如何下手,很难实现“精准学、高效练”。 而AI语料库智慧教学平台的出现,凭借前沿AI技术,把“智能语料导师”搬进课堂,让语料教学更精准、互动、可落地,彻底重构语言学习逻辑。核心技术之一是NLP语义检索与解析技术,这是平台的“语料导航大脑”。 、语法规则,甚至标注语用禁忌。 不同于普通语料库的关键词匹配,平台的AI模型经过多语种、多场景语料训练,能理解“同义替换”“场景延伸”需求,比如搜索“道歉表达”会自动关联日常、商务、学术等不同语境的语料。 AI语料库智慧教学平台用NLP、大数据分析等核心技术,让语料资源“活”了起来,破解了传统语料教学的效率低、匹配差、互动弱等问题。

    45010编辑于 2025-10-29
  • 来自专栏CPS推广奖励

    23年9月推广大使额外奖励和规则更新

    一、会员积分规则更新 2023年8月月结发布新版积分规则。新版积分规则于2023年11月月结(即12月星级)正式上线,正式上线前保留3个月新旧规切换过渡期。 >>点击查看会员积分规则 新旧规过渡期规则:2023年8-10月月结(对应9-11月星级)后台将分别统计新旧两版积分规则对应的积分与星级,取新旧两版星级中的最高值作为推广者当月实际星级。 新版积分11月月结正式上线,旧版积分规则下线:2023年11月月结起,当月推广星级以新版积分规则统计结果为准,旧版星级正式下线。 新版本积分规则明细: 新旧规对比: 二、新手推广大使邀新抽奖 1、活动时间 9月1日- 9月30日 2、活动对象 9月新手推广大使:新会员、1星会员、2星会员 3、活动内容 新手推广大使(新会员/1星会员 >>立即前往领取任务 1)有效客户:个人/企业新客户,订单类型为客户首单且单笔订单金额≥¥60 2)抽奖时间:99日-9月30日 3)活动总抽奖次数:活动期间奖池总次数1000次,单个推广者抽奖上限次数为

    3.8K190编辑于 2023-11-08
  • 语料智能·知识无界:AI 多功能语料库检索平台重塑语言研究新范式

    语言研究进入智能检索新时代在全球化和数字人文研究蓬勃发展的背景下,传统语料库检索系统面临检索维度单一、多模态语料支持不足、深层语义关联缺失等核心挑战。 AI 多功能语料库检索平台通过融合大语言模型、多模态理解和知识图谱技术,构建了智能化、多维化、深度化的语料检索与分析体系,实现了从"关键词匹配"到"语义理解"的研究范式革新。 -检索-分析"四层技术架构:多模态语料处理引擎实现文本、语音、图像的统一表征学习;深度语义检索模型支持基于意图理解的智能检索;知识图谱关联系统构建语料间的语义网络;可视化分析平台提供丰富的语料数据洞察能力 数据安全与版权保护体系针对语料资源的版权敏感性,建立全方位保护机制:访问权限控制实现分级分权的语料访问;数字水印技术保护语料版权;操作日志审计追踪所有检索行为;数据脱敏处理在保护隐私的前提下开放研究。 、不断进化的新一代语料库研究基础设施。

    46410编辑于 2025-10-30
  • 来自专栏JasonhavenDai

    人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

    PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。 ,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。 /w 4.生语料库和熟语料语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工 、分析和处理之后才能成为可用的语料库 生语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq

    6K80发布于 2018-04-11
  • 来自专栏AI机器学习与深度学习算法

    实战语言模型~语料词典的生成

    sorted list iterable:是可迭代类型; cmp:用于比较的函数,比较什么由key决定; key:用列表元素的某个属性或函数进行作为关键字,有默认值,迭代集合中的一项; reverse:排序规则 fin.close() fout.close() ▲处理后的结果 对valid以及test样本同理使train中的方法即可: ▲数据处理以及处理后的结构 大致流程: 构建词汇表 需要在训练样本中统计语料中出现的单词

    1.6K00发布于 2020-06-01
  • 来自专栏AI科技评论

    Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

    首先,从语料来源上讲。 目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题 为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。 在当前版本的CCMatrix语料库中,作者限制为38种语言。 (编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同) CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。

    52710发布于 2020-02-21
  • 来自专栏小小程序员——DATA

    关联规则 关联规则概述

    关联规则概述 关联规则 (Association Rules) 反映一个事物与其他事物之间的相互依存性和关联性。 关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的交易ID下商品B也被客户挑选的机会就被发现了 购物车分析是大型超市用来揭示商品之间关联的关键技术之一。

    89110编辑于 2023-12-18
  • 来自专栏AI研习社

    Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

    首先,从语料来源上讲。 目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题 为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。 在当前版本的CCMatrix语料库中,作者限制为38种语言。 (编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同) CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。

    1.4K20发布于 2020-02-21
  • 大模型语料标注需要注意哪些?

    一、语料类型 1.自采语料 2.商业语料 3.开源语料 二、抽检要求 1.人工抽检要求 具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。 以此来保证语料在人工抽检环节的质量水平。 2.技术抽检要求 结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。 合格标准:抽样合格率不应低于98%,保障技术抽检的语料质量。 3. 评估技术规范要求 规范内容:评估采用的关键词库、分类模型应符合文件要求。 确保在使用关键词、分类模型等技术进行语料抽检时,所使用的工具和模型是符合既定规范和标准的,从技术层面保障语料安全评估的科学性和准确性。

    33710编辑于 2025-09-04
  • 来自专栏算法channel

    一种获取NLP语料的基本方法

    学习自然语言处理,语料获取是第一步,那么如何抓取和提取语料呢,本文提供一种思路。 维基百科语料库 维基百科会定期把各种语言的百科网页全部打包存储起来,这里我们选择其中的中文维基百科网页,这个文件可以作为中文语料库来使用。 下载其他语言 观察上面https://dumps.wikimedia.org/zhwiki,若我们把 zhwiki 替换为 enwiki,就能找到英文语料,如果替换为 frwiki,就能找到法语语料,依次类推 可以参考 ISO 639-1语言列表,相应替换便能找到对应语料。 为了读取其中的文本信息,我们需要借助提取工具,WikiExtractor 是一款不错的开源提取工具,使用该工具,可以方便地处理语料库,输出为想要的存储格式。

    2.6K20发布于 2021-03-12
  • 来自专栏大数据智能实战

    健康问答语料的爬虫(C#)

    为了实现健康问答系统的构建,需要找一些语料,发现好大夫在线的数据挺好的,于是花了一个小时时间,写了个爬虫,能够爬取其页面上显示的40个疾病左右的问答语料。 采用C#来编写,主要效率高一些。 开辟了20个线程进行下载,约下载了30多万的问答语料。 ? 爬取下来的结果如下所示:可以看到当中存在着几轮对话,当然也有一些噪声,如尽快填表等。

    1.5K60发布于 2018-01-09
  • 终极法则——Embedding、LLM 与“语料为王”

    终极法则:语料为王 (Data is King)无论是 Embedding 模型还是 LLM,我们必须牢记一个最根本的实践原则:模型的一切知识,都 100% 源于它所学习的训练数据(语料)。 你计划应用模型的场景,必须与训练模型的语料场景高度匹配。 如果你想为你的电商网站做一个商品搜索引擎,那么使用一个在海量商品评论和描述上训练过的 Embedding 模型,其效果会远超一个通用的新闻语料模型。

    52510编辑于 2025-08-06
领券