搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏苏三说技术
这 5 种规则引擎，真香！
10")); } if (order.getUser().isVip()) { discount = discount.add(new BigDecimal("5" 规则引擎通过分离规则逻辑解决这个问题：规则外置存储（数据库/文件）支持动态加载声明式规则语法独立执行环境下面给大家分享5种常用的规则引擎，希望对你会有所帮助。 1.五大常用规则引擎 1.1 Drools：企业级规则引擎扛把子官网：https://www.drools.org/ 适用场景：金融风控规则（上百条复杂规则）保险理赔计算电商促销体系实战：折扣规则配置 /j-easy/easy-rules 适用场景：参数校验简单风控规则审批流引擎注解式开发： @Rule(name = "雨天打折规则", description = "下雨天全场9折") public +可视化（进阶）用精：规则编排+性能优化（大师级）曾有人问我：“规则引擎会不会让程序员失业？”
2.5K22编辑于 2025-06-23
来自专栏JasonhavenDai
人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的，严格按照人民日报的日期、版序、文章顺序编排的。，文件中每一行代表一自然段或者一个标题，一篇文章有若干个自然段，因此在语料中一篇文章是由多行组成的。语料中除了词性标记以外，还有“短语标记”，这种情况一般出现在机构团体名称、成语等情况中。 /w 4.生语料库和熟语料库语料库中存放的是在语言的实际使用中真实出现过的语言材料，语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过加工、分析和处理之后才能成为可用的语料库生语料库是指收集之后未加工的预料库相对而言，熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq
6K80发布于 2018-04-11
来自专栏机器学习与python集中营
【语料库】中文公开聊天语料库
该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料青云语料电视剧对白语料贴吧论坛回帖语料微博语料小黄鸡语料共8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。给出的语料原链接是为了说明该语料的原始出处是在哪里环境 python3 处理过程将各个来源的语料按照其原格式进行提取，提取后进行繁体字转换，然后统一变成一轮一轮的对话。数据来源及说明语料名称语料数量语料来源说明语料特点语料样例是否已分词 chatterbot 560 开源项目按类型分类，质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。否 xiaohuangji（小黄鸡语料） 45W 原人人网项目语料有一些不雅对话，少量噪音 Q:你谈过恋爱么 A:谈过，哎，别提了，伤心..。
9.9K50发布于 2019-05-29
来自专栏明天依旧可好的专栏
原始语料库
第一步：判断数据中是否存在重复数据创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame
1K30发布于 2019-01-22
来自专栏机器学习AI算法工程
文本分类中语料库的获取——搜狗语料库
这次主要总结搜过语料库的获取，因为老师要求20万数据，而我自己只爬了2万多，所以用到了搜狗的语料库.
3.3K80发布于 2018-03-14
来自专栏Owen's World
TP5验证规则自定义
TP5验证规则自定义 ctypeSpace 说明：验证数据不能都是空格目的：文章内容不能一个或多个空格提交效果：ctypeSpace使用就和require｜max｜between等框架自带的一样验证数据不能都是空格 * @access public * @param mixed $value 字段值 * @param mixed $rule 验证规则
81510编辑于 2021-12-08
AI语料库智慧教学平台：用AI技术解锁语料教学新生态
传统语料教学中“资源零散难筛选、用法讲解不直观、练习反馈不及时”是长期痛点——教师要花大量时间整理语料、学生面对海量素材不知如何下手，很难实现“精准学、高效练”。而AI语料库智慧教学平台的出现，凭借前沿AI技术，把“智能语料导师”搬进课堂，让语料教学更精准、互动、可落地，彻底重构语言学习逻辑。核心技术之一是NLP语义检索与解析技术，这是平台的“语料导航大脑”。、语法规则，甚至标注语用禁忌。不同于普通语料库的关键词匹配，平台的AI模型经过多语种、多场景语料训练，能理解“同义替换”“场景延伸”需求，比如搜索“道歉表达”会自动关联日常、商务、学术等不同语境的语料。 AI语料库智慧教学平台用NLP、大数据分析等核心技术，让语料资源“活”了起来，破解了传统语料教学的效率低、匹配差、互动弱等问题。
45110编辑于 2025-10-29
语料智能·知识无界：AI 多功能语料库检索平台重塑语言研究新范式
语言研究进入智能检索新时代在全球化和数字人文研究蓬勃发展的背景下，传统语料库检索系统面临检索维度单一、多模态语料支持不足、深层语义关联缺失等核心挑战。 -检索-分析"四层技术架构：多模态语料处理引擎实现文本、语音、图像的统一表征学习；深度语义检索模型支持基于意图理解的智能检索；知识图谱关联系统构建语料间的语义网络；可视化分析平台提供丰富的语料数据洞察能力通过智能对比不同时期、不同文体的语料，助力语言演变规律研究，使研究效率提升 5 倍。翻译研究与实践构建多语言平行语料库，支持翻译质量评估、翻译策略分析和术语标准化研究。数据安全与版权保护体系针对语料资源的版权敏感性，建立全方位保护机制：访问权限控制实现分级分权的语料访问；数字水印技术保护语料版权；操作日志审计追踪所有检索行为；数据脱敏处理在保护隐私的前提下开放研究。、不断进化的新一代语料库研究基础设施。
46610编辑于 2025-10-30
来自专栏媒矿工厂
5G 会改变游戏规则吗
目录背景 5G 实验和推广情况 5G 与体育场 5G 与广播参考文献背景 5G 的推广已经在英国、北美、亚洲和许多其他地区认真地开始了。 5G 实验和推广情况 Eric 首先讨论了他一直在进行的实验，包括通过 5G 以 100Mbps 的速度传输 8K。他认为 5G 对拍摄现场或布景的制作非常有用。虽然 5G 的推广已经开始，围绕 5G 的广告也很多，但具有 5G 功能的手机市场的饱和度不高，但这并不是广播公司和电影摄制组不使用它的理由。 5G 与体育场 Jason 谈到了 5G 在体育场的应用，因为它不仅解决了现场观众的问题，也解决了制作团队本身的问题。5G 的最大好处之一是超低延迟。 5G 与广播在体育场之外，北美已经看到一些人有兴趣将 IP 原生 ATSC 3.0 广播网络与 5G 网络连接起来，为电信公司提供回程能力，为广播公司带来好处。
37320编辑于 2022-04-11
来自专栏SAP最佳业务实践
想学FM系列(22)-SAP FM模块:派生规则推导策略(5)-派生规则推导使用
4.2 派生规则推导的操作及测试在派生规则具体维护时其操作界面通常如下： ① 显示\修改派生规则。 ② 选中某一条步骤，点击查看该步骤的定义。 ⑥ 以ABPA LIST的方式，概览显示派生规则的定义。 ⑦ 传输派生规则。要注意，点击后会提示用户“还希望传输规定值吗?”。选择是，则将派生规则的定义和派生规则当中用到的枚举值都进行传输；选否，则只传输派生规则的定义，意味着派生规则定义传到目标系统后，其枚举值要自己在目标系统中手工录入。 ⑩ 维护派生规则的枚举值。 ⑪ 测试派生规则，点击后进入测试界面。如记账地址派生策略的测试如下（其它派生规则的测试界面类同这个，甚至比这还简单）： ⑴导出：点击执行派生规则策略推导。 4.3 派生规则推导扩展使用前面讲到派生规则推导实际上是由SAP系统提供用户一个用来给生成自定义的代码的工具。
2.4K81发布于 2018-03-28
来自专栏AI机器学习与深度学习算法
实战语言模型~语料词典的生成
sorted list iterable：是可迭代类型; cmp：用于比较的函数，比较什么由key决定; key：用列表元素的某个属性或函数进行作为关键字，有默认值，迭代集合中的一项; reverse：排序规则 fin.close() fout.close() ▲处理后的结果对valid以及test样本同理使train中的方法即可： ▲数据处理以及处理后的结构大致流程：构建词汇表需要在训练样本中统计语料中出现的单词
1.6K00发布于 2020-06-01
来自专栏AI科技评论
Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准
首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。在当前版本的CCMatrix语料库中，作者限制为38种语言。（编者注：这是11月份数据，当时数据集规模为35亿并行语料，下同） CCMatrix：每种语言对的并行语料数量(单位：百万)，Margin阈值为1.06。
53010发布于 2020-02-21
来自专栏PyVision
改变竞技体育游戏规则的5个CV应用
原文：https://becominghuman.ai/5-game-changing-computer-vision-applications-in-sports-5f02ec35529b
1.1K20发布于 2020-10-19
来自专栏Python数据分析实例
掌握 Python 中下划线的 5 个潜规则
我一直使用Python，有很多年了，但是像这样的规则和特殊情况并不总是浮现在脑海里。有时候程序员最重要的技能是“模式识别”，而且知道在哪里查阅信息。如果您在这一点上感到有点不知所措，请不要担心。 5.单下划线 _ 按照习惯，有时候单个独立下划线是用作一个名字，来表示某个变量是临时的或无关紧要的。
87520编辑于 2022-04-08
来自专栏小小程序员——DATA
关联规则关联规则概述
关联规则概述关联规则 (Association Rules) 反映一个事物与其他事物之间的相互依存性和关联性。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下商品B也被客户挑选的机会就被发现了购物车分析是大型超市用来揭示商品之间关联的关键技术之一。
89410编辑于 2023-12-18
来自专栏AI研习社
Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准
首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题为了使并行语料库量大、覆盖主题广泛，Facebook在CCMatrix这项工作中，选择使用了随机抓取web中的数据作为并行语料的来源，他们每个月随机发送url，从而获得包含各种语言的网页快照（TB级）。在当前版本的CCMatrix语料库中，作者限制为38种语言。（编者注：这是11月份数据，当时数据集规模为35亿并行语料，下同） CCMatrix：每种语言对的并行语料数量(单位：百万)，Margin阈值为1.06。
1.4K20发布于 2020-02-21
大模型语料标注需要注意哪些？
一、语料类型 1.自采语料 2.商业语料 3.开源语料二、抽检要求 1.人工抽检要求具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。以此来保证语料在人工抽检环节的质量水平。 2.技术抽检要求结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。合格标准:抽样合格率不应低于98%，保障技术抽检的语料质量。 3. 评估技术规范要求规范内容:评估采用的关键词库、分类模型应符合文件要求。确保在使用关键词、分类模型等技术进行语料抽检时，所使用的工具和模型是符合既定规范和标准的，从技术层面保障语料安全评估的科学性和准确性。
33810编辑于 2025-09-04
来自专栏c语言与cpp编程
编程5分钟，命名2小时！聊聊命名规则！
本期内容中，异步君为大家带来了起个好名字应遵从的几条简单规则，一起来看看吧 01 名副其实名副其实说起来简单。我们想要强调，这事很严肃。选个好名字要花时间，但省下来的时间比花掉的多。例如，你可能把a用在域内变量，而把the用于函数参数[5]。但如果你已经有一个名为zork的变量，又想调用一个名为theZork的变量，麻烦就来了。废话都是冗余。如果是这样，就违反了关于误导的规则。设想有一个名为Customer的类，还有一个名为CustomerObject的类，它们的区别何在呢？哪一个是表示客户历史支付情况的最佳方式？名称长短应与其作用域大小相对应 [N5]。若变量或常量可能在代码中多处使用，则应赋予其便于搜索的名称。采用能表达意图的名称，貌似拉长了函数代码，但要想想看，WORK_DAYS_PER_WEEK比数字5好找得多，而列表中也只剩下了体现作者意图的名称。 06 避免使用编码编码已经太多，无谓再自找麻烦。
1.3K20发布于 2021-10-09
来自专栏时悦的学习笔记
Mycat分库分表全解析 Part 5 Mycat 分片规则介绍
分片规则配置文件上节我们在介绍Mycat概念的时候说了，我们在配置逻辑表时需要填写分片规则 ? tableRule的name属性就是上面表的分片规则的名称属性名称含义 name 表分片规则名称 columns 代表用哪个字段进行分片 algorithm 代表该分片规则用的算法，对应function Mycat常见分片规则上面一节我们讲到分片规则依赖于算法，Mycat提供一些常用的算法，基本满足我们的需求，这里介绍几个，全部的请查看官方文档的10.5章节 2.1 分片枚举通过在配置文件中配置可能的枚举 algorithm 分片函数名称 mapFile 代表配置文件路径 defaultNode 超过范围后的默认节点顺序号，节点从 0 开始 partition-range-mod.txt 0-200M=5 //代表有 5 个分片节点 200M1-400M=1 400M1-600M=4 600M1-800M=4 800M1-1000M=6 以上配置一个范围代表一个分片组，=号后面的数字代表该分片组所拥有的分片的数量
1.5K30发布于 2020-08-18
来自专栏算法channel
一种获取NLP语料的基本方法
学习自然语言处理，语料获取是第一步，那么如何抓取和提取语料呢，本文提供一种思路。维基百科语料库维基百科会定期把各种语言的百科网页全部打包存储起来，这里我们选择其中的中文维基百科网页，这个文件可以作为中文语料库来使用。下载其他语言观察上面https://dumps.wikimedia.org/zhwiki，若我们把 zhwiki 替换为 enwiki，就能找到英文语料，如果替换为 frwiki，就能找到法语语料，依次类推可以参考 ISO 639-1语言列表，相应替换便能找到对应语料。为了读取其中的文本信息，我们需要借助提取工具，WikiExtractor 是一款不错的开源提取工具，使用该工具，可以方便地处理语料库，输出为想要的存储格式。
2.6K20发布于 2021-03-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

这 5 种规则引擎，真香！

人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

【语料库】中文公开聊天语料库

原始语料库

文本分类中语料库的获取——搜狗语料库

TP5验证规则自定义

AI语料库智慧教学平台：用AI技术解锁语料教学新生态

语料智能·知识无界：AI 多功能语料库检索平台重塑语言研究新范式

5G 会改变游戏规则吗

想学FM系列(22)-SAP FM模块:派生规则推导策略(5)-派生规则推导使用

实战语言模型~语料词典的生成

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

改变竞技体育游戏规则的5个CV应用

掌握 Python 中下划线的 5 个潜规则

关联规则关联规则概述

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

大模型语料标注需要注意哪些？

编程5分钟，命名2小时！聊聊命名规则！

Mycat分库分表全解析 Part 5 Mycat 分片规则介绍

一种获取NLP语料的基本方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

这 5 种规则引擎，真香！

人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

【语料库】中文公开聊天语料库

原始语料库

文本分类中语料库的获取——搜狗语料库

TP5验证规则自定义

AI语料库智慧教学平台：用AI技术解锁语料教学新生态

语料智能·知识无界：AI 多功能语料库检索平台重塑语言研究新范式

5G 会改变游戏规则吗

想学FM系列(22)-SAP FM模块:派生规则推导策略(5)-派生规则推导使用

实战语言模型~语料词典的生成

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

改变竞技体育游戏规则的5个CV应用

掌握 Python 中下划线的 5 个潜规则

关联规则 关联规则概述

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

大模型语料标注需要注意哪些？

编程5分钟，命名2小时！聊聊命名规则！

Mycat分库分表全解析 Part 5 Mycat 分片规则介绍

一种获取NLP语料的基本方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

关联规则关联规则概述