首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI机器学习与深度学习算法

    学习分类 2-2 内积

    对于分类问题,我们不再像回归问题那样,找出直线的斜率和截距。为了方便理解,将拥有一个特征的回归问题所绘制的图示和拥有两个特征的分类问题绘制的图示进行对比。

    57410编辑于 2022-11-08
  • 来自专栏IT技术圈

    习题2-2 阶梯电价 (15分)

    为了提倡居民节约用电,某省电力公司执行“阶梯电价”,安装一户一表的居民用户电价分为两个“阶梯”:月用电量50千瓦时(含50千瓦时)以内的,电价为0.53元/千瓦时;超过50千瓦时的,超出部分的用电量,电价上调0.05元/千瓦时。请编写程序计算电费。

    3.3K10发布于 2021-04-01
  • 来自专栏机器学习与python集中营

    语料库】中文公开聊天语料

    该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。 给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。 否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

    9.9K50发布于 2019-05-29
  • 来自专栏Hank’s Blog

    2-2 R语言基础 向量

    > x <- vector("character",length=10) > x1 <- 1:4 > x2 <- c(1,2,3,4) > x3 <- c(TRUE,10,"a") #如果给向量赋值时元素类型不一致,R就会强制转换,将他们变为同一类型 > x4 <- c("a","b","c","d")

    76810发布于 2020-09-16
  • 来自专栏明天依旧可好的专栏

    原始语料

    第一步: 判断数据中是否存在重复数据 创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame

    1K30发布于 2019-01-22
  • 来自专栏机器学习AI算法工程

    文本分类中语料库的获取——搜狗语料

    这次主要总结搜过语料库的获取,因为老师要求20万数据,而我自己只爬了2万多,所以用到了搜狗的语料库.

    3.3K80发布于 2018-03-14
  • 来自专栏波波烤鸭

    2-2 SPU和SKU详解及MyBatisPlus自动生成

    2-2 SPU和SKU详解   商城系统中的商品信息肯定避免不了SPU和SKU这两个概念,本节就给大家详细介绍下这块的内容 1、掌握SKU和SPU关系 SPU = Standard Product Unit

    3.2K41发布于 2021-01-21
  • 来自专栏刷题笔记

    2-2 学生成绩链表处理 (20 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/101169860 2-2 学生成绩链表处理 (20 分) 本题要求实现两个函数,一个将输入的学生成绩组织成单向链表

    1.6K20发布于 2019-11-08
  • 来自专栏mysql

    hhdb数据库介绍(2-2)

    在正确部署且已配置故障切换规则的一组存储节点中,当主存储节点不可用时,程序将自动切换到优先级最高的备存储节点上,且保证主从数据同步追平。 使用数据节点高可用要求:必须配置主从存储节点的故障切换规则,并在计算节点中开启心跳功能。

    20310编辑于 2024-11-28
  • AI语料库智慧教学平台:用AI技术解锁语料教学新生态

    传统语料教学中“资源零散难筛选、用法讲解不直观、练习反馈不及时”是长期痛点——教师要花大量时间整理语料、学生面对海量素材不知如何下手,很难实现“精准学、高效练”。 而AI语料库智慧教学平台的出现,凭借前沿AI技术,把“智能语料导师”搬进课堂,让语料教学更精准、互动、可落地,彻底重构语言学习逻辑。核心技术之一是NLP语义检索与解析技术,这是平台的“语料导航大脑”。 、语法规则,甚至标注语用禁忌。 不同于普通语料库的关键词匹配,平台的AI模型经过多语种、多场景语料训练,能理解“同义替换”“场景延伸”需求,比如搜索“道歉表达”会自动关联日常、商务、学术等不同语境的语料。 AI语料库智慧教学平台用NLP、大数据分析等核心技术,让语料资源“活”了起来,破解了传统语料教学的效率低、匹配差、互动弱等问题。

    45010编辑于 2025-10-29
  • 语料智能·知识无界:AI 多功能语料库检索平台重塑语言研究新范式

    语言研究进入智能检索新时代在全球化和数字人文研究蓬勃发展的背景下,传统语料库检索系统面临检索维度单一、多模态语料支持不足、深层语义关联缺失等核心挑战。 AI 多功能语料库检索平台通过融合大语言模型、多模态理解和知识图谱技术,构建了智能化、多维化、深度化的语料检索与分析体系,实现了从"关键词匹配"到"语义理解"的研究范式革新。 -检索-分析"四层技术架构:多模态语料处理引擎实现文本、语音、图像的统一表征学习;深度语义检索模型支持基于意图理解的智能检索;知识图谱关联系统构建语料间的语义网络;可视化分析平台提供丰富的语料数据洞察能力 数据安全与版权保护体系针对语料资源的版权敏感性,建立全方位保护机制:访问权限控制实现分级分权的语料访问;数字水印技术保护语料版权;操作日志审计追踪所有检索行为;数据脱敏处理在保护隐私的前提下开放研究。 、不断进化的新一代语料库研究基础设施。

    46410编辑于 2025-10-30
  • 来自专栏育种数据分析之放飞自我

    笔记 | GWAS 操作流程2-2:性别质控

    「原理:」检查性别差异。先验信息,女性的受试者的F值必须小于0.2,男性的受试者的F值必须大于0.8。这个F值是基于X染色体近交(纯合子)估计。不符合这些要求的受试者被PLINK标记为“PROBLEM”。

    1.6K31发布于 2020-05-18
  • 来自专栏python3

    Python自动化开发学习2-2

    open()打开文件。windows系统默认的是gbk编码,如果不指定字符编码,就会使用系统默认的字符编码打开文件。比如这时python就会使用gbk编码去读utf-8文件,运行后会报错或者读到乱码。

    71730发布于 2020-01-10
  • 来自专栏悟道

    2-2 二分&前缀和模板

    二分模板 int mid=0; while(left<right){ mid=(left+right)/2; if(check(mid)<K) r=mid; else l=mid+1; } 前缀和模板 : 前缀呢 无非就是 从left->right的和: ( s[right] - s[left-1]) import java.util.Scanner; public class Main { public static void main(Stri

    36530发布于 2021-03-11
  • 来自专栏JasonhavenDai

    人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

    PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。 ,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。 /w 4.生语料库和熟语料语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工 、分析和处理之后才能成为可用的语料库 生语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq

    6K80发布于 2018-04-11
  • 来自专栏AI机器学习与深度学习算法

    实战语言模型~语料词典的生成

    sorted list iterable:是可迭代类型; cmp:用于比较的函数,比较什么由key决定; key:用列表元素的某个属性或函数进行作为关键字,有默认值,迭代集合中的一项; reverse:排序规则 fin.close() fout.close() ▲处理后的结果 对valid以及test样本同理使train中的方法即可: ▲数据处理以及处理后的结构 大致流程: 构建词汇表 需要在训练样本中统计语料中出现的单词

    1.6K00发布于 2020-06-01
  • 来自专栏AI科技评论

    Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

    首先,从语料来源上讲。 目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题 为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。 在当前版本的CCMatrix语料库中,作者限制为38种语言。 (编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同) CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。

    52710发布于 2020-02-21
  • 来自专栏达观数据

    达观数据告诉你机器如何理解语言 -中文分词技术

    这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。 MMSEG消除歧义的规则有四个,它在使用中依次用这四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕。 经过规则1过滤后,如果剩余的词组超过1个,那就选择平均词语长度最大的那个(平均词长=词组总字数/词语数量)。 比如对于“中国人民万岁”这个短语,可以计算: 中国/人民/万岁(标准差=sqrt(((2-2)^2+(2-2)^2+(2-2^2))/3)=0) 中国人/民/万岁(标准差=sqrt(((2-3)^2 +(2-1)^2+(2-2)^2)/3)=0.8165) 于是选择“中国/人民/万岁”这个词组。

    1.5K71发布于 2018-03-30
  • 来自专栏数据猿

    投稿 | 机器如何理解语言—中文分词技术

    这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。 MMSEG消除歧义的规则有四个,它在使用中依次用这四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕。 经过规则1过滤后,如果剩余的词组超过1个,那就选择平均词语长度最大的那个(平均词长=词组总字数/词语数量)。 比如对于“中国人民万岁”这个短语,可以计算: 中国/人民/万岁(标准差=sqrt(((2-2)^2+(2-2)^2+(2-2^2))/3)=0) 中国人/民/万岁(标准差=sqrt(((2-3)^2+( 2-1)^2+(2-2)^2)/3)=0.8165) 于是选择“中国/人民/万岁”这个词组。

    1.3K52发布于 2018-04-19
  • 来自专栏小小程序员——DATA

    关联规则 关联规则概述

    关联规则概述 关联规则 (Association Rules) 反映一个事物与其他事物之间的相互依存性和关联性。 关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的交易ID下商品B也被客户挑选的机会就被发现了 购物车分析是大型超市用来揭示商品之间关联的关键技术之一。

    89110编辑于 2023-12-18
领券