首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CSDN技术头条

    未来5-10年,NLP将走向成熟

    现在,小娜覆盖的语言已经有十几种语言,包括中文。小娜还在不断发展,这背后有很多自然语言技术来自微软研究院,包括微软亚洲研究院。 第二个就是小冰。它是一种新的理念,很多人一开始不理解。 现在,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户。很多人跟它聊天乐此不疲,而平均聊天的回数多达23轮。这是在所有聊天机器人里面遥遥领先的。而平时聊天时长大概是25分钟左右。 未来5-10年,NLP将走向成熟 最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。

    1.4K71发布于 2018-02-12
  • 来自专栏人工智能头条

    未来5-10年,自然语言处理将走向成熟

    现在,小娜覆盖的语言已经有十几种语言,包括中文。小娜还在不断发展,这背后有很多自然语言技术来自微软研究院,包括微软亚洲研究院。 第二个就是小冰。它是一种新的理念,很多人一开始不理解。 现在,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户。很多人跟它聊天乐此不疲,而平均聊天的回数多达23轮。这是在所有聊天机器人里面遥遥领先的。而平时聊天时长大概是25分钟左右。 未来5-10年,NLP将走向成熟 最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。

    81230发布于 2018-07-20
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 5-10 线性回归的可解释性

    上面使用了波士顿房价的13个特征,通过在全部数据集上进行拟合,不进行train_test_split方法是因为此时我们并不需要验证模型的性能,只是对得到结果的系数进行解释。

    1.5K00发布于 2019-11-13
  • 来自专栏算法修养

    pta习题集 5-10 切分表达式——写个tokenizer吧

    [先说点出题背景] 这个题是为低年级同学、学C语言的同学准备的,因为,对这部分同学,这个题目编写起来略有一点复杂。如果是高年级、学过了正则表达式(Regular Expression)的同学或者学过了Java等OO语言的同学做这个题,应当发现这题比较简单吧。哦,对了,什么是tokenizer?请自行查询解决。反正在此处不应翻译成“令牌解析器”。 [正题] 四则运算表达式由运算数(必定包含数字,可能包含正或负符号、小数点)、运算符(包括+、-、*、/)以及小括号((和))组成,每个运算数、运算符和括号

    1.2K60发布于 2018-04-27
  • 来自专栏腾讯云原生团队

    ImageApparate(幻影)镜像加速服务让镜像分发效率提升 5-10

    ImageApparate(幻影) 为了解决这个问题,腾讯云容器服务 TKE 团队开发了下一代镜像分发方案ImageApparate(幻影), 将大规模大镜像分发的速度提升 5-10倍。 ? 如上所述,相比于传统的下载全部镜像的方式,ImageApparate 在容器全部启动时间上都有 5-10倍 的提升。

    1.6K10发布于 2021-02-25
  • 来自专栏企鹅号快讯

    Hinton:5-10年内深度学习取代放射科医生

    1.5K60发布于 2018-01-05
  • 光照计算 采用手动优化重写,通常能获得5-10倍的性能提升

    物理碰撞检测光照计算 采用手动优化重写,通常能获得5-10倍的性能提升第三阶段:内存优化通过JavaScript特有的内存管理技术:代码语言:javascript代码运行次数:0运行AI代码解释// 使用对象池减少

    19510编辑于 2025-07-19
  • 来自专栏新智元

    【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生

    编辑:张乾 弗朗西斯 文强 【新智元导读】2017年4月,Hinton在接受《纽约客》采访时说:“5年内深度学习就能超过放射科医生,从现在起就停止培训放射科医生”。此言论一出,再一次引发全球关于AI正在取代医生的焦虑讨论。IEEE Spectrum在2018新年伊始推出专刊“AI vs Doctors”,统计了从2016年5月至今,AI在医疗领域的进展,并对比各大细分领域AI与人类医生能力差距,人工智能正在医生的主场获取成功,哪些医疗诊疗行业已被AI超越?机器人医生是人类的未来吗? 2017年4月,Hi

    1.1K60发布于 2018-03-20
  • 来自专栏我爱编程

    Scrapy输出中文保存中文

    scrapy在保存json文件时容易乱码 settings.py文件改动: ITEM_PIPELINES = { 'tutorial.pipelines.TutorialPipeline': 300, } pipeline.py文件改动: import json import codecs class TutorialPipeline(object): def __init__(self, spider): self.file = codecs.open('data_cn

    3.2K10发布于 2019-03-04
  • 来自专栏苦逼的码农

    在一个公司死磕了5-10年的人最后都怎么样了

    互联网企业给人的感觉就是流动性非常大,跳槽一词也常挂嘴中,并且也是涨薪资最好的方式,很少有人在一家公司待五六年以上。

    57550编辑于 2023-09-07
  • 来自专栏AI科技评论

    百度王海峰Quora精华整理:未来5-10年,NLP领域将会有什么进展?

    此外,王海峰博士还是中文信息学会理事、中文信息学报编委、中国计算机学会(CCF)高级会员、国家自然科学基金委员项目评审会评审专家组成员。 王海峰博士出席的媒体活动不多,但在Quora上比较活跃。 2、未来5-10年,NLP领域将会有什么进展? 机器翻译、语义理解、问答和对话技术将会有重大突破。这些技术将会被广泛应用,并最终改变人与计算机、人与各种硬件设备、以及人与人之间的沟通方式。 3、在NLP领域,中文和英文的主要区别是什么? 从语言学上来说, 中文与英文有很大不同。中文书面文本单词之间是没有空间的,中文的语法关系是通过单词的顺序来表达的。 这些因素增加了中文在词汇、语法和语义层次上的模糊性,因为现代语言概念和原则更适用于英文,而非中文。 目前,主流NLP方法都是语言无关性(language-independent)的。 在问答环节,小度将现场观众提问的英文问题立刻翻译成中文,然后将李教授的中文回答翻译成英文呈现给观众。

    1.5K40发布于 2018-03-12
  • 来自专栏python3

    python中文编码&json中文输出问

    python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 unicode 首先简要介绍字符串编码的历史,其次,讲解 python 对于字符串的处理,及编码的检测与转换,最后,介绍 python 爬虫采取的 json 数据存入文件时中文输出的问题。 ,两个字节代表一个中文汉字 ,理论上256*256个编码,即可表示65536种中文字; 各国编码不同,为了各国能扩平台进行文本的转换与处理,Unicode就被作为统一码或者单一码。 (2)中文,Python中的字典能够被序列化到json文件中存入json with open("anjuke_salehouse.json","w",encoding='utf-8') as f: 网上关于中文这个编码问题有很多,但是他们都没有强调python版本的问题!!!其他3.xx的版本没有试过。

    7.9K20发布于 2020-01-19
  • 来自专栏资讯分享

    37% 的专业人士使用生成式人工智能工具每周可节省 5-10 小时的时间

    4月17日讯,据businesswire报道,Contentful的一份报告显示,38%的受访者表示,使用 genAI 工具每周可节省 1 到近 5 个小时;37% 每周可节省 5 到 10 个小时;11% 每周可节省 10 个小时以上。

    20710编辑于 2024-04-24
  • 来自专栏WordPress果酱

    中文 Dashboard

    第二块是 Development Blog,显示 WordPress 开发博客上的信息,我把换成我们中文团队的博客。 第三块是 Other WordPress News,显示的是一些知名的 WordPress 博客上最新更新的文章,其实这些文章是来自 WordPress Planet ,所以我们中文团队也创建一个中文的 目前中文团队中的成员的博客及已经加入了,所以这块内容也显示这个我们日志最新更新的内容。也欢迎 WordPress 强人加入其中来。个人这个插件这个部分应该是最有用的。 下载地址:中文 dashboard ----

    3.3K20编辑于 2023-04-13
  • 来自专栏python知识

    中文编码

    目前在大部分浏览器中,直接输出中文会出现中文乱码的情况,这时候我们就需要在头部将字符声明为 UTF-8 或 GBK。 HTML 实例 <! 对于中文网页需要使用 <meta charset="utf-8"> 声明编码,否则会出现乱码。 目前在大部分浏览器中,直接输出中文会出现中文乱码的情况,这时候需要在头部将字符声明为 UTF-8。

    2.3K20发布于 2021-08-21
  • 来自专栏java 微风

    java 文件下载,中文表名,中文内容

    @RequestMapping("userDownloadTemplet") private void userDownloadTemplet(HttpServletRequest request,HttpServletResponse response, String filePath){ try { filePath = request.getSession().getServletContext().getRealPath("/WEB-

    1.4K40编辑于 2022-04-13
  • 来自专栏房东的猫

    中文判断

    检测中文 描述:判断是否包含中文 public static boolean isChinese(String s) { return s.codePoints().anyMatch( Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) { return true; } return false; } true:包含中文 false:不包含中文 检测乱码 public static boolean isMessyCode(String strName) { Pattern p = Pattern.compile

    3.4K20发布于 2021-03-04
  • 来自专栏杨熹的专栏

    中文NLP笔记:12 中文情感分析

    图片发自简书App 中文情感分析 什么是情感分析   即分析主体对某一客体的主观喜恶和评价   由两个方面来衡量   情感倾向方向   情感倾向度 情感分析的方法主要分为两类   这样效果会比通用情感词典更好;   也可以通过人工标注大量电影评论来构建分类器   也可以通过聚合篇章中所有的句子的情感倾向来计算得出   句子级   大多通过计算句子里包含的所有情感词的值来得到 中文情感分析的一些难点   句子是由词语根据一定规则构成的,应该把词语的依存关系纳入到情感的计算过程中去   不同的依存关系,进行情感计算是不一样的 ---- 学习资料: 《中文自然语言处理入门实战》

    3.5K20发布于 2019-02-20
  • 来自专栏全栈程序员必看

    中文分词技术是什么_中文分词技术

    当然,我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。 一、为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于字标注的分词方法。 考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符,本文所说的“字”,也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。

    2.1K20编辑于 2022-09-21
  • 来自专栏Metaverse元宇宙

    MetaDaily|腾讯业内首发数字孪生云,扎克伯格对未来5-10年的前景感到完全乐观

    Meta CEO扎克伯格:对未来5-10年的前景感到完全乐观 Meta CEO扎克伯格表示,对未来5-10年的前景感到“完全乐观”;此前在2021年错误地认为元宇宙的火热趋势将持续下去;说Meta现在将所有的注意力全都集中在了元宇宙领域是不正确的说法

    59120编辑于 2022-12-18
领券