首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CSDN技术头条

    未来5-10年,NLP将走向成熟

    如何从出发,通过智能助理,再通过Bot体现这一生态呢?微软在做CaaP的时候,实际上有两个主要的产品策略。 第一个是小娜,通过手机和智能设备介入,让与电脑进行交流:发布命令,小娜理解并执行任务。 这是在所有聊天机器里面遥遥领先的。而平时聊天时长大概是25分钟左右。小冰背后三种语言的聊天机器也都来自于微软亚洲研究院。 无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术: 通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。 未来5-10年,NLP将走向成熟 最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。 最后,我认为也是非常关键的,通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,你找人工标注代价又极大。

    1.4K71发布于 2018-02-12
  • 来自专栏人工智能头条

    未来5-10年,自然语言处理将走向成熟

    如何从出发,通过智能助理,再通过Bot体现这一生态呢?微软在做CaaP的时候,实际上有两个主要的产品策略。 第一个是小娜,通过手机和智能设备介入,让与电脑进行交流:发布命令,小娜理解并执行任务。 这是在所有聊天机器里面遥遥领先的。而平时聊天时长大概是25分钟左右。小冰背后三种语言的聊天机器也都来自于微软亚洲研究院。 无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术: ● 通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。 未来5-10年,NLP将走向成熟 最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。 6.最后,我认为也是非常关键的,通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,你找人工标注代价又极大。

    81330发布于 2018-07-20
  • 来自专栏算法修养

    pta习题集 5-10 切分表达式——写个tokenizer吧

    [先说点出题背景] 这个题是为低年级同学、学C语言的同学准备的,因为,对这部分同学,这个题目编写起来略有一点复杂。如果是高年级、学过了正则表达式(Regular Expression)的同学或者学过了Java等OO语言的同学做这个题,应当发现这题比较简单吧。哦,对了,什么是tokenizer?请自行查询解决。反正在此处不应翻译成“令牌解析器”。 [正题] 四则运算表达式由运算数(必定包含数字,可能包含正或负符号、小数点)、运算符(包括+、-、*、/)以及小括号((和))组成,每个运算数、运算符和括号

    1.2K60发布于 2018-04-27
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 5-10 线性回归的可解释性

    线性回归的可解释性 下面先使用sklearn封装好的线性模型在整个数据集上进行拟合: ? ? 即使你的数据使用线性回归法预测的结果不够好,但是我们通过这样的方式,首先看一看数据特征和预测目标的线性关系,相应的系数有多大,这样做也是非常有意义的。 所以从某种角度上来讲,我们拿到一组数据之后,先使用线性的方式试试看,总之是没有坏处的。 线性回归总结 当然线性回归算法在预测模型的时候同样需要使用测试集,用训练数据集训练出模型,不同于前面介绍的kNN算法,此时的模型是一个实实在在的模型,所谓的模型就可以写成y = θTx,有了这个模型之后就可以基于这个模型对测试数据集进行预测 这里需要注意的是在使用线性回归算法的时候,对数据是有一个假设的:数据和最终的输出结果之间有一定的线性关系,这个线性关系越强,线性回归算法得到的结果相应的也就越好。

    1.5K00发布于 2019-11-13
  • 来自专栏企鹅号快讯

    Hinton:5-10年内深度学习取代放射科医生

    皮肉切割手术精准度,机器击败了外科医生 在最近的一系列实验中,智能自主机器STAR的发明者表明,它能比专家外科医生执行更精确的切割,并且对周围健康组织伤害更小。 最后,团队建立了一个深度学习计划,可以解释这些模式的强度,并结合有关年龄,性别和遗传风险因素的临床数据,预测一个是否会发展为阿尔茨海默病,准确率高达90%。 机器进行外科手术的多种尝试 如今,一些手术程序已经出现了智能机器的身影。机器通常在一些程序中执行关键步骤,包括矫形膝关节置换,激光眼科手术和头发移植。 一位外科手术机器领域的外部专家称这项研究为一项突破,但也表示,其局限性是,自主机器“不会很快进入手术室”。 他们使用这一数据集创建了图像库,并将其作为原始像素提供给算法,每个像素都带有标签,描述了相关疾病的附加数据。 为了测试算法的性能,研究人员找来斯坦福医学院的21名皮肤科医生。

    1.5K60发布于 2018-01-05
  • 来自专栏腾讯云原生团队

    ImageApparate(幻影)镜像加速服务让镜像分发效率提升 5-10

    ImageApparate(幻影) 为了解决这个问题,腾讯云容器服务 TKE 团队开发了下一代镜像分发方案ImageApparate(幻影), 将大规模大镜像分发的速度提升 5-10倍。 ? 如上所述,相比于传统的下载全部镜像的方式,ImageApparate 在容器全部启动时间上都有 5-10倍 的提升。 镜像本地缓存由不同的IAS附加存储插件自身实现,目前 CFS 实现使用了 FScache 框架作为本地缓存可以自动按页缓存访问过的在远端存储上的部分数据,根据当前磁盘通过本地缓存能力,有效提升镜像数据重复访问的性能和稳定性 Apparate-snapshotter 主要负责解析记录在镜像层中的IAS信息,从而拿到另外数据存储地址,接下来 Apparate-snapshotter 会去数据存储服务中加载远程数据,并在本地提供访问的 比如在 CFS 场景下,会把远端数据 mount 到本地,并把挂载点作为接下来本地访问的入口。当需要使用远端数据时便由 snapshotter 或内核来提供按需加载的能力。

    1.6K10发布于 2021-02-25
  • 来自专栏博文视点Broadview

    运营看哪些数据

    ---- --正文-- 运营看哪些数据? 第一大类是原始数据,包括如下几类。 (1)市场属性数据:行业数据、竞品数据,以及获得用户流量的渠道属性数据,包括渠道分类、曝光、点击、播放、流量、成本等数据。 (4)商品或内容方向的属性数据:如电商中商品的信息数据,包括分类、属性、详情页面、视频、图片等数据,或资讯内容文章的分类、作者、时效、标签等数据。 (6)运营策略干预产生的数据:本质上还是上述几类数据,只是与活动或实验等项目相关的数据会被打上某次活动或实验的标签,可以单独拿出来统计和分析。 第二大类是对原始数据的统计数据,包括如下几类。 ▊《运营之上:互联网业务的全局运营方法论与实践》 徐全安 著 10年+跨越不同行业、多次从0到1经验总结 通用运营框架、抓手方法论总结 让运营“做且只做”有价值的工作 本书是在运营的基础职能之上对“

    73510编辑于 2023-05-19
  • 光照计算 采用手动优化重写,通常能获得5-10倍的性能提升

    物理碰撞检测光照计算 采用手动优化重写,通常能获得5-10倍的性能提升第三阶段:内存优化通过JavaScript特有的内存管理技术:代码语言:javascript代码运行次数:0运行AI代码解释// 使用对象池减少

    19910编辑于 2025-07-19
  • 来自专栏华章科技

    数据解读城市:北京 本地VS外地

    今天小编找来一篇运用大数据解读城市人口分布的文章,供大家阅读!

    42410发布于 2018-08-13
  • 来自专栏新智元

    【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生

    皮肉切割手术精准度,机器击败了外科医生 在最近的一系列实验中,智能自主机器STAR的发明者表明,它能比专家外科医生执行更精确的切割,并且对周围健康组织伤害更小。 最后,团队建立了一个深度学习计划,可以解释这些模式的强度,并结合有关年龄,性别和遗传风险因素的临床数据,预测一个是否会发展为阿尔茨海默病,准确率高达90%。 机器进行外科手术的多种尝试 如今,一些手术程序已经出现了智能机器的身影。机器通常在一些程序中执行关键步骤,包括矫形膝关节置换,激光眼科手术和头发移植。 一位外科手术机器领域的外部专家称这项研究为一项突破,但也表示,其局限性是,自主机器“不会很快进入手术室”。 华盛顿大学自主外科手术机器的先驱Blake Hannaford指出机器所依赖的NIRF标签是由人类放置的。 治疗脑癌:时间与质量的权衡 在治疗脑癌时,时间至关重要。

    1.1K60发布于 2018-03-20
  • 来自专栏数据森麟

    数据团队思考:数据的通用技能要求

    作者:木东居士 来源:木东居士 0x00 前言 最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据该具备哪些通用的技能。 “数据开发到底用不用学算法?” 0x01 Excel 掌握指数:5颗星 掌握人群:所有数据 Excel 是每个数据都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。 0x02 Sql 掌握指数:4.5颗星 掌握人群:所有数据 从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢? 至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。 0x04 大数据 掌握指数:4.5颗星 掌握人群:所有数据数据时代,所有数据都应该具备一定的大数据知识! 0x05 统计学 掌握指数:4颗星掌握人群:所有数据 统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?

    49730发布于 2019-09-27
  • 来自专栏木东居士的专栏

    数据团队思考:数据的通用技能要求

    0x00 前言 最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据该具备哪些通用的技能。 “数据开发到底用不用学算法?” “Excel 有必要学吗?” 0x01 Excel 掌握指数:5颗星 掌握人群:所有数据 Excel 是每个数据都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。 0x02 Sql 掌握指数:4.5颗星 掌握人群:所有数据 从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢? 至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。 0x04 大数据 掌握指数:4.5颗星 掌握人群:所有数据数据时代,所有数据都应该具备一定的大数据知识! 0x05 统计学 掌握指数:4颗星掌握人群:所有数据 统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?

    92230发布于 2019-07-15
  • 来自专栏大数据文摘

    让Python和C一样快,MIT推出新编译器,训练大数据集可提速5-10

    数据文摘出品 Python太慢了! 除了这个缺点,Python可以说是有无数个优点,但就是这个缺点,让无数程序员吐槽不已。 编译器执行的第一个关键步骤之一称为“类型检查”,即在程序中计算每个变量或函数的不同数据类型的过程。例如,一些可以是整数,一些可以是字符串,还有一些可以是浮点数ーー这是常规 Python 不会去做的。 这允许编译器将代码转换为本机代码,从而避免了 Python 在运行时处理数据类型的所有消耗。 第二个难点在于编译器中的优化。 举个例子,如何使用插件实现一组特定于该某计算领域的优化? 比如使用涉及到使用基因组序列和其他生物学数据的基因组学库。 Codon 的方法是生成一个可执行文件——让其以 C 或 C + + 的速度运行,甚至一旦应用了特定于领域的优化,运行速度甚至更快。 除了基因组学,他们还探索了定量金融的应用,定量金融同样也需要也处理大数据集,并大量使用 Python,效果也非常显著。

    63930编辑于 2023-04-10
  • 来自专栏小小挖掘机

    数据团队思考:数据的通用技能要求

    0x00 前言 最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据该具备哪些通用的技能。 “数据开发到底用不用学算法?” “Excel 有必要学吗?” 0x01 Excel 掌握指数:5颗星 掌握人群:所有数据 Excel 是每个数据都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。 0x02 Sql 掌握指数:4.5颗星 掌握人群:所有数据 从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢? 至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。 0x04 大数据 掌握指数:4.5颗星 掌握人群:所有数据数据时代,所有数据都应该具备一定的大数据知识! 0x05 统计学 掌握指数:4颗星掌握人群:所有数据 统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?

    62320发布于 2019-11-21
  • 来自专栏华章科技

    写给准数据数据世界入门指南

    接下来,再来看一句话: 成交10亿民币! 有些可能已经猜到了,我要分享的这两个词就是:维度+度量。 下图中,我将重点放到大道至简几个字,以及维度+度量上,而维度和度量下面分别放了所在家族的一些其他常用词汇,我稍后会解释。 ? (能有这个问题的妹子,你真想多了……),其实这里仔细分析,无非也是涉及到维度和度量两词: 维度:啊。 当然,则个领域,水很深,我只能简单描述一下,再深的也担心大家晕菜了——毕竟本文是写给非数据的。(其实作者本人也讲不粗来了……哈哈) ▍ 应用 ? 我说了,我无法教你具体复杂的数据分析案例。 过去放凤姐一晚,100个里只有5个点,现在放了林志玲一晚,100个人居然有99个点击。老板很高兴,而且确实成交额似乎是比过去略微高那么一点点了。

    59560发布于 2018-08-15
  • 来自专栏PPV课数据科学社区

    假如把地球的70亿浓缩为100,这组数据感到震撼

    因为有人制作了这组有趣的统计报告,把世界上的70亿想象成100,然后各种百分比的统计数据看起来就有点意思了. ? 统计数据看起来会是这样的: 11在欧洲、5在北美洲、9在南美洲、15在非洲、60在亚洲 ? 49生活在乡下、51生活在城市 ? 12讲中文、5讲西班牙语、5讲英语、3讲阿拉伯语、3讲印度语、3讲孟加拉语、3讲葡萄牙语、2讲俄罗斯语、2讲日语、还有62各讲一种语言 ? 83个能识字、17是文盲 ? 33是基督徒、22是穆斯林、14是印度教徒、7是佛教徒、12信仰其他宗教、还有12没有宗教信仰 ? 26不到14岁、66在15-64岁之间、8超过65岁 ? 男人有50个,女人有50个 ? 看完这组数据,假如你能上网,有手机,上过大学,还有什么理由抱怨?

    1.5K40发布于 2018-04-19
  • 来自专栏PPV课数据科学社区

    一个资深数据数据挖掘解读

    (一)纯粹的数据加工 侧重于变量加工和预处理,从源系统或数据仓库,对相关数据进行提取、加工、衍生处理,生成各种业务表。 文本和湿。关于文本分析,最近朋友圈有篇分享,很有意思,号称可以让你瞬间变成湿。原理很简单,就是先把《全宋词》分词,然后统计频数前100的词语。 数据基本上来源于仓库系统,然后运用SQL、SAS、R,提取、加工、建模和分析。 (二)数据类型 数据类型,主要包括“结构化”和“非结构化”两类数据。前者就是传统的二维表结构。 银行里面的数据,更多的是结构化数据,也有少量的非结构化数据(投诉文本、贷款审批文本等)。业务部门对非结构化数据的分析需求比较少。因此,在非结构化数据的分析建模方面,稍显不足。 互联网,更多的是网络日志数据,以文本等非结构化数据为主,然后通过一定的工具将非结构化数据转变为结构化数据,进一步加工和分析。

    71250发布于 2018-04-25
  • 来自专栏PPV课数据科学社区

    【推荐】从设计到数据——写给非数据数据入门

    原因很正常:大部分都投入到了业务系统建设中(彼时,供应链管理系统、物流管理系统、认证系统、以及前台都处于开荒建设阶段)。 接下来,再来看一句话:成交10亿民币! (能有这个问题的妹子,你真想多了……),其实这里仔细分析,无非也是涉及到维度和度量两词: 维度:啊。 当然,则个领域,水很深,我只能简单描述一下,再深的也担心大家晕菜了——毕竟本文是写给非数据的。(其实作者本人也讲不粗来了……哈哈) 四. 应用 我说了,我无法教你具体复杂的数据分析案例。 过去放凤姐一晚,100个里只有5个点,现在放了林志玲一晚,100个人居然有99个点击。老板很高兴,而且确实成交额似乎是比过去略微高那么一点点了。

    1.2K70发布于 2018-04-23
  • 来自专栏数据科学与人工智能

    数据】关于数据质量,营销必知六问

    小编邀请您,先思考: 1 如何让数据优质? 数据驱动的广告需要优质数据。但大量的不良数据和经不起推敲的数据使用方式可能会给营销活动造成不良影响。 营销人员需要知道何时使用自己的数据,何时依赖合作伙伴。 如果你定义了一个非常精准的人群: 30-40岁,女性,在过去14天,在指定的四个区域,买了特定的某一本杂志,最后找到30。这是一个很有价值的目标人群,但数量太少了。 例如,将Cookie数据或设备ID相匹配可能会降低数据质量。你可能会合并一堆数据,但是匹配率太低,所以最终得到的数据集没什么价值。 相反,与其他数据集合匹配良好的数据集可以提高数据质量。 当说到一个数据集与其他数据集的集成,那一般必须合并三到四个数据集,才可以清晰整理出阅读数据可见率或广告欺诈行为,但与此同时这些数据集的集成将面临相当大的复杂性。 每个营销人员都应该询问在引入新数据或分析现有数据时如何合并数据。如果你不明白数据是如何构建的,它可能导致非常错误的结论。

    1.1K70发布于 2018-03-27
  • 来自专栏资讯分享

    37% 的专业人士使用生成式人工智能工具每周可节省 5-10 小时的时间

    4月17日讯,据businesswire报道,Contentful的一份报告显示,38%的受访者表示,使用 genAI 工具每周可节省 1 到近 5 个小时;37% 每周可节省 5 到 10 个小时;11% 每周可节省 10 个小时以上。

    20710编辑于 2024-04-24
领券