首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CSDN技术头条

    未来5-10年,NLP将走向成熟

    无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术: 通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。 敦煌研究院提供出数据,我们则把我们的引擎加上去,很快就建立了一个敦煌研究院的客服系统,借助敦煌研究院公众号,可以让用户和它聊与敦煌有关的事。 未来5-10年,NLP将走向成熟 最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。 随着大数据、深度学习、云计算这三大要素推动,所谓认知智能,尤其是语言智能跟感知智能一样会有长足的发展。 最后,我认为也是非常关键的,通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,你找人工标注代价又极大。

    1.4K71发布于 2018-02-12
  • 来自专栏人工智能头条

    未来5-10年,自然语言处理将走向成熟

    无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术: ● 通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。 敦煌研究院提供出数据,我们则把我们的引擎加上去,很快就建立了一个敦煌研究院的客服系统,借助敦煌研究院公众号,可以让用户和它聊与敦煌有关的事。 未来5-10年,NLP将走向成熟 最后,再介绍一下我对自然语言处理目前存在的问题以及未来的研究方向的一些考虑,供大家参考。 ● 随着大数据、深度学习、云计算这三大要素推动,所谓认知智能,尤其是语言智能跟感知智能一样会有长足的发展。 6.最后,我认为也是非常关键的,通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,你找人工标注代价又极大。

    80830发布于 2018-07-20
  • 来自专栏算法修养

    pta习题集 5-10 切分表达式——写个tokenizer吧

    [先说点出题背景] 这个题是为低年级同学、学C语言的同学准备的,因为,对这部分同学,这个题目编写起来略有一点复杂。如果是高年级、学过了正则表达式(Regular Expression)的同学或者学过了Java等OO语言的同学做这个题,应当发现这题比较简单吧。哦,对了,什么是tokenizer?请自行查询解决。反正在此处不应翻译成“令牌解析器”。 [正题] 四则运算表达式由运算数(必定包含数字,可能包含正或负符号、小数点)、运算符(包括+、-、*、/)以及小括号((和))组成,每个运算数、运算符和括号

    1.2K60发布于 2018-04-27
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 5-10 线性回归的可解释性

    线性回归的可解释性 下面先使用sklearn封装好的线性模型在整个数据集上进行拟合: ? ? 即使你的数据使用线性回归法预测的结果不够好,但是我们通过这样的方式,首先看一看数据特征和预测目标的线性关系,相应的系数有多大,这样做也是非常有意义的。 所以从某种角度上来讲,我们拿到一组数据之后,先使用线性的方式试试看,总之是没有坏处的。 线性回归总结 当然线性回归算法在预测模型的时候同样需要使用测试集,用训练数据集训练出模型,不同于前面介绍的kNN算法,此时的模型是一个实实在在的模型,所谓的模型就可以写成y = θTx,有了这个模型之后就可以基于这个模型对测试数据集进行预测 这里需要注意的是在使用线性回归算法的时候,对数据是有一个假设的:数据和最终的输出结果之间有一定的线性关系,这个线性关系越强,线性回归算法得到的结果相应的也就越好。

    1.5K00发布于 2019-11-13
  • 来自专栏腾讯云原生团队

    ImageApparate(幻影)镜像加速服务让镜像分发效率提升 5-10

    ImageApparate(幻影) 为了解决这个问题,腾讯云容器服务 TKE 团队开发了下一代镜像分发方案ImageApparate(幻影), 将大规模大镜像分发的速度提升 5-10倍。 ? 如上所述,相比于传统的下载全部镜像的方式,ImageApparate 在容器全部启动时间上都有 5-10倍 的提升。 镜像本地缓存由不同的IAS附加存储插件自身实现,目前 CFS 实现使用了 FScache 框架作为本地缓存可以自动按页缓存访问过的在远端存储上的部分数据,根据当前磁盘通过本地缓存能力,有效提升镜像数据重复访问的性能和稳定性 Apparate-snapshotter 主要负责解析记录在镜像层中的IAS信息,从而拿到另外数据存储地址,接下来 Apparate-snapshotter 会去数据存储服务中加载远程数据,并在本地提供访问的 比如在 CFS 场景下,会把远端数据 mount 到本地,并把挂载点作为接下来本地访问的入口。当需要使用远端数据时便由 snapshotter 或内核来提供按需加载的能力。

    1.6K10发布于 2021-02-25
  • 来自专栏企鹅号快讯

    Hinton:5-10年内深度学习取代放射科医生

    Hinton对自动化医学未来的预测建立在一个简单的原则基础之上:“在有大量数据的地方,采取旧的分类问题,这将通过深度学习来解决。将有数以千计的深度学习应用。” 肺炎:斯坦福大学的算法诊断肺炎好于医生 去年9月,美国国家卫生研究院曾发布一组数据,这给斯坦福大学教授吴恩达领导机器学习小组带来了启发。 在一个星期内,斯坦福大学研究人员开发了一种名为CheXnet的算法,它能够比以前的算法更准确地发现原始数据集中的14种病理学中的10种。 综合所有这些数据,STAR能够把重点放在目标上。机器人为缝合工作制定了自己的计划,并在操作过程中随着组织的移动调整了计划。 他们使用这一数据集创建了图像库,并将其作为原始像素提供给算法,每个像素都带有标签,描述了相关疾病的附加数据。 为了测试算法的性能,研究人员找来斯坦福医学院的21名皮肤科医生。

    1.5K60发布于 2018-01-05
  • 光照计算 采用手动优化重写,通常能获得5-10倍的性能提升

    物理碰撞检测光照计算 采用手动优化重写,通常能获得5-10倍的性能提升第三阶段:内存优化通过JavaScript特有的内存管理技术:代码语言:javascript代码运行次数:0运行AI代码解释// 使用对象池减少

    19110编辑于 2025-07-19
  • 来自专栏大数据文摘

    让Python和C一样快,MIT推出新编译器,训练大数据集可提速5-10

    数据文摘出品 Python太慢了! 除了这个缺点,Python可以说是有无数个优点,但就是这个缺点,让无数程序员吐槽不已。 编译器执行的第一个关键步骤之一称为“类型检查”,即在程序中计算每个变量或函数的不同数据类型的过程。例如,一些可以是整数,一些可以是字符串,还有一些可以是浮点数ーー这是常规 Python 不会去做的。 这允许编译器将代码转换为本机代码,从而避免了 Python 在运行时处理数据类型的所有消耗。 第二个难点在于编译器中的优化。 举个例子,如何使用插件实现一组特定于该某计算领域的优化? 比如使用涉及到使用基因组序列和其他生物学数据的基因组学库。 Codon 的方法是生成一个可执行文件——让其以 C 或 C + + 的速度运行,甚至一旦应用了特定于领域的优化,运行速度甚至更快。 除了基因组学,他们还探索了定量金融的应用,定量金融同样也需要也处理大数据集,并大量使用 Python,效果也非常显著。

    63130编辑于 2023-04-10
  • 来自专栏新智元

    【AI全球大战医生】Hinton:5-10年内深度学习取代放射科医生

    Hinton对自动化医学未来的预测建立在一个简单的原则基础之上:“在有大量数据的地方,采取旧的分类问题,这将通过深度学习来解决。将有数以千计的深度学习应用。” 肺炎:斯坦福大学的算法诊断肺炎好于医生 去年9月,美国国家卫生研究院曾发布一组数据,这给斯坦福大学教授吴恩达领导机器学习小组带来了启发。 在一个星期内,斯坦福大学研究人员开发了一种名为CheXnet的算法,它能够比以前的算法更准确地发现原始数据集中的14种病理学中的10种。 综合所有这些数据,STAR能够把重点放在目标上。机器人为缝合工作制定了自己的计划,并在操作过程中随着组织的移动调整了计划。 他们使用这一数据集创建了图像库,并将其作为原始像素提供给算法,每个像素都带有标签,描述了相关疾病的附加数据。 为了测试算法的性能,研究人员找来斯坦福医学院的21名皮肤科医生。

    1.1K60发布于 2018-03-20
  • 来自专栏AI科技评论

    百度王海峰Quora精华整理:未来5-10年,NLP领域将会有什么进展?

    2、未来5-10年,NLP领域将会有什么进展? 机器翻译、语义理解、问答和对话技术将会有重大突破。这些技术将会被广泛应用,并最终改变人与计算机、人与各种硬件设备、以及人与人之间的沟通方式。 这些技术的发展将得益于以下四个领域的发展:大数据、学习机制、知识图谱、推理和规划。 大数据。随着互联网的繁荣,数据量和种类都在高速增长。即便是非常传统的商业领域,都在开始把数据放到网上。 大数据的价值将继续在物联网领域增长。 学习机制。学习机制的发展将会持续进行,这使得我们能从大数据中学习更多的东西。 知识图谱。 | 语言生成 自动新闻写作 自动新闻写作,即从结构化和非结构化数据里生成新闻文章。 ,生成结构化解说数据 比赛场景推理(game scene inference):基于比赛数据(比如得分和统计),推断出现场比赛场景 生成直播解说(live commentary generation)

    1.5K40发布于 2018-03-12
  • 来自专栏苦逼的码农

    在一个公司死磕了5-10年的人最后都怎么样了

    互联网企业给人的感觉就是流动性非常大,跳槽一词也常挂嘴中,并且也是涨薪资最好的方式,很少有人在一家公司待五六年以上。

    56750编辑于 2023-09-07
  • 来自专栏资讯分享

    37% 的专业人士使用生成式人工智能工具每周可节省 5-10 小时的时间

    4月17日讯,据businesswire报道,Contentful的一份报告显示,38%的受访者表示,使用 genAI 工具每周可节省 1 到近 5 个小时;37% 每周可节省 5 到 10 个小时;11% 每周可节省 10 个小时以上。

    20310编辑于 2024-04-24
  • 来自专栏Metaverse元宇宙

    MetaDaily|腾讯业内首发数字孪生云,扎克伯格对未来5-10年的前景感到完全乐观

    Meta CEO扎克伯格:对未来5-10年的前景感到完全乐观 Meta CEO扎克伯格表示,对未来5-10年的前景感到“完全乐观”;此前在2021年错误地认为元宇宙的火热趋势将持续下去;说Meta现在将所有的注意力全都集中在了元宇宙领域是不正确的说法 Taeyeon Kim 用新的设计理念制作了苹果 AR 眼镜的虚拟 CG 图,其中它采用圆形太阳镜形状的设计,镜片设计为可显示信息的显示器,镜腿部分配备了 LiDAR 扫描仪,可与 iPhone 连接进行数据处理

    58420编辑于 2022-12-18
  • 来自专栏机器之心

    实时文生图速度提升5-10倍,清华LCMLCM-LoRA爆火,浏览超百万、下载超20万

    据统计,LCM 能将主流文生图模型的效率提高 5-10 倍,所以能呈现出实时的效果。 扩散模型通过向训练数据添加噪声,然后逆转这一过程来生成高质量图像。然而,扩散模型生成图片需要进行多步采样,这一过程相对较慢,增加了推理成本。缓慢的多步采样问题是部署这类模型时的主要瓶颈。 对于专业数据集,如动漫、真实照片或奇幻图像数据集,它还需要额外的步骤,如采用潜在一致性蒸馏法(LCD)将预训练的 LDM 蒸馏为 LCM,或直接使用 LCF 对 LCM 进行微调。 然而,这种额外的训练可能会阻碍 LCM 在不同数据集上的快速部署,这就提出了一个关键问题:是否可以在自定义数据集上实现快速、无需训练的推理。 本科毕业于复旦大学大数据学院。研究方向为多模态生成模型,研究兴趣为扩散模型,一致性模型,AIGC加速,致力于研发下一代生成模型。此前也以一作身份多篇论文发表在ICCV,NeurIPS顶会上。

    1.8K50编辑于 2023-11-16
  • 来自专栏新智元

    武汉大学研制出新冠「广谱疫苗」登Science子刊,5-10年打一针就够?

    「根据现有序列数据的分析,新冠病毒更倾向于向某一个方向进化,感染性更强,或是免疫逃逸能力更强。S蛋白突变位点的功能需要协调,单个位点只能实现单功能,很难两者兼备。」 研究人员分析NCBI数据库中2675个蛋白序列的同源性,进而设计Span免疫原。研究团队计算分析得出共性突变位点,反映了序列进化中交叉进化枝的普遍性。 能不能结合之前的数据,参考那些「没变」的部分,造一个「人造抗原」出来,然后教免疫系统认得这个抗原。 按照这个思路,造出来的人造抗原代表了大批变异病毒的共同特征。 研究人员通过数据比对,下载了截至2021年2月NCBI数据库中所有新冠病毒序列,去重后获得2675条序列,通过进化聚类算法,计算分析得出共性突变位点和进化规律,设计出了人造抗原Span。

    42020编辑于 2023-02-24
  • 来自专栏华章科技

    高盛发布79页区块链完整报告:未来5-10年内将会被广泛应用(附下载)

    区块链的核心潜力在于分布式数据库的特性及其如何助益透明、安全和效率。 相同的思路是,赋能一个本质上全新的、可以被多个组织采用的数据库技术,区块链可以构筑解决问题基础、或是能抓住那些现有体系无力实现的机会。 预计在接下来的 2 年中见到早期技术原型,2-5 年后见到有限度的市场应用,而 5-10 年内会有更大范围的市场接受度。

    62460发布于 2018-08-17
  • 来自专栏量子位

    只花5-10分钟评审,还不提供拒稿理由,IJCAI就“枪毙”42%论文,网友:一脸懵逼

    每一篇论文都会发送给7到10名高级PC,要求他们花5-10分钟来对论文进行评审,并回答“该论文是否应该进入下一轮评审?”的问题。 槽点一:花5-10分钟评审论文 一位网友在收到邮件后,在Reddit发布了一个帖子进行吐槽。 我刚刚收到来自 IJCAI-20的拒绝通知,说他们有3-5个评审员审查了我的论文5-10分钟。 仅仅阅读5-10分钟,你怎么能确定一篇论文的质量呢? 我实验室的其他论文也因此而被拒绝,这毫无意义。我们在论文上花了5-6个月的时间,而这些“评论员”花了5-10分钟来评判我们的工作。 还有知乎网友在看了Twitter上纽大副教授(一位SPC)的解释后,表示: SPC只有5-10分钟的时间去决定一篇文章的生死,如果是自己不熟悉的领域,可以说真的是随机选择了。 ?

    1.1K30发布于 2020-02-25
  • 来自专栏新智元

    0代码即可创建,黄仁勋预测5-10年游戏完全由AI生成

    老黄预测,未来5-10年我们将看到完全由AI生成的游戏。 「未来5-10年,我们可以看到完全由AI生成的游戏」。 这是近日GTC 2024大会之后,黄仁勋接受媒体时采访时发表的最新看法。 就连老黄也表示,这只需要5-10年的时间。Bethesda仍在推进下一代《上古卷轴》游戏的开发,预计2028年推出。微软和新XBox也是如此。 所有这些游戏,都将在10年后被扫地出门。

    58610编辑于 2024-03-26
  • 来自专栏新智元

    Gartner:2016 智能机器成熟度曲线图(更新版)

    关键的技术领域是大数据,移动化,智能机器,自动化技术和物联网。 代表企业:无 新出现。距稳定应用还有5-10年。 距稳定应用还有5-10年。 距稳定应用还有5-10年。 这些技术包括激光雷达,雷达,摄像头,控制系统,软件,地图数据,GPS和无线数据传输等。 距稳定应用还有5-10年。 2.10预测分析Predictive Analytics 定义:预测分析是先进分析的一种,它审核数据或内容来回答问题:“会发生什么”,或者更精确的:“可能发生什么”。

    1.2K80发布于 2018-03-23
  • 来自专栏钱塘大数据

    2017 AI成熟度曲线图

    接口获得的更广泛的算法来处理更大量的商业应用; 不断增加的数据科学实践者和大众对于数据科学/机器学习的兴趣。 AIOps平台支持多数据源,数据收集方法,分析技术和表达技术的并发。AIOps平台压缩了过去市场上称为算法IT运营和IT运营分析的技术。 在分析的情境下,这一叙述会随着用户与数据的交互而改变,来解释一张表格或仪表盘的意义。它结合了自然语言处理,机器学习和人工智能,动态地发掘数据中最相关的见解和情境。 图谱由能够决定数据点之间联结的模型组成。数据节点之间联结的紧密型表明了影响,交互频率,可能性的层级。 这一战略依靠大数据和简单规则集,来增加有关消费者的个人和商业信息。

    2.1K90发布于 2018-03-06
领券