首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI杀疯!介绍一下有趣的AI算法

AI杀疯!介绍一下有趣的AI算法

原创
作者头像
算法一只狗
发布2024-11-21 20:03:54
发布2024-11-21 20:03:54
4450
举报
文章被收录于专栏:算法一只狗算法一只狗

好事发生

这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2466030?shareByChannel=link

《通义千问2.0开源模型到底怎么样?》

这篇文章深入浅出的介绍了通义千问2.0大模型,并在Open LLM Leaderboard榜单中,拿下了开源第一名的成绩。同时

通过实际测试,验证了该模型的效果。如果你对于大模型有关注,这篇文章将为您提供有价值的参考。


第一个,艺术和3D建模大师

首先要介绍的是短视频模型Imagen Video。

在给定相应的文本下,它能够生成高清晰度的视频。

在论文中,模型在特定分辨率下,使用的是时域和空间超分辨率模型

同时把之前的文本图像生成的扩散模型,迁移到文本视频生成模型上。

最后使用分类器进行指导,以实现快速和高质量的采样。

在实验中发现,它能够生成各种艺术风格的视频,3D结构的视频等动画。

最后再来看看该模型生成的效果:

第二个,一句话生成更长视频

虽然Imagen Video模型,能够生成高清晰度的短视频,但是仅仅只有5秒左右的时间,因此实际的用处并不到。为了克服这个缺点,谷歌也进一步发布了Phenaki模型。

这个模型不同点在于,它能够根据200个词语,生成2分钟以上的视频。

比如输入文字:

一只逼真的泰迪熊正在旧金山的海里游泳

泰迪熊下水了

泰迪熊和五颜六色的鱼在水下游泳

一只熊猫在水下游泳

或者输入“泰迪熊在海洋中潜水”、“宇航员在火星上跳舞”等词语,可以生成下面的短视频:

同时该模型在修改prompt提示词语的时候,也能够生成不一样的短视频:

这个模型从离散的tokens去压缩视频,使得模型能够克服视频长度的问题。

同时分词器使用了causal attention,这使得它能够处理可变长度的视频。

新的视频生成模型带来的行业革新也在悄悄的发生。比如未来可以利用这些模型合成短视频,发布到短视频平台上。

到时候你看到的视频,有可能已经不是真人视频了。

第三个,码农必备,一款开源的写代码神器

https://www.yuque.com/yuqueyonghumaryyq/fmvho1/qntpde196czdo2mo

2022年开始,Github发布的Copilot代码生成工具开始收费,因此很多人开始寻找更免费好用的代码生成工具。

这不,清华大学就发布了一款更加强大的开源代码生成软件。

它有三种主要的功能模式。

第一种,隐匿模式

在该模式中,CodeGeeX将在您停止输入时,从光标处开始生成(右下角CodeGeeX图标转圈表示正在生成)。生成完毕之后会以灰色显示,按Tab即可插入生成结果。

第二种,翻译模式

在当前的语言文本编辑器中输入或者粘贴其他语言的代码,用快捷键后它会帮您把该代码翻译成匹配您当前编辑器语言的代码。

第三种,提示模式(实验功能)

在该模式中,可以自定义模板中提供一段逐行解释代码的例子。选择您想要解释的代码,按Alt/Option+t触发提示模式,选择您写好的模板(如explanation),CodeGeeX就会解释您输入的代码。

相信随着代码生成工具的不断成熟,会不断促进更多的公司对这类软件进行开发,未来会出现更多的同类产品来真正提高开发者写代码的效率。

到时候可能不是你写代码,而是你控制AI写代码了~

第四个,让AI玩《我的世界》

在以前的智能体玩游戏的案例中,AI能在很多游戏中超越专业选手,例如腾讯在王者荣耀中训练出来的“绝悟AI”:

DeepMind在星际争霸中训练出来的“AlphaStar”:

但是,如果一个游戏的自由度越高,让AI学习人类知识并自由探索则越难。

因此OpenAI利用《我的世界》的玩家视频来学习,训练出超大的预训练模型VPT。

它能够完成一般的基础动作,例如

游泳

打猎

除此之外,它也能够完成复杂的动作:

制作石头镐子

搜索村庄里的箱子

在互联网上存在大量公开的视频,人类可以从中进行学习。比如你可以学习演讲,学习画画,学习如何在MC中建造复杂的房子。但是对于游戏来说,仅仅记录了所发生的事情,但是不知道真实玩家中不知道鼠标移动和按键的确切顺序,也就是说需要模型学习玩家的操作序列。打个比方,类似于在NLP中训练BERT模型,模型可以学习每个单词的上下文序列等。

论文中主要用到半监督的方法去实现VPT模型:

在收集小型的数据集,包含游戏视频和玩家的动作序列(鼠标和按键序列);利用这些数训练逆动力学模型IDM,使用过去和未来的动作特征,来预测每一步操作。

IDIDM模型训练比较简单,因此需要的数据量不会很多。利用训练得到的IDM模型,去标记大量的在线视频数据集。

该研究选择在《我的世界》中验证,这是因为:

  • 该游戏是世界上玩得最活跃的视频游戏之一,因此有大量免费可用的视频数据
  • 该游戏自由度较高,可以做不同的探索任务。

VPT模型在70000小时的视频上进行训练,相比于强化学习从头开始训练,它学会砍树木以收集原木,将这些原木制作成木板,然后将这些木板制作成一个工作台;这个序列需要一个精通的人大约50秒或1000个连续的动作。

最后在下游微调和强化学习中,当给定一个指定的奖励函数,让AI进行学习,它就不断去逼近甚至超越人类的水平

好了,这就是本期的内容了。欢迎大家关注我的频道,我是leo,我们下期再见~。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一个,艺术和3D建模大师
  • 第二个,一句话生成更长视频
  • 第三个,码农必备,一款开源的写代码神器
  • 第四个,让AI玩《我的世界》
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档