首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI科技大本营的专栏

    苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景

    整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 前有DALL.E文本生成图像,现有将文字变成 3D场景。 近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。 最新 AI 系统 GAUDI 如果说 NeRFs 从不同角度逼真地渲染图像的能力可以用于生成 AI 呢? 苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构,可以根据文字提示创建 3D 场景。 例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。 虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高,但这也说明了 AI 在图像和视频技术这生成的另一种可能。

    95820编辑于 2022-12-09
  • ai生成PPT网站有哪些?10AI 生成 PPT 网站大盘点

    AI 生成 PPT 网站的出现,彻底改变了这一现状,它们借助人工智能技术,能快速将文字、大纲甚至想法转化为结构清晰、设计精美的 PPT,大大提升了演示文稿的制作效率。 ,AI 会推荐协调的配色方案,帮助用户解决 “配色难” 的困扰;三是 AI 绘图,若用户缺少合适的图片素材,只需输入文字描述,AI 就能生成符合需求的原创图片,提升 PPT 的独特性。 使用时,用户可以通过两种方式生成 PPT:一是输入文字大纲,AI 会根据大纲自动生成 PPT 的页面结构和内容框架,并搭配合适的模板风格;二是上传文档(如 Word 文档),AI 会自动提取文档中的核心内容 10、讯飞智文科大讯飞推出的讯飞智文,支持文本、语音、视频指令生成PPT,并可同步生成配套演讲稿。其智能动效功能自动为图表添加动态过渡效果,适合会议场景快速记录。 总结以上介绍的 10AI 生成 PPT 网站(含 AI 辅助 PPT 功能的平台),涵盖了不同的功能特色、适用场景和操作风格,从专门的 AI 生成 PPT 工具(如 AiPPT)到集成 AI 功能的综合设计平台

    2.7K11编辑于 2025-09-02
  • 来自专栏七云博客

    PHP文字生成图片API

    $text = $_GET['text']; $img =imagecreate(500,80);//设置底图大小 imagecolorallocate($img,0xff,0xff,0xff);//生成底图 imagecolorallocate($img,0,0,0);//设置字体颜色 我写的黑色 imagettftext($img,$size,0,100,50,$black,$font,$text); //生成图片

    4.2K20编辑于 2022-01-27
  • 来自专栏七云's Blog

    PHP文字生成图片API

    php /* * @Author: Qicloud * @Title: 文字生成图片API * @Project: YUQ 清新旋律群大佬要的,随手记后面可以造轮子玩 * @QQ: 66547997 $text = $_GET['text']; $img =imagecreate(500,80);//设置底图大小 imagecolorallocate($img,0xff,0xff,0xff);//生成底图 imagecolorallocate($img,0,0,0);//设置字体颜色 我写的黑色 imagettftext($img,$size,0,100,50,$black,$font,$text); //生成图片

    1.3K10编辑于 2023-11-17
  • 来自专栏程序那些事儿

    告别文字!谷歌 Whisk 的“看图说话”式 AI 图像生成

    在众多 AI 图像生成工具中,谷歌实验室的 Whisk 以其独特的“以图生图”理念脱颖而出,为创意探索开辟了新的路径。它不仅仅是一个生成器,更像是一个能够理解和重塑视觉信息的智能伙伴。 通过调整输入的图片或添加少量文字提示,可以迅速生成不同的变体,方便进行视觉探索和创意迭代。 底层原理 Whisk 的独特能力源于谷歌先进 AI 模型的协同工作,Gemini 的视觉理解与 Imagen 3 的生成能力: Gemini AI 的视觉智能: 当用户上传图片时,Gemini AI 模型负责对这些图像进行深入的分析 大多数其他 AI 图像生成工具主要依赖精确的文字描述,而 Whisk 则允许用户以更直观的方式进行创作,尤其适合那些难以用语言准确表达的视觉想法。 Whisk 优点 弱化了对精确文字提示的依赖: 这降低了 AI 图像生成的门槛,使得更广泛的用户群体能够参与到创意过程中。

    65400编辑于 2025-06-09
  • 来自专栏Alter聊科技

    智谱AI再放“大招”,30秒将任意文字生成视频

    市场层面越来越热闹,体验上却陷入了相似的困局,确切的说是两大绕不过去共性问题:一是推理速度慢,哪怕只是4秒的视频,也需要10分钟左右才能生成,而且视频越长,生成的速度越慢;二是可控性差,在限定的语句和限定的训练样本内 然而一个无法掩盖的事实是,倘若文生视频要尝试25次才能生成一次可用的,每次生成的时间动辄10分钟,意味着想要获得一条几秒中的视频,需要长达四个多小时的时间成本,所谓的“生产力”也就无从谈起。 在同类产品要么不开放使用,要么还处于阿尔法版本的阶段,“清影”之所以成为人人可用的AI视频应用,离不开智谱AI在频生成大模型上的多年深耕。 时间回到2021年初,距离ChatGPT的走红还有近两年时间,诸如Transformer、GPT等名词只是在学术圈讨论时,智谱AI就推出了文生图模型CogView,可以将中文文字生成图像,在MS COCO 到了2022年,智谱AI在CogView2的基础上研发了视频生成模型CogVideo,可以输入文本生成逼真的视频内容。

    56610编辑于 2024-07-26
  • 来自专栏个人博客

    文字生成图片综述 - plus studio

    文字生成图片综述 背景 根据文字生成图像,是近几年大模型领域和多模态比较热门的研究。 像 NovelAI 这类的二次元模型对于用户输入的描述词的专业程度要求较高,也由社区自发整理了大量的魔典(prompt).精确控制图像的生成也是AI绘画的一个发展方向,各种可以控制人物动作,位置的方法[ 10][13][19]被提出.最近openai也开源了他们最新的研究Consistency Models[20] ,可以1s内生成多张图片。 文字生成图片 文字生成图片一个重要的前提条件是建立文字和图片的联系。CLIP首先通过对比学习的方式实现了文字图片联系。FLIP和A-CLIP对CLIP进行了改进。 Imagic Imagic[10]提出的方法只需要一个输入图像和一个目标文本(所需的编辑)。它生成一个与输入图像和目标文本一致的文本嵌入,同时微调扩散模型以捕获特定于图像的外观。

    1.2K10编辑于 2024-02-28
  • 来自专栏算法channel

    你用GPT生成文字AI工具能检测出来了!

    你好,我是郭震 一种名为DetectGPT的零样本机器生成文本检测方法,识别是否由GPT方法生成的论文或文章,检测准确率达95% 工具使用,比如输入文字,进入到检测工具DetectGPT,结果输出:是否 GPT生成 检测方法 通过分析语言模型的概率曲率来判断文本是否由特定模型生成。 识别并利用机器生成的文本样本 x ∼ pθ(·) (左侧)倾向于位于 log p(x) 的负曲率区域,这意味着附近的样本平均具有较低的模型对数概率。 总结 所以,看到这里的读者,大家写论文,一定不要纯靠GPT,后面查重中加入这项,检查出是用GPT生成的,可能就会有问题。提前了解好要求才行。

    1.4K10编辑于 2024-04-30
  • 来自专栏用户2442861的专栏

    Tesseract文字训练,以及样本生成

    https://blog.csdn.net/haluoluo211/article/details/77776831 前面用做Tesseract做文字识别的时候,一般网上教程称使用jTessBoxEditor 训练(最终我试验发现对于中文的图片文字识别而言训练基本没什么卵用) ---- 当然使用jTessBoxEditor训练新的文字还是可以的,当时我发现jTessBoxEditor训练基本的配置文件基本是文字以及文字的坐标于是我使用 python脚本生成了对应的训练图片以及配置文件。 生成的配置文件如下: ? ? FONT_SIZE = 20 FONT_SIZE = 25 FONT_SIZE = 36 FONT_SIZE = 45 # 空格的大小,换行的时候也是要大小的不然,两行的距离太紧 FONT_BLANK_SIZE = 10

    1.3K10发布于 2018-09-19
  • 来自专栏Lcry个人博客

    在线生成文字 Banner 网站分享

    在线生成各种文字banner。 网站链接:点此直达 直接填写文字,然后选择字体,选择比较好看的复制即可! 预览图

    8.7K10编辑于 2022-11-29
  • 来自专栏码客

    iOS 图片处理 生成文字图片

    工具类 import UIKit ///图片工具类 class ZJImageUtils{ static var textBgColor:[String:UIColor] = [:]; internal static func randomColor()-> UIColor{ var color = ["#E1B154","#D2945B", "#E57257","#38B1A2",

    8.3K10发布于 2019-10-22
  • 来自专栏黑马

    【Vue_10】渐变色文字

    实现渐变色文字的原理,将背景色改为渐变,然后将背景剪裁出文字,最后将文字隐藏 一. webkit-linear-gradient(top, white, #a4a4a4, #6a6b6b); /* 规定背景绘制区域 */ -webkit-background-clip: text; /* 将文字隐藏 text 以文字为绘制背景(剪裁成文字) */ background-clip: border-box|padding-box|content-box; 3. text-fill-color text-fill-color 浏览器支持 只适用于webkit内核 text-fill-color 一般设置为 transparent(透明),然后使用 background-image 渐变颜色来设置文字的背景色,使用 background-clip 来截取文字

    1.5K10发布于 2021-02-04
  • 来自专栏Ryan Miao

    banner自动生成工具,ascii文字展示

    生成文字 大部分工具只支持英文的库,中文的我还没发现。 推荐使用在线库:http://www.network-science.de/ascii/ 比如这样: ? banner: charset: UTF-8 生成图片 生成图片就是一个很强大的功能了。中文文字其实也可以通过截图的方式用图片来转成文字。 推荐生成图片库: http://www.degraeve.com/img2txt.php 生成后: ?

    6K60发布于 2018-03-13
  • coze工作流文字生成视频

    学习完Dify后Dify使用deepseek尝试使用下coze,发现流程和交互几乎一模一样,不过coze的插件更丰富些,特别是多媒体插件,就尝试用coze做了一个一键文生视频的工作流程,生成的视频如下 我们输入一个主题和描述,就能一键生成上面的视频,对于自媒体作者来说是不是很方便? 下面详细介绍下流程,首先定义两个参数,主题和图片提示词 然后接入大模型,我们选择豆包工具就行,接着填入系统提示词和用户提示词 下一步进行文本处理,将刚刚生成的一段话,按照句号拆分成一个个短句 接着我们加一个批处理 ,作为一个容器把刚刚扣出来的图放进去 接下来使用文生音频,把每一个句子生成对应的音频 获取音频时长 有了文字、图片、音频,我们接着根据音频时长,生成对应长度的一个个短视频 得到短视频后,我们还需要把短视频整合起来 ,合成一个长视频 最后加入一个结束,把生成的长视频url打印出来 这样,我们运行流水线,就能通过简单输入的提示词和主题,生成我们期望的短视频 至此一个完整的自媒体流水线完成啦。

    33410编辑于 2026-03-18
  • 来自专栏大史住在大前端

    【带着canvas去流浪(10)】文字烟花

    文字烟花 文字烟花的小控件是下面这样的效果,你或许在很多个人博客中见过: ? 这一节我们就来讲述一下这个小动画的实现方法。 二. 所以这个小动画里唯一的难点,就是如何根据文字生成烟花,只要做到这一步,其他的部分都比较容易实现。 比如你截取了一个长为200像素高为10像素的矩形区域的数据点,那么就会得到一个200*10*4=8000个数据点的数组。 2.3 计时器 最后,我们还需要一个新的timer对象,之前我们接触到的精灵动画大都是连续的,每一帧都需要进行状态更新,而本节中时间文字的更新是离散的,一秒钟才更新一次,烟花由于有动画过程,也不太适合每秒都生成 60;//时间文字每60帧刷新一次 this.shouldAnim = (this.shouldAnim + 1) % 120;//烟花每120帧生成一次 if (!

    1.1K20发布于 2019-05-17
  • 来自专栏我爱计算机视觉

    医学生成模型MedSyn:文字引导,AI“画”出高保真CT图像

    最先进的图像生成工具,如IMAGEN和隐空间扩散模型 (LDMs)这样的方法已经展示了基于文本提示的2D跨模态生成模型的潜力,但目前还没有已知的文本引导的医学成像体积图像生成技术。 下图是一些文字生成肺部3D CT图像的结果: 02.摘要 这篇文章介绍了一种创新的方法,通过文本信息引导来产生高质量的3D肺CT图像。 我们首先根据文本合成低分辨率图像,作为后续完整体积数据生成器的基础。为了确保生成样本的解剖可能性,我们在CT图像中生成血管、气道和肺叶分割掩码来提供进一步的引导。 本研究关注两个主要目标:(1)基于文本提示和解剖部分创建图像的方法的开发,(2)基于解剖元素生成新图像的能力。图像生成的进步可以应用于增强许多下游任务。 实验对比如下: 04.解刨学结构条件生成 在本节中, MedSyn展示了条件生成的应用。在这项研究中,我们的目标是在解剖结构可用时生成数据,例如我们可以模拟肺叶、气道或血管的结构。

    1.3K10编辑于 2023-10-12
  • 来自专栏AI

    AI生成图片中的文字为何总是混乱?解决方案与研究方向

    AI生成图片领域,文字生成一直是技术难点之一。许多用户发现,AI生成的图片中的文字常常出现混乱、无法辨认的情况,这严重影响了AI生成图片的质量和实用性。 一、问题背景AI生成图片中的文字混乱问题在多个主流AI模型中都有体现。以国内的豆包、智谱AI等模型为例,用户在生成图片时,即使输入明确的文字描述,生成的图片中文字也可能出现乱码或奇怪符号。 这种现象不仅影响了用户体验,也暴露了当前AI生成技术在文字处理方面的不足。二、原因分析多模态生成的内在矛盾:视觉与语言模态之间的固有不一致性,导致模型在生成文字和图像时难以兼顾两者的一致性。 创新的算法设计创新的算法设计是提升AI生成图片中文本质量的另一个重要方向。例如,阿里推出的AnyText工具通过创新性的算法设计,解决了中文这种字形繁杂、字符数以万计的文字生成问题。 五、总结与展望AI生成图片中的文字混乱问题虽然在当前技术下仍较为普遍,但随着多模态融合技术的发展、高质量数据集的构建以及创新算法的不断涌现,这一问题有望得到进一步解决。

    7.9K00编辑于 2025-03-29
  • 来自专栏CreateAMind

    文字描述生成视频的开源项目

    文字condition 视频 Attentive Semantic Video Generation using Captions Tensorflow implementation for the paper Caption 1: digit 5 is moving left and right Caption 2: digit 9 is moving up and down Caption 1: person 10 is walking left to right Caption 2: person 10 is walking right to left

    91120发布于 2018-07-24
  • 来自专栏csdn-nagiY

    本地部署文字生成音乐AI工具MusicGPT并使用浏览器远程访问使用

    前言 今天和大家分享一下在Windows系统电脑上本地快速部署一个文字生成音乐的AI创作服务MusicGPT,并结合cpolar内网穿透工具实现随时随地远程访问使用进行AI音乐的创作与体验。 MusicGPT这款开源AI音乐生成器可以本地运行最新的音乐生成AI模型,比如Meta 的 MusicGen 模型。 文字输入框左侧是生成时间选择功能,默认情况下,它会产生 10 秒的样本,最多可配置为 30 秒,且可以设定1秒到30秒内的任意时长。 经过测试,可以输入中文提示词与英文提示词进行文字生成音乐,但输入英文提示词的反馈相对更好一些。 如果不知道如何输入英文提示词,可以使用一些其他的大语言模型,去提问。 内网穿透工具下载安装 此时,我们已经成功在本地的Windows系统电脑中部署了 MusicGPT 文字生成音乐AI工具,但仅能在本地局域网中使用,如果想在异地远程使用本地部署的MusicGPT 服务生成音乐应该怎么办呢

    64810编辑于 2024-09-28
  • 来自专栏机器之心

    AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

    机器之心报道 编辑:陈萍、小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。 相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。 3DNA 不仅降低了计算复杂度,还提高了生成结果的视觉质量。与几个强大的基线相比,「女娲」在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果。 尽管 XMC-GAN 的 FID-0 为 9.3,优于「女娲」,但「女娲」能生成更逼真的图像,如图 3 所示。特别是在最后一个例子中,「女娲」生成的男孩脸更清晰,并且男孩旁边的气球也很逼真。 欢迎 AI 社区从业者们积极报名参与,同时我们也欢迎 NeurIPS 2021 论文作者们作为嘉宾参与论文分享与 Poster 展示。感兴趣的小伙伴点击「阅读原文」即可报名。

    70920编辑于 2023-03-29
领券