首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI科技大本营的专栏

    苹果发布 AI 生成模型 GAUDI,文字生成 3D 场景

    整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 前有DALL.E文本生成图像,现有将文字变成 3D场景。 近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。 最新 AI 系统 GAUDI 如果说 NeRFs 从不同角度逼真地渲染图像的能力可以用于生成 AI 呢? 苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构,可以根据文字提示创建 3D 场景。 例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。 虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高,但这也说明了 AI 在图像和视频技术这生成的另一种可能。

    95520编辑于 2022-12-09
  • 来自专栏七云's Blog

    PHP文字生成图片API

    php /* * @Author: Qicloud * @Title: 文字生成图片API * @Project: YUQ 清新旋律群大佬要的,随手记后面可以造轮子玩 * @QQ: 66547997 $text = $_GET['text']; $img =imagecreate(500,80);//设置底图大小 imagecolorallocate($img,0xff,0xff,0xff);//生成底图 imagecolorallocate($img,0,0,0);//设置字体颜色 我写的黑色 imagettftext($img,$size,0,100,50,$black,$font,$text); //生成图片

    1.3K10编辑于 2023-11-17
  • 来自专栏七云博客

    PHP文字生成图片API

    $text = $_GET['text']; $img =imagecreate(500,80);//设置底图大小 imagecolorallocate($img,0xff,0xff,0xff);//生成底图 imagecolorallocate($img,0,0,0);//设置字体颜色 我写的黑色 imagettftext($img,$size,0,100,50,$black,$font,$text); //生成图片

    4.2K20编辑于 2022-01-27
  • 来自专栏程序那些事儿

    告别文字!谷歌 Whisk 的“看图说话”式 AI 图像生成

    在众多 AI 图像生成工具中,谷歌实验室的 Whisk 以其独特的“以图生图”理念脱颖而出,为创意探索开辟了新的路径。它不仅仅是一个生成器,更像是一个能够理解和重塑视觉信息的智能伙伴。 通过调整输入的图片或添加少量文字提示,可以迅速生成不同的变体,方便进行视觉探索和创意迭代。 底层原理 Whisk 的独特能力源于谷歌先进 AI 模型的协同工作,Gemini 的视觉理解与 Imagen 3 的生成能力: Gemini AI 的视觉智能: 当用户上传图片时,Gemini AI 模型负责对这些图像进行深入的分析 大多数其他 AI 图像生成工具主要依赖精确的文字描述,而 Whisk 则允许用户以更直观的方式进行创作,尤其适合那些难以用语言准确表达的视觉想法。 Whisk 优点 弱化了对精确文字提示的依赖: 这降低了 AI 图像生成的门槛,使得更广泛的用户群体能够参与到创意过程中。

    63900编辑于 2025-06-09
  • 来自专栏Alter聊科技

    智谱AI再放“大招”,30秒将任意文字生成视频

    7月26日的智谱Open Day上,在大模型赛道上动作频频的智谱AI,正式推出视频生成模型CogVideoX,并放出了两个“大招”:一个是智谱清言打造的视频创作智能体清影,可使用文本或图片生成时长6秒、 由此引出了这样一个问题:目前视频生成类产品仍处于“可玩”的阶段,距离商用仍然有不小的鸿沟,智谱AI的进场将产生什么样的影响? 在同类产品要么不开放使用,要么还处于阿尔法版本的阶段,“清影”之所以成为人人可用的AI视频应用,离不开智谱AI在频生成大模型上的多年深耕。 时间回到2021年初,距离ChatGPT的走红还有近两年时间,诸如Transformer、GPT等名词只是在学术圈讨论时,智谱AI就推出了文生图模型CogView,可以将中文文字生成图像,在MS COCO 到了2022年,智谱AI在CogView2的基础上研发了视频生成模型CogVideo,可以输入文本生成逼真的视频内容。

    53910编辑于 2024-07-26
  • 来自专栏个人博客

    文字生成图片综述 - plus studio

    文字生成图片综述 背景 根据文字生成图像,是近几年大模型领域和多模态比较热门的研究。 像 NovelAI 这类的二次元模型对于用户输入的描述词的专业程度要求较高,也由社区自发整理了大量的魔典(prompt).精确控制图像的生成也是AI绘画的一个发展方向,各种可以控制人物动作,位置的方法[ 文字生成图片 文字生成图片一个重要的前提条件是建立文字和图片的联系。CLIP首先通过对比学习的方式实现了文字图片联系。FLIP和A-CLIP对CLIP进行了改进。 Imagen主要使用文字内容进行训练,图片则先生成小图再超分放大。 prompt prompt提示可以给文字生成图片提供语义信息。

    1.2K10编辑于 2024-02-28
  • 来自专栏算法channel

    你用GPT生成文字AI工具能检测出来了!

    你好,我是郭震 一种名为DetectGPT的零样本机器生成文本检测方法,识别是否由GPT方法生成的论文或文章,检测准确率达95% 工具使用,比如输入文字,进入到检测工具DetectGPT,结果输出:是否 GPT生成 检测方法 通过分析语言模型的概率曲率来判断文本是否由特定模型生成。 识别并利用机器生成的文本样本 x ∼ pθ(·) (左侧)倾向于位于 log p(x) 的负曲率区域,这意味着附近的样本平均具有较低的模型对数概率。 总结 所以,看到这里的读者,大家写论文,一定不要纯靠GPT,后面查重中加入这项,检查出是用GPT生成的,可能就会有问题。提前了解好要求才行。

    1.4K10编辑于 2024-04-30
  • 来自专栏用户2442861的专栏

    Tesseract文字训练,以及样本生成

    https://blog.csdn.net/haluoluo211/article/details/77776831 前面用做Tesseract做文字识别的时候,一般网上教程称使用jTessBoxEditor 训练(最终我试验发现对于中文的图片文字识别而言训练基本没什么卵用) ---- 当然使用jTessBoxEditor训练新的文字还是可以的,当时我发现jTessBoxEditor训练基本的配置文件基本是文字以及文字的坐标于是我使用 python脚本生成了对应的训练图片以及配置文件。 生成的配置文件如下: ? ?

    1.3K10发布于 2018-09-19
  • 来自专栏码客

    iOS 图片处理 生成文字图片

    工具类 import UIKit ///图片工具类 class ZJImageUtils{ static var textBgColor:[String:UIColor] = [:]; internal static func randomColor()-> UIColor{ var color = ["#E1B154","#D2945B", "#E57257","#38B1A2",

    8.3K10发布于 2019-10-22
  • 来自专栏Lcry个人博客

    在线生成文字 Banner 网站分享

    在线生成各种文字banner。 网站链接:点此直达 直接填写文字,然后选择字体,选择比较好看的复制即可! 预览图

    8.7K10编辑于 2022-11-29
  • 来自专栏Ryan Miao

    banner自动生成工具,ascii文字展示

    生成文字 大部分工具只支持英文的库,中文的我还没发现。 推荐使用在线库:http://www.network-science.de/ascii/ 比如这样: ? banner: charset: UTF-8 生成图片 生成图片就是一个很强大的功能了。中文文字其实也可以通过截图的方式用图片来转成文字。 推荐生成图片库: http://www.degraeve.com/img2txt.php 生成后: ?

    6K60发布于 2018-03-13
  • coze工作流文字生成视频

    学习完Dify后Dify使用deepseek尝试使用下coze,发现流程和交互几乎一模一样,不过coze的插件更丰富些,特别是多媒体插件,就尝试用coze做了一个一键文生视频的工作流程,生成的视频如下 我们输入一个主题和描述,就能一键生成上面的视频,对于自媒体作者来说是不是很方便? 下面详细介绍下流程,首先定义两个参数,主题和图片提示词 然后接入大模型,我们选择豆包工具就行,接着填入系统提示词和用户提示词 下一步进行文本处理,将刚刚生成的一段话,按照句号拆分成一个个短句 接着我们加一个批处理 ,作为一个容器把刚刚扣出来的图放进去 接下来使用文生音频,把每一个句子生成对应的音频 获取音频时长 有了文字、图片、音频,我们接着根据音频时长,生成对应长度的一个个短视频 得到短视频后,我们还需要把短视频整合起来 ,合成一个长视频 最后加入一个结束,把生成的长视频url打印出来 这样,我们运行流水线,就能通过简单输入的提示词和主题,生成我们期望的短视频 至此一个完整的自媒体流水线完成啦。

    29410编辑于 2026-03-18
  • 来自专栏AI

    AI生成图片中的文字为何总是混乱?解决方案与研究方向

    AI生成图片领域,文字生成一直是技术难点之一。许多用户发现,AI生成的图片中的文字常常出现混乱、无法辨认的情况,这严重影响了AI生成图片的质量和实用性。 一、问题背景AI生成图片中的文字混乱问题在多个主流AI模型中都有体现。以国内的豆包、智谱AI等模型为例,用户在生成图片时,即使输入明确的文字描述,生成的图片中文字也可能出现乱码或奇怪符号。 这种现象不仅影响了用户体验,也暴露了当前AI生成技术在文字处理方面的不足。二、原因分析多模态生成的内在矛盾:视觉与语言模态之间的固有不一致性,导致模型在生成文字和图像时难以兼顾两者的一致性。 创新的算法设计创新的算法设计是提升AI生成图片中文本质量的另一个重要方向。例如,阿里推出的AnyText工具通过创新性的算法设计,解决了中文这种字形繁杂、字符数以万计的文字生成问题。 五、总结与展望AI生成图片中的文字混乱问题虽然在当前技术下仍较为普遍,但随着多模态融合技术的发展、高质量数据集的构建以及创新算法的不断涌现,这一问题有望得到进一步解决。

    7.6K00编辑于 2025-03-29
  • 来自专栏我爱计算机视觉

    医学生成模型MedSyn:文字引导,AI“画”出高保真CT图像

    最先进的图像生成工具,如IMAGEN和隐空间扩散模型 (LDMs)这样的方法已经展示了基于文本提示的2D跨模态生成模型的潜力,但目前还没有已知的文本引导的医学成像体积图像生成技术。 下图是一些文字生成肺部3D CT图像的结果: 02.摘要 这篇文章介绍了一种创新的方法,通过文本信息引导来产生高质量的3D肺CT图像。 我们首先根据文本合成低分辨率图像,作为后续完整体积数据生成器的基础。为了确保生成样本的解剖可能性,我们在CT图像中生成血管、气道和肺叶分割掩码来提供进一步的引导。 本研究关注两个主要目标:(1)基于文本提示和解剖部分创建图像的方法的开发,(2)基于解剖元素生成新图像的能力。图像生成的进步可以应用于增强许多下游任务。 实验对比如下: 04.解刨学结构条件生成 在本节中, MedSyn展示了条件生成的应用。在这项研究中,我们的目标是在解剖结构可用时生成数据,例如我们可以模拟肺叶、气道或血管的结构。

    1.3K10编辑于 2023-10-12
  • 来自专栏CreateAMind

    文字描述生成视频的开源项目

    文字condition 视频 Attentive Semantic Video Generation using Captions Tensorflow implementation for the paper

    91020发布于 2018-07-24
  • 来自专栏csdn-nagiY

    本地部署文字生成音乐AI工具MusicGPT并使用浏览器远程访问使用

    前言 今天和大家分享一下在Windows系统电脑上本地快速部署一个文字生成音乐的AI创作服务MusicGPT,并结合cpolar内网穿透工具实现随时随地远程访问使用进行AI音乐的创作与体验。 MusicGPT这款开源AI音乐生成器可以本地运行最新的音乐生成AI模型,比如Meta 的 MusicGen 模型。 文字输入框左侧是生成时间选择功能,默认情况下,它会产生 10 秒的样本,最多可配置为 30 秒,且可以设定1秒到30秒内的任意时长。 经过测试,可以输入中文提示词与英文提示词进行文字生成音乐,但输入英文提示词的反馈相对更好一些。 如果不知道如何输入英文提示词,可以使用一些其他的大语言模型,去提问。 内网穿透工具下载安装 此时,我们已经成功在本地的Windows系统电脑中部署了 MusicGPT 文字生成音乐AI工具,但仅能在本地局域网中使用,如果想在异地远程使用本地部署的MusicGPT 服务生成音乐应该怎么办呢

    59310编辑于 2024-09-28
  • 来自专栏机器之心

    AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

    机器之心报道 编辑:陈萍、小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。 相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。 3DNA 不仅降低了计算复杂度,还提高了生成结果的视觉质量。与几个强大的基线相比,「女娲」在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果。 尽管 XMC-GAN 的 FID-0 为 9.3,优于「女娲」,但「女娲」能生成更逼真的图像,如图 3 所示。特别是在最后一个例子中,「女娲」生成的男孩脸更清晰,并且男孩旁边的气球也很逼真。 欢迎 AI 社区从业者们积极报名参与,同时我们也欢迎 NeurIPS 2021 论文作者们作为嘉宾参与论文分享与 Poster 展示。感兴趣的小伙伴点击「阅读原文」即可报名。

    67520编辑于 2023-03-29
  • AI文字生成视频工具:从国产到全球创新工具的深度解析

    在短视频与影视创作领域,AI技术正以革命性的方式重构内容生产流程。 一、巨推管家AI文字生成视频工具技术特点3D人脸重建技术:通过单张图片即可生成360°动态角色,支持表情与肢体驱动,角色一致性达92%。 案例某餐饮品牌使用巨推管家AI生成短视频,点赞量提升47%,成本降低83%。 计算资源门槛:4K视频生成需至少RTX 3090显卡级配置。伦理争议:深度伪造技术引发的虚假信息风险需建立行业标准。结论AI文字生成视频技术正在经历从"效率工具"到"创意伙伴"的转型。 答案或许就藏在下一帧由AI绘制的动作中。

    1.1K10编辑于 2025-08-07
  • 来自专栏软件安装

    视频转文字、双字幕生成、实时翻译推荐

    ▌引言 之前给大家分享过不少视频转文字、字幕生成、实时翻译的工具,但有一类工具一直没提到,就是给视频生成字幕后,顺便翻译成中文字幕文件。 第一款:RASK 网址:https://app.rask.ai/ Rask AI需要谷歌账号登录,是个专业的AI视频翻译工具,能把一个视频转换成60多种不同语言并自动配音,甚至还能克隆原视频的声音。 缺点是GhostCut没法克隆原片声音,AI配音上只能选系统自带的声音。不过视频生成速度快,比较适合把国外视频搬运翻译到国内短视频平台上。 ▌第四款:Sync Labs 网址:https://sync.so/ Sync Labs是基于AI人工智能的视频音频口型同步处理工具,能实现视频语音与画面中人物口型的完美同步。 用Potplayer打开生肉视频,右键选择字幕→生成有声字幕→生成有声字幕。 设置好转换引擎、型号、语言这些参数后,点开始生成就行。 很快本地就会出现一份带时间轴但没翻译的字幕文件。

    30210编辑于 2026-03-26
  • 来自专栏coding

    python使用PIL给图片添加文字生成海报

    总而言之,就是成为一个文字工作者 现在我确实成为了一个文字工作者,只不过写的是代码... 在某个月黑风高的晚上,看着满屏花花绿绿的代码,揉着酸涩的眼睛,打了一个长长的哈欠。 作为一个以懒惰为美德的程序员,肯定是想着用程序自动生成图片。 python生成图片海报 设计图片模板 ? header = '001' title = '日思录第001篇' books = ['中国史纲五十讲', '再见拖延症', '心流'] writes = ['日思录第001篇', 'python给图片加文字 /test.png' # 图片模板 new_img = 'text.png' # 生成的图片 compress_img = 'compress.png' # 压缩后的图片 # 设置字体样式 font_type summary_y - num * summary_line draw.text((summary_x, height - y), u'%s' % summary, color, font) # 生成图片

    3.5K20发布于 2018-08-22
领券