搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI科技大本营的专栏
苹果发布 AI 生成模型 GAUDI，文字生成 3D 场景
整理 | 禾木木出品 | AI科技大本营（ID:rgznai100）前有DALL.E文本生成图像，现有将文字变成 3D场景。近日，苹果 AI 团队发布最新 AI 模型 GAUDI，它是基于 3D 场景的神经架构 NeRFs，可以根据文字生成 3D 室内场景。最新 AI 系统 GAUDI 如果说 NeRFs 从不同角度逼真地渲染图像的能力可以用于生成 AI 呢？此前，OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系统展示了 AI 将文本生成图像的潜力，但内容也仅限于 2D 图像和图形。苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构，可以根据文字提示创建 3D 场景。例如，输入“穿过走廊”或“上楼梯”，就可以看到执行这一动作的 3D 场景视频。
95820编辑于 2022-12-09
来自专栏七云博客
PHP文字生成图片API
$text = $_GET['text']; $img =imagecreate(500,80);//设置底图大小 imagecolorallocate($img,0xff,0xff,0xff);//生成底图 imagecolorallocate($img,0,0,0);//设置字体颜色我写的黑色 imagettftext($img,$size,0,100,50,$black,$font,$text); //生成图片
4.2K20编辑于 2022-01-27
来自专栏七云's Blog
PHP文字生成图片API
php /* * @Author: Qicloud * @Title: 文字生成图片API * @Project: YUQ 清新旋律群大佬要的，随手记后面可以造轮子玩 * @QQ: 66547997 $text = $_GET['text']; $img =imagecreate(500,80);//设置底图大小 imagecolorallocate($img,0xff,0xff,0xff);//生成底图 imagecolorallocate($img,0,0,0);//设置字体颜色我写的黑色 imagettftext($img,$size,0,100,50,$black,$font,$text); //生成图片
1.3K10编辑于 2023-11-17
来自专栏程序那些事儿
告别文字！谷歌 Whisk 的“看图说话”式 AI 图像生成
通过调整输入的图片或添加少量文字提示，可以迅速生成不同的变体，方便进行视觉探索和创意迭代。底层原理 Whisk 的独特能力源于谷歌先进 AI 模型的协同工作，Gemini 的视觉理解与 Imagen 3 的生成能力： Gemini AI 的视觉智能：当用户上传图片时，Gemini AI 模型负责对这些图像进行深入的分析大多数其他 AI 图像生成工具主要依赖精确的文字描述，而 Whisk 则允许用户以更直观的方式进行创作，尤其适合那些难以用语言准确表达的视觉想法。 Whisk Animate 作为 Whisk 的一项重要扩展功能，Whisk Animate 利用谷歌的 Veo 2 视频生成模型，将 Whisk 生成的静态图像转化为短视频。 Whisk 优点弱化了对精确文字提示的依赖：这降低了 AI 图像生成的门槛，使得更广泛的用户群体能够参与到创意过程中。
65400编辑于 2025-06-09
来自专栏Node开发
图片文字识别(2)
上篇文章主要对百度AI文字识别接口最基础的通用文字以及手写文字图片进行了接入识别，本篇文章我们来接着看几个实用性比较强的文字识别接口。百度AI接口对接挺容易的，签名加密都没有涉及到。 2.如果图片需要进行保存，可以前端将图片转化为binary格式，后端先将图片上传到服务器或者直接传到对象存储oss，然后获得图片路径，使用现在的方法加载缓冲数据，进行BASE64编码最后调用接口解析图片文字信息这样有一个好处就是比如我们数据库设计表截个数据表的图，扔进接口里面就可以自动生成一个表格链接供我们进行下载，省却了我们制作数据表的时间和精力。但是我这里就不准备一一介绍了，有兴趣可以自行查看百度AI文字识别文档： https://ai.baidu.com/docs#/OCR-API/87932804 其实业务开发过程如果适当的引入人脸识别，文字识别等而且百度AI还提供了一系列需要申请权限的接口，很大成都方便了我们的开发，我们不必去追究底层是如何识别图片中的文字的，就可以快速接入API识别我们需要的功能。
54.4K30发布于 2019-07-01
来自专栏Alter聊科技
智谱AI再放“大招”，30秒将任意文字生成视频
时间回到2021年初，距离ChatGPT的走红还有近两年时间，诸如Transformer、GPT等名词只是在学术圈讨论时，智谱AI就推出了文生图模型CogView，可以将中文文字生成图像，在MS COCO 的评估测试中超过OpenAI的Dall·E，并在2022年推出了CogView2，解决了生成速度慢、清晰度低等问题。到了2022年，智谱AI在CogView2的基础上研发了视频生成模型CogVideo，可以输入文本生成逼真的视频内容。比如在内容连贯性方面，智谱AI自研了高效三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，配合3D RoPE位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。、擅长中文的向量模型Embedding-2、代码模型CodeGeeX、开源模型GLM-4-9B以及视频生成大模型CogVideoX，客户可以根据不同的需求调用不同大模型，找到最优解。
56510编辑于 2024-07-26
来自专栏个人博客
文字生成图片综述 - plus studio
文字生成图片综述背景根据文字生成图像，是近几年大模型领域和多模态比较热门的研究。像 NovelAI 这类的二次元模型对于用户输入的描述词的专业程度要求较高，也由社区自发整理了大量的魔典(prompt).精确控制图像的生成也是AI绘画的一个发展方向，各种可以控制人物动作，位置的方法[ 文字生成图片文字生成图片一个重要的前提条件是建立文字和图片的联系。CLIP首先通过对比学习的方式实现了文字图片联系。FLIP和A-CLIP对CLIP进行了改进。 Imagen主要使用文字内容进行训练，图片则先生成小图再超分放大。 prompt prompt提示可以给文字生成图片提供语义信息。
1.2K10编辑于 2024-02-28
来自专栏CreateAMind
stackGAN通过文字描述生成图片的V2项目
https://github.com/hanzhanggit/StackGAN-v2 StackGAN-v2 StackGAN-v1: Tensorflow implementation StackGAN-v1 Pretrained Model StackGAN-v2 for bird. Download and save it to models/ StackGAN-v2 for bedroom. Download and save it to models/ StackGAN-v2 for church. Examples generated by StackGAN-v2 ?
1.6K30发布于 2018-07-24
来自专栏算法channel
你用GPT生成的文字，AI工具能检测出来了！
你好，我是郭震一种名为DetectGPT的零样本机器生成文本检测方法，识别是否由GPT方法生成的论文或文章，检测准确率达95% 工具使用，比如输入文字，进入到检测工具DetectGPT，结果输出：是否 GPT生成检测方法通过分析语言模型的概率曲率来判断文本是否由特定模型生成。识别并利用机器生成的文本样本 x ∼ pθ(·) （左侧）倾向于位于 log p(x) 的负曲率区域，这意味着附近的样本平均具有较低的模型对数概率。总结所以，看到这里的读者，大家写论文，一定不要纯靠GPT，后面查重中加入这项，检查出是用GPT生成的，可能就会有问题。提前了解好要求才行。
1.4K10编辑于 2024-04-30
来自专栏用户2442861的专栏
Tesseract文字训练,以及样本生成
https://blog.csdn.net/haluoluo211/article/details/77776831 前面用做Tesseract做文字识别的时候，一般网上教程称使用jTessBoxEditor 训练（最终我试验发现对于中文的图片文字识别而言训练基本没什么卵用） ---- 当然使用jTessBoxEditor训练新的文字还是可以的，当时我发现jTessBoxEditor训练基本的配置文件基本是文字以及文字的坐标于是我使用 python脚本生成了对应的训练图片以及配置文件。先上个图： yahei_font2.box配置文件box的内容如下： ? 生成的配置文件如下： ? ? blank.show() # dict2txt(dic_word2coord) lst2txt(lst_word2coord) def lst2txt(lst):
1.3K10发布于 2018-09-19
来自专栏Lcry个人博客
在线生成文字 Banner 网站分享
在线生成各种文字banner。网站链接：点此直达直接填写文字，然后选择字体，选择比较好看的复制即可！预览图
8.7K10编辑于 2022-11-29
来自专栏码客
iOS 图片处理生成文字图片
randomColor()-> UIColor{ var color = ["#E1B154","#D2945B", "#E57257","#38B1A2" 0, y: 0, width: size.width, height: size.height)); let fontWidth = imageWidth/1.4/2; let y = (imageWidth - fontWidth*1.3)/2; //画字符串 let font = { let subStr:NSString = String(str.suffix(2)) as NSString; let x = (imageWidth }else if(str.count==1){ let x = (imageWidth - str.size(withAttributes: attrs).width)/2;
8.3K10发布于 2019-10-22
来自专栏Ryan Miao
banner自动生成工具，ascii文字展示
生成文字大部分工具只支持英文的库，中文的我还没发现。推荐使用在线库：http://www.network-science.de/ascii/ 比如这样： ? banner: charset: UTF-8 生成图片生成图片就是一个很强大的功能了。中文文字其实也可以通过截图的方式用图片来转成文字。推荐生成图片库： http://www.degraeve.com/img2txt.php 生成后： ?
6K60发布于 2018-03-13
coze工作流文字生成视频
学习完Dify后Dify使用deepseek尝试使用下coze，发现流程和交互几乎一模一样，不过coze的插件更丰富些，特别是多媒体插件，就尝试用coze做了一个一键文生视频的工作流程，生成的视频如下我们输入一个主题和描述，就能一键生成上面的视频，对于自媒体作者来说是不是很方便？下面详细介绍下流程，首先定义两个参数，主题和图片提示词然后接入大模型，我们选择豆包工具就行，接着填入系统提示词和用户提示词下一步进行文本处理，将刚刚生成的一段话，按照句号拆分成一个个短句接着我们加一个批处理，作为一个容器把刚刚扣出来的图放进去接下来使用文生音频，把每一个句子生成对应的音频获取音频时长有了文字、图片、音频，我们接着根据音频时长，生成对应长度的一个个短视频得到短视频后，我们还需要把短视频整合起来，合成一个长视频最后加入一个结束，把生成的长视频url打印出来这样，我们运行流水线，就能通过简单输入的提示词和主题，生成我们期望的短视频至此一个完整的自媒体流水线完成啦。
33410编辑于 2026-03-18
来自专栏我爱计算机视觉
医学生成模型MedSyn：文字引导，AI“画”出高保真CT图像
最先进的图像生成工具，如IMAGEN和隐空间扩散模型 (LDMs)这样的方法已经展示了基于文本提示的2D跨模态生成模型的潜力，但目前还没有已知的文本引导的医学成像体积图像生成技术。下图是一些文字生成肺部3D CT图像的结果： 02.摘要这篇文章介绍了一种创新的方法，通过文本信息引导来产生高质量的3D肺CT图像。我们首先根据文本合成低分辨率图像，作为后续完整体积数据生成器的基础。为了确保生成样本的解剖可能性，我们在CT图像中生成血管、气道和肺叶分割掩码来提供进一步的引导。本研究关注两个主要目标：(1)基于文本提示和解剖部分创建图像的方法的开发，(2)基于解剖元素生成新图像的能力。图像生成的进步可以应用于增强许多下游任务。实验对比如下： 04.解刨学结构条件生成在本节中， MedSyn展示了条件生成的应用。在这项研究中，我们的目标是在解剖结构可用时生成数据，例如我们可以模拟肺叶、气道或血管的结构。
1.3K10编辑于 2023-10-12
来自专栏AI
AI生成图片中的文字为何总是混乱？解决方案与研究方向
在AI生成图片领域，文字生成一直是技术难点之一。许多用户发现，AI生成的图片中的文字常常出现混乱、无法辨认的情况，这严重影响了AI生成图片的质量和实用性。一、问题背景AI生成图片中的文字混乱问题在多个主流AI模型中都有体现。以国内的豆包、智谱AI等模型为例，用户在生成图片时，即使输入明确的文字描述，生成的图片中文字也可能出现乱码或奇怪符号。这种现象不仅影响了用户体验，也暴露了当前AI生成技术在文字处理方面的不足。二、原因分析多模态生成的内在矛盾：视觉与语言模态之间的固有不一致性，导致模型在生成文字和图像时难以兼顾两者的一致性。例如，字节跳动与华东师范大学联合提出的TextHarmony模型，通过融合视觉文本的理解和生成能力，成功缓解了多模态生成中的模态不一致问题。2. 例如，要求生成一名女子在海湾大桥房间内写字的场景，GPT-4o不仅能准确描绘环境，还能保持图像中文字的清晰和连贯。2.
7.9K00编辑于 2025-03-29
来自专栏CreateAMind
文字描述生成视频的开源项目
文字condition 视频 Attentive Semantic Video Generation using Captions Tensorflow implementation for the paper right Example of Spatio Temporal Style Transfer Caption 1: digit 4 is moving up and down Caption 2: digit 4 is moving left and right Caption 1: digit 4 is moving up and down Caption 2: digit 9 is moving left and right Caption 1: digit 5 is moving left and right Caption 2: digit 9 is moving up and down Caption 1: person 10 is walking left to right Caption 2: person 10 is walking right to left
91120发布于 2018-07-24
来自专栏程序那些事儿
Runway Gen2：AI视频生成的未来
Runway Gen2 是一种由 Runway Research 开发的新的文本到视频生成器。它是第一款公开可用的文本到视频模型，能够“真实和一致”地合成新视频。使用方式 Gen2 提供了多种生成视频的方式，你可以直接通过文本描述来生成一段视频，当然，你也可以根据图片和文字的描述来生成视频，此外，你还可以通过对视频进行神奇描绘来生成视频。配合着类似 midjourney 等图片生成工具，你完全可以制作自己的动画视频。应用 Gen2 具有广泛的应用前景。它可用于：创意表达，创建新的艺术作品、视频游戏、电影等。例如，您可以使用 Gen2 创建一段视频宣传您的新产品或服务挑战 Gen2 仍在开发中，但它已经显示出巨大的潜力。随着模型的改进，Gen2 将能够生成更加逼真和逼真的视频。然而，Gen2 也面临一些挑战。例如，Gen2 生成的视频可能存在偏见或错误。此外，Gen2 可能被用于生成虚假或误导性的视频。结论 Runway Gen2 是一项具有重要潜力的技术。
1.1K10编辑于 2023-11-30
来自专栏csdn-nagiY
本地部署文字生成音乐AI工具MusicGPT并使用浏览器远程访问使用
前言今天和大家分享一下在Windows系统电脑上本地快速部署一个文字生成音乐的AI创作服务MusicGPT，并结合cpolar内网穿透工具实现随时随地远程访问使用进行AI音乐的创作与体验。 MusicGPT这款开源AI音乐生成器可以本地运行最新的音乐生成AI模型，比如Meta 的 MusicGen 模型。需要注意的是Windows系统部署为自动下载模型到电脑C盘，需要预留至少2个G以上的空间。稍等即可下载完毕：然后会自动打开浏览器访问 musicgpt 的Web UI页面： 2. 文字输入框左侧是生成时间选择功能，默认情况下，它会产生 10 秒的样本，最多可配置为 30 秒，且可以设定1秒到30秒内的任意时长。内网穿透工具下载安装此时，我们已经成功在本地的Windows系统电脑中部署了 MusicGPT 文字生成音乐AI工具，但仅能在本地局域网中使用，如果想在异地远程使用本地部署的MusicGPT 服务生成音乐应该怎么办呢
64810编辑于 2024-09-28
来自专栏机器之心
AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定
机器之心报道编辑：陈萍、小舟 AI会是未来的「造物者」吗？近来，视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本，现在一个新视觉合成模型 Nüwa（女娲）也火了。首先研究者将「女娲」在三个数据集上进行预训练：用于文本 - 图像 (T2I) 生成的 Conceptual Captions，包括 2.9M 文本 - 图像对；用于视频预测 (V2V) 的 Moments in Time，包括 727K 视频；用于文本 - 视频 (T2V) 生成的 VATEX 数据集，包括 241K 文本 - 视频对。图像补全 (I2I) 零样本评估：给定塔楼的上部，与 Taming Transformers 模型进行比较，「女娲」可以生成对塔楼下半部分更丰富的想象，包括生成周围建筑物、湖泊、花草、树木、山脉等。欢迎 AI 社区从业者们积极报名参与，同时我们也欢迎 NeurIPS 2021 论文作者们作为嘉宾参与论文分享与 Poster 展示。感兴趣的小伙伴点击「阅读原文」即可报名。
70920编辑于 2023-03-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

苹果发布 AI 生成模型 GAUDI，文字生成 3D 场景

PHP文字生成图片API

PHP文字生成图片API

告别文字！谷歌 Whisk 的“看图说话”式 AI 图像生成

图片文字识别(2)

智谱AI再放“大招”，30秒将任意文字生成视频

文字生成图片综述 - plus studio

stackGAN通过文字描述生成图片的V2项目

你用GPT生成的文字，AI工具能检测出来了！

Tesseract文字训练,以及样本生成

在线生成文字 Banner 网站分享

iOS 图片处理生成文字图片

banner自动生成工具，ascii文字展示

coze工作流文字生成视频

医学生成模型MedSyn：文字引导，AI“画”出高保真CT图像

AI生成图片中的文字为何总是混乱？解决方案与研究方向

文字描述生成视频的开源项目

Runway Gen2：AI视频生成的未来

本地部署文字生成音乐AI工具MusicGPT并使用浏览器远程访问使用

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

苹果发布 AI 生成模型 GAUDI，文字生成 3D 场景

PHP文字生成图片API

PHP文字生成图片API

告别文字！谷歌 Whisk 的“看图说话”式 AI 图像生成

图片文字识别(2)

智谱AI再放“大招”，30秒将任意文字生成视频

文字生成图片综述 - plus studio

stackGAN通过文字描述生成图片的V2项目

你用GPT生成的文字，AI工具能检测出来了！

Tesseract文字训练,以及样本生成

在线生成文字 Banner 网站分享

iOS 图片处理 生成文字图片

banner自动生成工具，ascii文字展示

coze工作流文字生成视频

医学生成模型MedSyn：文字引导，AI“画”出高保真CT图像

AI生成图片中的文字为何总是混乱？解决方案与研究方向

文字描述生成视频的开源项目

Runway Gen2：AI视频生成的未来

本地部署文字生成音乐AI工具MusicGPT并使用浏览器远程访问使用

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

iOS 图片处理生成文字图片