首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Node开发

    图片文字识别(2)

    上篇文章主要对百度AI文字识别接口最基础的通用文字以及手写文字图片进行了接入识别,本篇文章我们来接着看几个实用性比较强的文字识别接口。百度AI接口对接挺容易的,签名加密都没有涉及到。 2.如果图片需要进行保存,可以前端将图片转化为binary格式,后端先将图 片上传到服务器或者直接传到对象存储oss,然后获得图片路径,使用现 在的方法加载缓冲数据,进行BASE64编码最后调用接口解析图片文字信息 但是我这里就不准备一一介绍了,有兴趣可以自行查看百度AI文字识别文档: https://ai.baidu.com/docs#/OCR-API/87932804 其实业务开发过程如果适当的引入人脸识别,文字识别等 AI接口确实可以很大程度提升用户的体验,更大程度的留住潜在的客户。 而且百度AI还提供了一系列需要申请权限的接口,很大成都方便了我们的开发,我们不必去追究底层是如何识别图片中的文字的,就可以快速接入API识别我们需要的功能。

    54.4K30发布于 2019-07-01
  • 来自专栏浴巾的学习分享贴

    item2更改主体文字颜色

    由于远程连接的Linux服务器配置好oh-my-zsh之后,本地的现实也会改变,但是更改主体文字颜色等操作比较繁琐,因此通过更改本地终端,此处是item2,来更改本地的主体文字颜色,更简单 打开设置中的颜色设置 此处foreground(前景)即为主体文字颜色,默认为白色 更改为与右侧表中ansi color的bright green一致

    1.9K10编辑于 2023-12-09
  • AI处理文字、图片、PPT、音频、视频

    下面根据不同创作与工作场景,梳理了一些具有代表性的工具及其特点,供大家参考:类型大模型名称核心特点语音交互豆包语气声音自然好听,语音聊天体验佳,适合日常语音闲聊、语音问答文字处理DeepSeek文字处理能力突出 Suno文字生成歌曲效果好,支持自定义曲风、歌词、 vocals;生成速度快,免费版有次数限制,部分高级音效需付费视频创作百度度加文字转视频效率高,绑定百家号可流量倾斜;内置热搜榜单,适配百度系平台分发 2.DeepSeek推理成本低,多款模型开源,支持商用与二次开发;中文能力强,垂直领域适配性好。3.元宝技术问题查询精准,对腾讯系开发支持度高,适配技术文档解读、架构问题排查。 10.Suno文字生成歌曲效果好,支持自定义曲风、歌词、 vocals;生成速度快,免费版有次数限制,部分高级音效需付费。 11.百度度加文字转视频效率高,绑定百家号可流量倾斜;内置热搜榜单,适配百度系平台分发,适合资讯类内容快速创作。

    71410编辑于 2026-01-12
  • 来自专栏Web前端

    AI助手实现故障艺术文字效果

    有个需求,需要为网页添加一个具有故障艺术效果的文字展示,以吸引用户的注意力。我决定借助AI的力量来实现这个需求。 以下是最终呈现效果与实际操作中的开发界面(文末附完整代码):与AI的初次对话:明确需求打开了与AI的对话窗口,向AI描述了需求:“我需要在网页上实现一个故障艺术风格的文字效果,文字显示为‘GLITCH 深入CSS:实现故障效果样式有了基本的HTML结构,接着询问AI如何使用CSS来实现故障艺术的文字效果。 '; }); // 初始启动 updateGlitch();});AI解释说,这段代码通过监听鼠标和触摸事件,在用户与文字交互时动态调整故障效果的参数,实现了更加丰富的交互体验 总结与思考通过与AI的交流和合作,成功地实现了故障艺术风格的文字效果。在这个过程中,深刻体会到了AI在技术开发中的巨大作用。

    40110编辑于 2025-05-27
  • 来自专栏大数据文摘

    文字生万物,AI极简史

    BERT 用了 3300M 的文字来做预训练,这些文字来自书本和维基百科,质量较高,即使对人来说可能要看上几年时间,对机器来讲,仍算克制。 OpenAI 在 2019 年推出了 GPT-2,一个更大版本的 GPT-1,反响平平,在 2020 年推出了 GPT-3,一个更大版本的 GPT-2,终于大力出奇迹,激起千层浪。 2021 年 OpenAI 发表的 CLIP 模型学会了图片和其文字描述的对应关系,启发了很多后续应用,包括 AI 画画。 2022年中,OpenAI 放出了它神乎其技的 AI 画家,DALL-E 2,但只进行了小规模内测。 仅过了一个多月,Midjourney、Stable Diffusion 和 DALL-E 2AI 画画工具接连向公众开放,人们终于意识到,AI 能画画,而且画得超乎想象的好。设计师会失业么?

    49630编辑于 2023-04-10
  • HarmonyOS NEXT AI基础视觉服务-文字识别

    案例描述这是一个基于AI基础视觉服务实现的文字识别案例,通过调用设备相机拍摄照片后识别图片中的文字内容。实现步骤:1. kit.CoreFileKit';import image from '@ohos.multimedia.image';import { textRecognition } from '@kit.CoreVisionKit';2. this.openCamera()) Text(this.text) .fontSize(20) .margin(10) } .padding(20) }}2. cameraPicker.PickerMediaType.PHOTO], { cameraPosition: camera.CameraPosition.CAMERA_POSITION_BACK }) // 步骤2: 检查OCR能力可用性// 使用canIUse接口检测设备是否支持文字识别能力 if (canIUse('SystemCapability.AI.OCR.TextRecognition')) {

    37900编辑于 2025-03-30
  • 来自专栏我在本科期间写的文章

    永夜星河主题特效2(星河背景 + 闪烁文字+点击星星 + 文字弹出特效)

    图片展示 星河背景 + 闪烁文字+点击星星 + 文字弹出特效 <! font-family: 'Arial', sans-serif; position: relative; /* background: url('yyxhbk2. 动态文字彩蛋: 点击后随机显示一句温暖的“彩蛋文字”,比如“你是我心中的星河女主角!”、“星星为你闪烁!”等。 文字位置根据鼠标点击动态生成,显示后自动消失。 视觉效果: 页面背景使用渐变模拟夜空,标题文字带有“光晕”效果。 特效简单又有趣,文字内容可以根据对方喜好自定义,增强专属感。 自定义文字内容: 修改 getRandomText 函数中的文字内容,加入你想说的专属话语。 增强趣味性: 可以加入背景音乐(如《永夜星河》的主题曲)。 添加剧中角色图片作为背景装饰。

    67010编辑于 2024-11-17
  • 来自专栏iot-me

    u8g2使用sendbuffer文字底部显示不全,只能显示半行文字

    如图只能显示一行文字,而且这行文字底部也是缺少的 代码是这样的 U8G2_SSD1306_128X64_NONAME_1_HW_I2C u8g2(U8G2_R0, /* reset=*/ U8X8_PIN_NONE ); //U8G2_SSD1306_128X64_NONAME_1_SW_I2C u8g2(U8G2_R0, /* clock=*/ SCL, /* data=*/ SDA, /* reset=*/ U8X8 SSD1306_128X64_NONAME_1_HW_I2C u8g2 buffer介绍 将这里的1改成F就可以显示全部了 U8G2_SSD1306_128X64_NONAME_F_HW_I2C u8g2(U8G2_R0, /* reset=*/ U8X8_PIN_NONE); 结果 修改后 U8G2_SSD1306_128X64_NONAME_F_HW_I2C u8g2(U8G2_R0, / * reset=*/ U8X8_PIN_NONE); //U8G2_SSD1306_128X64_NONAME_F_SW_I2C u8g2(U8G2_R0, /* clock=*/ SCL, /* data

    2.1K10编辑于 2023-04-22
  • 来自专栏计算机视觉理论及其实现

    opencv+python 添加文字 cv2.putText

    import cv2img = cv2.imread('caijian.jpg')font = cv2.FONT_HERSHEY_SIMPLEXimgzi = cv2.putText(img, '000 ', (50, 300), font, 1.2, (255, 255, 255), 2)无论是cv2.imshow('',img)cv2.waitKey()cv2.destroyAllWindows() 或是cv2.imshow('',imgzi)cv2.waitKey()cv2.destroyAllWindows()结果看到的图都是带有文字的说明:进行putText操作之后,读取原图像也是具有文字显示的但是原图的文件并没有被改变图 ,文字内容, 坐标 ,字体,大小,颜色,字体厚度 cv2.imshow('origin',img) # 显示原始图像cv2.waitKey()cv2.imshow(' putText',imgzi) # 显示添加文字操作的图像cv2.waitKey()cv2.imshow('backup',img2) # 显示原图像的备份cv2.waitKey()cv2.destroyAllWindows

    5.8K30编辑于 2022-09-03
  • 来自专栏dino.c的专栏

    用Win2D实现镂空文字

    前言 之前用PointLight做了一个番茄钟,效果还不错,具体可见这篇文章: [UWP]使用PointLight并实现动画效果 后来试玩了Win2D,这次就用Win2D实现文字的镂空效果,配合PointLight 实现镂空文字的核心思想是使用CanvasGeometry.CreateText从TextLayout获取一个Geometry,然后使用DrawGeometry将它画到DrawingSurface。 2. 参考例子 Win2D Gallery提供了大量Win2D的Sample,这次就参考了其中的文字镂空效果例子,地址和运行效果如下: https://github.com/microsoft/Win2D-Samples 实现步骤 Sample的代码量虽多,其实核心并不复杂,下面讲讲需要用到的API: 3.1 CanvasDevice.GetSharedDevice 因为要用到Win2D,所以首先要引用Win2D.uwp

    81420发布于 2019-11-27
  • 来自专栏sktj

    bootstrap 排版 图片+文字类文章 常用样式 2

    image.png image.png

    <h2>多媒体对象</h2>

    多媒体对象可以设置头部、居中、底部对齐,对应的类分别是 "media-top

    ---- image.png 内嵌的多媒体对象
    <h2>内嵌多媒体对象</h2> < style="width:45px">

    RUNOOB-2

    1.7K40发布于 2019-07-05
  • 来自专栏自留地2

    PHP+百度AI OCR文字识别实现了图片的文字识别功能

    第一步可定要获取百度的三个东西 要到百度AI网站( 然后获得  -const APP_ID = '请填写你的appid'; -const API_KEY = '请填写你的API_KEY'; -const

    6.7K30发布于 2021-07-13
  • 来自专栏用户10004205的专栏

    Unity 接入百度AI - OCR文字识别

    首先登陆百度开发者中心,搜索文字识别服务: 创建一个应用,获取AppID、APIKey、SecretKey秘钥信息: 下载C# SDK,将AipSdk.dll动态库导入Unity: 本文以通用文字识别为例 ,查阅官方文档,以下是通用文字识别的返回数据结构: 在Unity中定义相应的数据结构: using System; ///

    /// 通用文字识别 /// [ Serializable] public class GeneralOcr { /// /// 图像方向 -1未定义 0正弦 1逆时针90度 2逆时针180度 3逆时针 private const string apiKey = ""; private const string secretKey = ""; /// /// 通用文字识别

    82340编辑于 2022-08-29
  • 来自专栏python3

    python调用百度AI提取图片文字

    python本身也有识别图片转文字的框架,但是相比调用接口,识别的精度就略显不行了; 这是 百度AI 的网站: https://ai.baidu.com/ ; 点击右上角的 控制台 ,申请或者登陆; 进去之后左侧有 【文字识别】: ? 点击【创建应用】,创建接口; 之后会得到创建的三个连接密钥: AppID API Key Secret Key 这三个参数会在后面调用的时候会用到; 同样,在页面也可以找到文字识别的技术文档:  https ://ai.baidu.com/docs#/OCR-API/top 里面有调用的例子,基本复制、粘贴,直接调用就能用; 所使用的python包也只需安装 baidu-aip 即可; 我是用 pycharm ; 其实最后可以直接    print(restu1)    但是输出的是  字典、列表,在此我将结果遍历了一下,从图片中识别的文字会一行一行显示,剩下的操作看你咋搞了,存入数据也行,生成表格也行;

    7.4K30发布于 2020-01-13
  • 来自专栏计算机视觉战队

    AI都可以将文字轻松转成图像

    我不自觉地为这个新技术点赞,为我们科研人员鼓掌,感谢在AI一线的你们! ---- Image Generation from Scene Graphs 通过这个题目就能知道今天的主旨。 ---- 模型 在讲模型之前,先给大家说下生成对抗网络(GAN)的概念: GAN框架,最少(但不限于)拥有2个组成部分,一个是生成模型G,一个是判别模型D。 这些向量被传入到Object Layout Network[2]中用于预测对象的bounding boxes和Segmentation masks,将向量的边界框和掩膜结合就能得到对象的布局,将所有对象布局结合就能形成 级联微调网络由一系列的卷积细化模块构成,每个模块之间是2倍空间分辨率的关系,这就允许以一种由粗到精的方式去生成图片。每个模块接收根据模块输入的分辨率下采样后的场景布局和前一个模块的输出。

    3.7K30发布于 2018-10-23
  • 来自专栏AIGC-AI飞行家

    AI绘画创意文字全流程揭秘,你的终极文字艺术实操宝典

    本教程收集于:AIGC从入门到精通教程汇总 AIGC技术不断更新迭代,国内出现了越来越多的新玩法,比如最近大家都在热议的AI绘画创意文字。 主流的创意文字玩法主要分为四类:光影文字嵌入文字隐藏文字海报文字每种类型的文字制作流程大致都是这四步制作文字底图选取大模型写关键词(Prompt)ControlNet参数设置核心:文生图+文字底图(ControlNet 下面直奔主题:通用部分实操制作文字底图美图秀秀,PS都可以,我这里使用的是不专业的美图秀秀海报文字、嵌入文字用白底黑字隐藏文字、光影文字用黑底白字打开美图秀秀=》图片美化=》制作壁纸=》选择背景颜色=》 Weight):设置在0.35~0.55之间引导终止时机(Ending Control Step):0.7~1,越接近 1 字越清晰没有固定的参数,不同的字需要分别调整,只能自己多试试1.5 最终效果:2. AI绘画创意文字资料包:AI绘画创意文字全流程揭秘,你的终极文字艺术实操宝典

    1.8K70编辑于 2023-07-19
  • 来自专栏计算机视觉战队

    AI都可以将文字轻松转成图像

    我不自觉地为这个新技术点赞,为我们科研人员鼓掌,感谢在AI一线的你们! ---- Image Generation from Scene Graphs 通过这个题目就能知道今天的主旨。 ---- 模型 在讲模型之前,先给大家说下生成对抗网络(GAN)的概念: GAN框架,最少(但不限于)拥有2个组成部分,一个是生成模型G,一个是判别模型D。 这些向量被传入到Object Layout Network[2]中用于预测对象的bounding boxes和Segmentation masks,将向量的边界框和掩膜结合就能得到对象的布局,将所有对象布局结合就能形成 级联微调网络由一系列的卷积细化模块构成,每个模块之间是2倍空间分辨率的关系,这就允许以一种由粗到精的方式去生成图片。每个模块接收根据模块输入的分辨率下采样后的场景布局和前一个模块的输出。

    1.3K20发布于 2018-07-25
  • 来自专栏大大的小数据

    腾讯ai人工智能OCR文字识别2020.12.18

    2、快速入门https://cloud.tencent.com/document/product/866/17622 3、通过 API 3.0 Explorer 进行在线调用文字识别服务 API 。 utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-3&spm=1001.2101.3001.4242 9、【python】【文字识别 】利用腾讯云调用通用图片文字识别接口,识别图片中的文字 10、直接测试例子 11、安装库pip install tencentcloud-sdk-python,安装pip install jsonpath coding: utf-8 -*- """ Created on Fri Dec 18 15:31:13 2020 @author: Administrator """ #以下代码是将【本地图片】进行文字识别

    3.7K30编辑于 2022-09-22
  • 多模态AI崛起:当AI能同时看懂文字、图片和视频

    它应该像人一样,能同时处理多种信息——文字、图片、声音、视频,把它们融合在一起理解。这就是多模态AI正在做的事。一、从单科状元到全能学霸此前的AI,大多是"单科状元"。 多模态AI要做的,就是把这些"单科状元"整合成一个"全能学霸"。它既能读文字,又能看图片,还能听声音,更重要的是,它能把所有这些信息融会贯通。举个例子。 二、多模态是怎么实现的技术上,多模态AI的核心是"对齐"——让模型理解,文字里的"猫"和图片里的猫是同一个东西,视频里的跳跃和文字里的"跳"是同一个动作。怎么实现这种对齐?主要有几种思路。 你给它一段文字描述,它能画出对应的图像。你给它一张静态照片,它能想象出照片之前和之后发生了什么,生成一段短视频。但多模态AI也有明显的短板。它对"常识"的理解还很肤浅。 你会发现,AI正在从一个只会聊天的文字脑,变成一个能看、能听、能理解的感知脑。而多模态的崛起,正是这场进化的关键一步。

    21210编辑于 2026-03-03
  • 来自专栏小狐狸说事

    7b2美化-页眉菜单上方添加文字

    7b2美化-页眉菜单上方添加文字 ---- 内容可以自定义 以下代码放入你的菜单名称后面 小狐狸资源网 以下代码放入你的 css样式 .b2small.vip-tips { color: #bf7648; background: #f9e1be; background: linear-gradient

    74130编辑于 2022-11-17
  • 领券