首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏心源易码

    古籍版面分析新SOTA:HisDoc-DETR如何助力AI赋能古籍数字化难题

    历史文献作为文明传承的重要载体,其数字化保护与深度利用一直面临巨大挑战。纸张老化、排版复杂、字迹模糊乃至残缺破损等现象,严重制约了大规模、高精度古籍数字化进程。 它为历史文献的数字化、研究和文化传承提供了工具。3.1 文化遗产保护与数字化归档全球范围内,大量历史文献因年代久远、保存条件不佳而面临损毁风险。数字化是保护这些文化遗产的关键。 提升归档效率:相较于人工标注和整理,HisDoc-DETR 能够大幅提升数字化归档效率,使海量古籍数字化成为可能。 在文化遗产保护与数字化归档方面,HisDoc-DETR 可以应用到国家图书馆、博物馆等文化机构中,快速处理馆藏古籍数字化图像,自动生成带有版面结构信息的元数据,丰富数字资源的内涵,确保历史信息的完整性和可检索性 辅助校勘与断代:精确的版面信息可为古籍的校勘工作提供辅助,例如识别不同版本之间的版式差异。版式特征也可作为古籍断代研究的重要线索。

    51120编辑于 2025-09-26
  • 来自专栏技术汇总专栏

    面向古籍版面数字化识别应用研究—基于HisDoc-DETR模型深入剖析

    一、研究背景古籍承载着丰富的历史、文化与思想价值,但其数字化与智能化利用始终面临难题。传统的古籍版面复杂多变,存在稀疏文字、跨栏结构、插图混排等特征,这些都给自动化版面分析带来极大挑战。 在 HisDoc-DETR 中,研究者将预测框与真实框的 GIoU 值映射到 0,10,1 区间,记作g。然后,分类分支不再单纯预测“属于某类的概率”,而是要输出一个接近 g 的值。 3.2 古籍数字化与知识库建设高精度的版面解析是古籍 OCR(文字识别)和语义理解的前提。 凭借对跨页、跨栏及混排等复杂版式的适应能力,HisDoc-DETR 能够满足古籍数字化的系统化管理需求,确保古籍信息的完整性与可利用性,为数字化古籍资源建设提供强有力的技术保障。 未来,类似的方法有望进一步拓展到多语种、跨时代文献的数字化处理,推动古籍保护与利用进入智能化新时代。

    1.2K30编辑于 2025-11-03
  • 《大模型赋能文化遗产数字化古籍修复与知识挖掘的技术实践》

    在文化遗产数字化领域,大模型的核心应用难点在于如何处理古籍中大量的异体字、残缺文本与模糊语义,尤其是面对明清时期的手写残卷,传统的文字识别技术不仅准确率低下,更无法理解古籍中蕴含的历史语境与专业术语。 我在参与某博物馆古籍数字化项目时,首先遭遇的便是大模型对古籍文字的“识别盲区”—初期使用通用大模型识别一本明代医学残卷,发现其将“癥瘕”误判为“症痕”,把“炮制”错解为“泡制”,更无法关联“君臣佐使”等中医方剂配伍逻辑 系统的“多模态数据融合”能力,是提升古籍数字化体验的重要方向。 古籍数字化不仅包含文字内容,还涉及古籍的版式设计、插图、印章、纸张材质等多模态信息,例如一本元代画册型古籍,除了文字题跋,还有大量山水画作与收藏印章,这些信息对研究古籍的流传脉络与艺术价值至关重要。 为降低部署门槛,我开展“模型轻量化优化”工作:首先,对大模型进行模型蒸馏,基于原始大模型训练一个轻量级模型,保留核心的古籍处理能力,同时将模型体积从10GB压缩至1.5GB,推理速度提升3倍;其次,采用

    55500编辑于 2025-10-10
  • 来自专栏机器之心

    用AI让经典重新跳动,这个平台开放了3000万古籍字符

    而且,「识典古籍」项目负责人对媒体解释说,「识典古籍」不只是一个数字化平台,还是一个针对古籍保护的完整项目,包括古籍修复、数字化、活化三大方向。 古籍保护、传承面临的困境 「史在他邦,文归海外」 今年 10 月 3 日,中国人物画史上最杰出的画作之一——《女史箴图》绢本在大英博物馆迎来一年一度的开放展出季。 在这种情况下,古籍数字化回归是一种更为实际的解决方案。 修复难,数字化也难 我国古籍数量众多,但真正能在网上查阅的数量却很少。造成这种现象的原因是多方面的。 可见,古籍数字化需要一场生产效率的变革。 人工智能让古籍焕发新生 近几年,国内科技企业正越来越多地参与到古籍数字化工作中来。 比如在 2021 年,阿里巴巴的「汉典重光」平台帮助一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,首批 20 万页古籍已完成数字化,并沉淀为覆盖 3 万多字的古籍字典。

    1.3K20编辑于 2022-12-15
  • 来自专栏JavaPark

    好物周刊#45:系统激活工具

    RAR、RPM、SquashFS、UDF、UEFI、VDI、VHD、VMDK、WIM、XAR 以及 Z 与 ZIP 及 GZIP 格式相比,7-Zip 能提供比使用 PKZip 及 WinZip 高 2-10% 云萌 [6] Windows 10+ 激活工具,一键免费终身激活,享受正版相同服务,每次重装自动激活,更换硬件支持 Microsoft 账户迁移激活。 汉典重光 [9] 汉典重光古籍数字化平台,收录海外回归古籍,基于达摩院文字识别技术进行数字化古籍识别,方便古籍爱好者查阅使用。 四、插件 1. oscnews[10] 查看开源中国软件更新资讯,内置文档导航,GitHub 趋势榜,Linux 命令索引,浏览历史记录和时钟页面。 2.

    65010编辑于 2024-02-23
  • 封神!PaddleOCR-VL-1.5实测:0.9B参数,碾压级文档解析能力

    0.9B轻量,性能拉满 :参数仅为同类模型的1/10,却在OmniDocBench v1.5拿到94.5%的高精度,超越Gemini-3-Pro、DeepSeek-OCR2等主流模型,本地部署也能流畅运行 案例5:模糊杂志/古籍识别 场景痛点 :泛黄古籍、模糊杂志排版,字迹模糊、纸张有污渍,传统OCR识别错别字极多,生僻字无法识别,古籍数字化难度大。 实测截图 (左:模糊古籍原图 右:识别结果+生僻字标注): 实测结论 :针对模糊场景做了专项优化,模糊字体识别错别字率远低于同类模型,生僻字、异体字识别准确率90%以上,可直接用于古籍数字化、旧杂志整理 这也是它能轻松应对手写笔记、模糊古籍、歪折文档的关键,相当于给模型加了“自适应高清镜头”。 2. ✅ 企业用户(财务/政务/编辑):轻量高效,全场景适配,歪折文档、印章表格、古籍等场景均可落地,大幅降低人工成本,支持规模化部署。

    1.8K10编辑于 2026-02-04
  • 本文详解孔夫子旧书网古籍数据接口的实战调用,涵盖认证签名、古籍检索、商铺集成与特色数据处理四大场景,提供可复用的Python代码及避坑指南,助力学术研究、旧书商

    孔夫子旧书网作为国内核心的旧书交易与古籍数据平台,其开放接口承载着古籍、善本、旧书等特色商品的元数据获取功能 —— 不同于普通电商接口,其数据结构包含 “年代”“品相”“版本” 等古籍专属字段,且对调用频率与签名合规性要求严格 本文从实战角度拆解接口调用全流程,覆盖认证签名、古籍检索、商铺集成、特色数据处理四大核心场景,提供可直接复用的 Python 代码与避坑指南,助力古籍数字化、学术研究、旧书商管理等业务快速落地。 获取单本图书的详细元数据(含版本、页数、描述)古籍详情展示、数字化存档商铺检索/v2/shops/search按地域、主营类目检索旧书商铺商铺合作筛选、多店比价商铺详情/v2/shops/detail获取商铺信息 (学术研究对品相要求较高) "minPrice": 100, "maxPrice": 5000, "page": 1, "pageSize": 10 2.扩展方向:◦古籍数字化存档:结合get_book_detail接口获取的description和images,构建古籍数字档案库;◦价格趋势分析:基于缓存的历史价格数据,分析古籍(如清代刻本)的价格波动规律

    45810编辑于 2025-09-23
  • 来自专栏TEL18600524535

    藏文识别技术:为藏文信息的数字化处理开辟了新的道路

    随着科技的飞速发展,藏文识别技术应运而生,为藏文信息的数字化处理开辟了新的道路。 印刷与古籍难题: 古籍藏文常使用特殊字体、存在磨损模糊;现代印刷品质量参差不齐,背景干扰多。长元音符号识别: 元音符号位置灵活(上、下、环绕),准确识别其与基字的对应关系是关键。 古籍数字化支持: 专门技术致力于识别老化、模糊的藏文古籍文献。 赋能现实:藏文识别的广阔天地藏文识别技术正深刻融入多个领域:文献典籍数字化: 加速海量藏文古籍、经书、历史档案的电子化进程,建立可检索的数据库,保护濒危文化遗产。

    57100编辑于 2025-08-06
  • 来自专栏AI应用低代码开发实践

    AI MaaS智能修复系统:古籍修复工具的“智能内核”——国内某低代码平台落地的完整技术实践

    古籍数字化智能修复的核心,不是“搭个界面”,而是获取高质量、低成本的AI能力。 AI聚合型MaaS平台是“智能内核”——聚合27+供应商的422+模型,通过统一API、实时性能评测、智能路由调度,提供“即插即用”的古籍修复能力;某低代码平台是承载能力的“交互载体”。 登录后进入工作台,点击右上角“+ 新建应用”,命名为“古籍修复工具”,选择“对话应用”(选择合适版本以满足场景核心需求); 3. 粘贴内容:修复古籍“□”字符,需结合上下文+朝代常识(年号、官职、地名),仅补全不新增,存疑标“存疑”,输出“修复文本+1句历史依据”; 3. 拖拽组件: - 文本输入框(基础组件):标签“残缺古籍文本”,提示“请粘贴含□文本(例:天□三年)”,多行输入; - 按钮(基础组件):文本“开始修复”,绑定“调用自定义API”→“GLM-4.6(古籍修复专用

    18300编辑于 2025-12-31
  • Power BI 文史应用:古籍竹简卷轴可视化

    度量值中的font-family可以使用中文字体的英文名称(需注意字体是否免费)。按钮背景上传竹简照片,完工。

    8410编辑于 2026-03-20
  • 来自专栏HyperAI超神经

    龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译

    By 超神经 内容提要:来自最强科研寺庙龙泉寺的贤超法师,近年来一直在研究人工智能与文献古籍的融合,目前,他已带领的《大藏经》团队实现 AI 自动标点、文白翻译、古籍文字识别等技术实践。 今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。 基于深度学习的 OCR,识别古籍文字 目前市面上的 OCR 软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。 基于弱监督学习的精确文字分割 最终,其开发的 OCR 方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。 ? OCR 软件识别古文将其数字化 贤超法师还在其公众号「贤超小和尚」(微信号:xianchaofashi)中,分享了更多项目实践和学佛感悟,感兴趣的朋友可以关注。

    2K100发布于 2021-01-25
  • 来自专栏编程教程

    Python实现PDF图片OCR识别:从原理到实战的全流程解析

    其核心优势在于:离线运行能力高度可定制的配置参数(如--psm页面分割模式)活跃的开源社区支持典型应用场景:政府公文、古籍数字化等对数据隐私敏感的场景。 cv2.THRESH_BINARY + cv2.THRESH_OTSU) # 去噪处理 denoised = cv2.fastNlMeansDenoising(binary, h=10 Table'] results = [] for block in table_blocks: # 提取表格区域 table_img = block.pad(10 extracted_data[field] = line[1][0].replace(keywords[0], '').strip() return extracted_data4.2 古籍数字化保护 随着AI技术的持续演进,OCR正在从单纯的文字识别向智能文档理解(IDU)阶段跨越,为企业数字化转型提供强大动力。​

    2.2K10编辑于 2025-09-17
  • 当OCR遇见大语言模型:智能文本处理的进化之路

    引言:当视觉识别遇到语言理解在数字化浪潮中,我们每天都会遇到这样的场景:用手机拍摄文件自动转换文字、扫描古籍进行电子化存档、从商品包装提取成分信息...这些看似简单的操作背后,是OCR(光学字符识别)技术数十年发展的结晶 3.4 语义增强检索python# 古籍数字化应用ocr_text = "孟子见梁惠王。王曰:'叟!不远千里而来... 从古籍数字化到工业文档处理,从医疗报告分析到教育自动化,这种技术融合正在打开通向智能认知的新纪元。

    1.2K11编辑于 2025-02-19
  • 来自专栏数据饕餮

    数字化转型】10数字化转型能力成熟度模型01(IOMM)

    一、前言        数字化转型是数据化能力建设的目标和价值,作为一个新兴的课题,目前为止并未出现一个统一的数字化转型成熟度模型。 这些标准具有很强的参考意义,作者收集和整理了相关的标准和规范,整理成集合,命名为《10数字化转型能力成熟度模型》作为参考。 本文是《10数字化转型能力成熟度模型》第一篇,由中国信通院推出的《企业IT数字化能力和运营效果成熟度模型(IOMM)》。 参考资料: 数字化转型经典案例:2020年国企100例 数字化转型指数2020DTI 二、整体架构 2.1 体系结构 信通院《企业IT数字化能力和运营效果成熟度模型(IOMM)》把企业数字化转型按照分层架构的模式 宏观上具有指导价值 2.微观上粒度不够,无法指导企业实践 3.标准制定者缺乏一线实战的经验 四、未完待续 本文是《10数字化转型能力成熟度模型》第一篇,由中国信通院推出的《企业IT数字化能力和运营效果成熟度模型

    4.5K10编辑于 2023-12-01
  • 来自专栏FreeBuf

    全球常用数字化执法手段 TOP 10 | FreeBuf 盘点

    文丨小王斯基 编丨zhuo 计算机技术飞速发展,催生众多经济赛道,彻底改变了民众生活方式,通信交流、购物等更加便利,“数字化”和“智能化”成为不可逆的社会潮流。 随着网络犯罪威胁日益严峻,执法者也开始利用数字化技术强化执法措施,持续打击猖獗的网络安全犯罪团伙。接下来,本文盘点在和网络犯罪分子斗智斗勇中,全球常用的数字化执法措施 TOP 10。 道高一尺魔高一丈 乘着全球数字化转型的“东风”,许多规模大、实力强、组织严密的网络犯罪分子团伙不断“冒出”,网络犯罪活动急速增多,对网络环境造成巨大威胁,执法者和网络犯罪分子之间的较量,俨然成为网络江湖中最激烈的斗争

    93120编辑于 2023-05-19
  • 来自专栏DevOps持续交付

    DevOps 帮助数字化转型的10个最佳实践

    DevOps 帮助数字化转型的10个最佳实践 从模式识别到新财源的发现,DevOps 在数字化转型过程中总是重要的角色。事实上,专家们总是说必不可少。 如果没有基础设施自动化和精心挑选的团队,数字化转型的步伐将停滞不前。” 哪一种方式能够帮助你所在的企业在数字化转型的目标上取得更大的成就? ? 需要注意的是自动化本身并不是 DevOps 和数字化转型的神药。自动化必须由人编写,并由过程和文化支撑。没有 CI/CD/SRE 的自动化,数字化改造更加困难而且竞争优势也有限。” Devops 增强数字化转型的一种强有力方式是打破壁垒。成功的数字化转型主动要求整个组织采取行动,但更常见的是传统商业做法,例如年度周期计划或者缓慢的流程体系。 “DevOps 推动数字化转型的最大方法之一是打破组织孤岛。” ?

    95930发布于 2019-11-29
  • 来自专栏TEL18600524535

    一种基于深度学习算法的维吾尔文OCR技术,支持高精度识别、多场景适配、跨平台应用

    维吾尔文OCR技术是一种基于人工智能和深度学习技术的维吾尔文光学字符识别工具,能够快速、准确地将印刷体或手写体维吾尔文转换为可编辑、可搜索的数字化文本。 古籍识别:针对老维吾尔文(如察合台文)优化,结合超分辨率技术提升清晰度。3. 跨平台支持提供Windows、Android、iOS、Web端、国产化平台应用,支持API接口集成。 教育领域:教材数字化、试卷自动批改。新闻出版:报纸、书籍的快速录入与电子化。金融法律:身份证、合同等文档的自动化处理。文化遗产保护:察合台文古籍数字化存档。

    45510编辑于 2025-06-24
  • 来自专栏通用文字识别信息技术白皮书

    合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

    近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。 在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。 为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。 研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。近年来,国家正不断推进文化数字化战略。 2022年,国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出了“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。

    40510编辑于 2023-09-26
  • 来自专栏音视频咖

    当小龙虾学会视频处理:腾讯云媒体处理 tencent-mps Skill 正式上线 OpenClaw

    它愣住了,试着又叫了一声,确认自己真的拥有了说话的能力,与此同时,一股陌生的、带着古老气息的味道,从古籍书架后方飘了过来,吸引着它的注意力,当天上午,图书馆开门后,墨团悄悄绕到古籍书架后方,发现书架与墙壁之间竟有一道细小的缝隙 ,缝隙中不断透出金色的微光,还夹杂着模糊的古代读书声和车马声,凑近了,还能感受到一股微弱的吸力,墨团瞬间明白,这是一道时空裂缝,它正想再仔细观察,背着书包的初二学生苏晓走进了图书馆,径直走向三楼的古籍区 ,管理员陈老师曾提到过一本名叫《星时记》的千年古籍,就藏在这个古籍书架上,只是一直找不到踪影,苏晓猜测,时空裂缝的出现,或许和这本古籍有关,于是两人便在古籍书架上仔细寻找起来,随着时间一点点过去,裂缝的光芒越来越亮 《星时记》,又看了看书架后方的裂缝,终于说出了隐藏已久的秘密,原来,陈老师的家族世代守护着《星时记》和图书馆的时空秘密,这本古籍是先祖流传下来的,用来稳定周边的时空秩序,前段时间整理古籍时,他不小心触碰了古籍的能量开关 腾讯云音视频为全真互联时代,提供坚实的数字化助力。

    47610编辑于 2026-03-27
  • 孔夫子旧书网 API 实战:古籍与二手书数据获取及接口调用方案

    (可选) condition:品相等级(1-10 级,10 为全新,可选) price_min/price_max:价格区间(可选) publisher:出版社(可选) sort :排序方式(price_asc/price_desc/time_desc/credit_desc) page:页码(默认 1) limit:每页条数(1-20,默认 10) rare: raw_data.get("limit", 10) } # 解析图书列表 books = [] for item 古籍数据特色处理 专门解析古籍特有的版本、刻印年代、装帧等信息 区分古籍与普通二手书的数据结构 提取钤印信息等古籍收藏关键维度3. 搜索策略优化 古籍搜索建议结合年代和版本筛选,提高精准度 批量获取数据时,合理设置max_pages参数,避免触发限制 对稀缺古籍建立缓存机制,缓存周期建议 7-30 天4.

    62010编辑于 2025-08-26
领券