首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏心源易码

    古籍版面分析新SOTA:HisDoc-DETR如何助力AI赋能古籍数字化难题

    历史文献作为文明传承的重要载体,其数字化保护与深度利用一直面临巨大挑战。纸张老化、排版复杂、字迹模糊乃至残缺破损等现象,严重制约了大规模、高精度古籍数字化进程。 它为历史文献的数字化、研究和文化传承提供了工具。3.1 文化遗产保护与数字化归档全球范围内,大量历史文献因年代久远、保存条件不佳而面临损毁风险。数字化是保护这些文化遗产的关键。 提升归档效率:相较于人工标注和整理,HisDoc-DETR 能够大幅提升数字化归档效率,使海量古籍数字化成为可能。 在文化遗产保护与数字化归档方面,HisDoc-DETR 可以应用到国家图书馆、博物馆等文化机构中,快速处理馆藏古籍数字化图像,自动生成带有版面结构信息的元数据,丰富数字资源的内涵,确保历史信息的完整性和可检索性 辅助校勘与断代:精确的版面信息可为古籍的校勘工作提供辅助,例如识别不同版本之间的版式差异。版式特征也可作为古籍断代研究的重要线索。

    51120编辑于 2025-09-26
  • 来自专栏技术汇总专栏

    面向古籍版面数字化识别应用研究—基于HisDoc-DETR模型深入剖析

    一、研究背景古籍承载着丰富的历史、文化与思想价值,但其数字化与智能化利用始终面临难题。传统的古籍版面复杂多变,存在稀疏文字、跨栏结构、插图混排等特征,这些都给自动化版面分析带来极大挑战。 三、应用场景与价值HisDoc-DETR 的研究突破不仅在算法层面带来了创新,更为古籍数字化保护、利用和传播提供了全新的技术支撑。 3.2 古籍数字化与知识库建设高精度的版面解析是古籍 OCR(文字识别)和语义理解的前提。 凭借对跨页、跨栏及混排等复杂版式的适应能力,HisDoc-DETR 能够满足古籍数字化的系统化管理需求,确保古籍信息的完整性与可利用性,为数字化古籍资源建设提供强有力的技术保障。 未来,类似的方法有望进一步拓展到多语种、跨时代文献的数字化处理,推动古籍保护与利用进入智能化新时代。

    1.2K30编辑于 2025-11-03
  • 《大模型赋能文化遗产数字化古籍修复与知识挖掘的技术实践》

    在文化遗产数字化领域,大模型的核心应用难点在于如何处理古籍中大量的异体字、残缺文本与模糊语义,尤其是面对明清时期的手写残卷,传统的文字识别技术不仅准确率低下,更无法理解古籍中蕴含的历史语境与专业术语。 我在参与某博物馆古籍数字化项目时,首先遭遇的便是大模型对古籍文字的“识别盲区”—初期使用通用大模型识别一本明代医学残卷,发现其将“癥瘕”误判为“症痕”,把“炮制”错解为“泡制”,更无法关联“君臣佐使”等中医方剂配伍逻辑 系统的“多模态数据融合”能力,是提升古籍数字化体验的重要方向。 古籍数字化不仅包含文字内容,还涉及古籍的版式设计、插图、印章、纸张材质等多模态信息,例如一本元代画册型古籍,除了文字题跋,还有大量山水画作与收藏印章,这些信息对研究古籍的流传脉络与艺术价值至关重要。 这一实践让我认识到,古籍数字化不是“文字的简单电子化”,而是“多模态信息的全面整合与深度关联”,大模型的多模态能力为文化遗产的立体呈现提供了全新可能。

    55500编辑于 2025-10-10
  • 来自专栏机器之心

    用AI让经典重新跳动,这个平台开放了3000万古籍字符

    而且,「识典古籍」项目负责人对媒体解释说,「识典古籍」不只是一个数字化平台,还是一个针对古籍保护的完整项目,包括古籍修复、数字化、活化三大方向。 在这种情况下,古籍数字化回归是一种更为实际的解决方案。 修复难,数字化也难 我国古籍数量众多,但真正能在网上查阅的数量却很少。造成这种现象的原因是多方面的。 可见,古籍数字化需要一场生产效率的变革。 人工智能让古籍焕发新生 近几年,国内科技企业正越来越多地参与到古籍数字化工作中来。 比如在 2021 年,阿里巴巴的「汉典重光」平台帮助一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,首批 20 万页古籍已完成数字化,并沉淀为覆盖 3 万多字的古籍字典。 图源:http://www.xuehuile.com/blog/b6894345d9d446c7b80149c265afc264.html 自动标点 自动标点技术是通过序列标注的方式自动为古籍添加标点。

    1.3K20编辑于 2022-12-15
  • 来自专栏JavaPark

    好物周刊#45:系统激活工具

    二、软件 1. 7-Zip[4] 一款开源免费软件。大多数源代码都基于 GNU LGPL 许可协议下发布。部分代码基于 BSD 3 句条款(BSD 3-clause)许可协议发布。 主要具有以下特性: 使用了 LZMA 与 LZMA2 算法的 7z 格式 拥有极高的压缩比 支持格式: 压缩 / 解压缩:7z、XZ、BZIP2、GZIP、TAR、ZIP 以及 WIM 仅解压缩:AR、 Zip 能提供比使用 PKZip 及 WinZip 高 2-10% 的压缩比 为 7z 与 ZIP 提供更完善的 AES-256 加密算法 7z 格式支持创建自释放压缩包 Windows 资源管理器集成 三、网站 1. 53 报刊 [7] 全国报刊大全和国内报刊大全,在线看报系统,在线读报,报纸在线阅读系统,无论国内和国外。 2. 汉典重光 [9] 汉典重光古籍数字化平台,收录海外回归古籍,基于达摩院文字识别技术进行数字化古籍识别,方便古籍爱好者查阅使用。

    65010编辑于 2024-02-23
  • 本文详解孔夫子旧书网古籍数据接口的实战调用,涵盖认证签名、古籍检索、商铺集成与特色数据处理四大场景,提供可复用的Python代码及避坑指南,助力学术研究、旧书商

    本文从实战角度拆解接口调用全流程,覆盖认证签名、古籍检索、商铺集成、特色数据处理四大核心场景,提供可直接复用的 Python 代码与避坑指南,助力古籍数字化、学术研究、旧书商管理等业务快速落地。 获取单本图书的详细元数据(含版本、页数、描述)古籍详情展示、数字化存档商铺检索/v2/shops/search按地域、主营类目检索旧书商铺商铺合作筛选、多店比价商铺详情/v2/shops/detail获取商铺信息 condition_map = { 1: "全新", 2: "九五品", 3: "九品", 4: "八五品", 5: "八品", 6: "七品", 7: ") # 7. 2.扩展方向:◦古籍数字化存档:结合get_book_detail接口获取的description和images,构建古籍数字档案库;◦价格趋势分析:基于缓存的历史价格数据,分析古籍(如清代刻本)的价格波动规律

    45810编辑于 2025-09-23
  • 来自专栏低代码(low code)专栏

    企业数字化转型的7个难点

    近年来,以移动互联网、云计算、大数据、人工智能等为代表的新一代数字化技术正在改变人们的生产和生活方式,重塑许多行业,新技术一边催生了新的商业模式,一边也对企业的经营提出了挑战,也因此“数字化转型”这个词渐渐成了许多企业的战略优先级 但大多数企业的数字化转型并不是一帆风顺的,以下总结了企业在数字化转型过程中经常会遇到的7个难点:01战略与执行拉通不到位有战略,也有执行,但是战略和执行之间没有拉通,或者拉通不到位,最典型的问题是,当你和执行团队聊组织战略和目标时 究其原因,数字化转型无论对于企业还是提供数字化服务的合作伙伴,都没有标准答案,选择合适的合作伙伴和选择转型的道路一样重要且充满挑战。 04 数字化变革和组织变革的协调经常有数字化转型的决策者问,企业在做数字化变革的时候,组织结构是否需要调整,因为企业的外部压力促使转型以经济利益为目标,但要实现目标,转型需要对企业内部提出流程、组织和文化协同的要求 此外,企业领导层需要充分善用外力,深入生态体系,更快速地学习数字化领域知识,借鉴成熟的行业 know-how,避免盲目,同时借助像织信(企业级低代码平台)这样专业的数字化工具的指导,减少试错成本,加速数字化转型的进程

    38910编辑于 2025-05-30
  • 来自专栏运维之路

    数字化转型杂谈7:“数字化业务”之“数据业务化”

    其他数字化杂谈系列其他文章: 数字化杂谈1 数字化杂谈2 数字化杂谈3 数字化杂谈4 数字化杂谈5 数字化杂谈6 评价一个企业的数字化业务价值,需要评估企业数据资产的价值变现能力。 数字业务化将表现三个特征:一是数据成为产品服务最重要的特征;二是产品价值越来越多的体现在数字化产生的附加值;产品的使用和交付方式在数字化方式下将发生颠覆性变革。 4)运营管理:利用线上运营数据,建立数字化的运营管理支撑体系 通过业务运营线上化围绕业务价值链,打通流程孤岛与业务断点,建立从业务开始到结束的完整的流程,下一步借助运营线上化数据运营分析,建立数字化的运营管理支撑体系 三是建立持续运营的能力,利用全数字化的工作空间,员工工作与协同在线化,形成数字化的工作镜像,为管理岗位提供团队成员的工作任务、行程安排等数据,让管理岗位能够更好的知道团队工作效率、分工协作情况、持续提升员工工作 7)业务开放平台:突破边界,打造平台生态 平台战略对金融企业的影响正在逐步显现,金融企业与生俱来的中介属性决定了其自身就是一个平台,具备生态发展的先天优势。

    3.5K30编辑于 2022-03-07
  • 封神!PaddleOCR-VL-1.5实测:0.9B参数,碾压级文档解析能力

    ,性能拉满 :参数仅为同类模型的1/10,却在OmniDocBench v1.5拿到94.5%的高精度,超越Gemini-3-Pro、DeepSeek-OCR2等主流模型,本地部署也能流畅运行[3][7] 案例5:模糊杂志/古籍识别 场景痛点 :泛黄古籍、模糊杂志排版,字迹模糊、纸张有污渍,传统OCR识别错别字极多,生僻字无法识别,古籍数字化难度大。 实测截图 (左:模糊古籍原图 右:识别结果+生僻字标注): 实测结论 :针对模糊场景做了专项优化,模糊字体识别错别字率远低于同类模型,生僻字、异体字识别准确率90%以上,可直接用于古籍数字化、旧杂志整理 这也是它能轻松应对手写笔记、模糊古籍、歪折文档的关键,相当于给模型加了“自适应高清镜头”。 2. ✅ 企业用户(财务/政务/编辑):轻量高效,全场景适配,歪折文档、印章表格、古籍等场景均可落地,大幅降低人工成本,支持规模化部署。

    1.8K10编辑于 2026-02-04
  • 来自专栏TEL18600524535

    藏文识别技术:为藏文信息的数字化处理开辟了新的道路

    随着科技的飞速发展,藏文识别技术应运而生,为藏文信息的数字化处理开辟了新的道路。 印刷与古籍难题: 古籍藏文常使用特殊字体、存在磨损模糊;现代印刷品质量参差不齐,背景干扰多。长元音符号识别: 元音符号位置灵活(上、下、环绕),准确识别其与基字的对应关系是关键。 古籍数字化支持: 专门技术致力于识别老化、模糊的藏文古籍文献。 赋能现实:藏文识别的广阔天地藏文识别技术正深刻融入多个领域:文献典籍数字化: 加速海量藏文古籍、经书、历史档案的电子化进程,建立可检索的数据库,保护濒危文化遗产。

    57100编辑于 2025-08-06
  • 来自专栏通用文字识别信息技术白皮书

    合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

    在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。 在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。 为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。 研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。近年来,国家正不断推进文化数字化战略。 2022年,国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出了“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。

    40510编辑于 2023-09-26
  • 来自专栏AI应用低代码开发实践

    AI MaaS智能修复系统:古籍修复工具的“智能内核”——国内某低代码平台落地的完整技术实践

    古籍数字化智能修复的核心,不是“搭个界面”,而是获取高质量、低成本的AI能力。 AI聚合型MaaS平台是“智能内核”——聚合27+供应商的422+模型,通过统一API、实时性能评测、智能路由调度,提供“即插即用”的古籍修复能力;某低代码平台是承载能力的“交互载体”。 登录后进入工作台,点击右上角“+ 新建应用”,命名为“古籍修复工具”,选择“对话应用”(选择合适版本以满足场景核心需求); 3. 粘贴内容:修复古籍“□”字符,需结合上下文+朝代常识(年号、官职、地名),仅补全不新增,存疑标“存疑”,输出“修复文本+1句历史依据”; 3. 拖拽组件: - 文本输入框(基础组件):标签“残缺古籍文本”,提示“请粘贴含□文本(例:天□三年)”,多行输入; - 按钮(基础组件):文本“开始修复”,绑定“调用自定义API”→“GLM-4.6(古籍修复专用

    18300编辑于 2025-12-31
  • Power BI 文史应用:古籍竹简卷轴可视化

    度量值中的font-family可以使用中文字体的英文名称(需注意字体是否免费)。按钮背景上传竹简照片,完工。

    8410编辑于 2026-03-20
  • 来自专栏HyperAI超神经

    龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译

    By 超神经 内容提要:来自最强科研寺庙龙泉寺的贤超法师,近年来一直在研究人工智能与文献古籍的融合,目前,他已带领的《大藏经》团队实现 AI 自动标点、文白翻译、古籍文字识别等技术实践。 今后的古籍点校工作模式有希望改为:AI 先断句、加标点;专业学者进行后期校对、修改。 基于深度学习的 OCR,识别古籍文字 目前市面上的 OCR 软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。 基于弱监督学习的精确文字分割 最终,其开发的 OCR 方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。 ? OCR 软件识别古文将其数字化 贤超法师还在其公众号「贤超小和尚」(微信号:xianchaofashi)中,分享了更多项目实践和学佛感悟,感兴趣的朋友可以关注。

    2K100发布于 2021-01-25
  • 当OCR遇见大语言模型:智能文本处理的进化之路

    引言:当视觉识别遇到语言理解在数字化浪潮中,我们每天都会遇到这样的场景:用手机拍摄文件自动转换文字、扫描古籍进行电子化存档、从商品包装提取成分信息...这些看似简单的操作背后,是OCR(光学字符识别)技术数十年发展的结晶 3.4 语义增强检索python# 古籍数字化应用ocr_text = "孟子见梁惠王。王曰:'叟!不远千里而来... 从古籍数字化到工业文档处理,从医疗报告分析到教育自动化,这种技术融合正在打开通向智能认知的新纪元。

    1.2K11编辑于 2025-02-19
  • 来自专栏TEL18600524535

    一种基于深度学习算法的维吾尔文OCR技术,支持高精度识别、多场景适配、跨平台应用

    维吾尔文OCR技术是一种基于人工智能和深度学习技术的维吾尔文光学字符识别工具,能够快速、准确地将印刷体或手写体维吾尔文转换为可编辑、可搜索的数字化文本。 古籍识别:针对老维吾尔文(如察合台文)优化,结合超分辨率技术提升清晰度。3. 跨平台支持提供Windows、Android、iOS、Web端、国产化平台应用,支持API接口集成。 教育领域:教材数字化、试卷自动批改。新闻出版:报纸、书籍的快速录入与电子化。金融法律:身份证、合同等文档的自动化处理。文化遗产保护:察合台文古籍数字化存档。

    45510编辑于 2025-06-24
  • 来自专栏CloudBest

    2022年影响数字化转型的7大趋势

    该研究指出,2022年及以后,商业领域将加速数字化转型,并将出现七个关键趋势。 2022年影响数字转型的前7大趋势是: 趋势1:未来的工作将建立在互联、混合的体验之上。 随着数字化需求对组织的压力越来越大,业务技术人员将成为IT部门加速创新的重要合作伙伴。 趋势4:超自动化(智能化)解锁数字价值。超自动化将解锁生产力,加快上市时间,并改变员工和客户体验。 趋势7:单一真实来源成为数据驱动业务的关键。随着数字化继续推动数据量的增加,企业将寻求单一真实来源,消费者可以在正确的时间在正确的环境中获得正确的数据。 以下是2022年及以后影响数字转型的7大趋势的主要收获: 基于互联网、混合体验的未来工作 著名研究机构Gartner估计,仅协作平台的使用就激增了44%。

    72920发布于 2021-11-18
  • 好物周刊#149:同事.skill

    字数 1210,阅读大约需 7 分钟 星标关注不迷路,第一时间获取最新文章! 句方便 [7] 专业的公众号排版工具,50 + 精美主题,一键排版配图,支持 Markdown 编辑,让公众号文章更美观。 2. 古籍文献知识图谱网 [9] 一个专业级的古典文学研究数字化平台,适合文学研究者、历史学者、古籍爱好者进行学术研究和数据挖掘。 [5] MoePeek: https://github.com/cosZone/MoePeek [6] FreeCut: https://github.com/walterlow/freecut [7] 句方便: https://seneasy.cloud [8] 开发者武器库: https://devtool.tech [9] 古籍文献知识图谱网: https://cnkgraph.com [10]

    6110编辑于 2026-04-17
  • 来自专栏音视频咖

    当小龙虾学会视频处理:腾讯云媒体处理 tencent-mps Skill 正式上线 OpenClaw

    它愣住了,试着又叫了一声,确认自己真的拥有了说话的能力,与此同时,一股陌生的、带着古老气息的味道,从古籍书架后方飘了过来,吸引着它的注意力,当天上午,图书馆开门后,墨团悄悄绕到古籍书架后方,发现书架与墙壁之间竟有一道细小的缝隙 ,缝隙中不断透出金色的微光,还夹杂着模糊的古代读书声和车马声,凑近了,还能感受到一股微弱的吸力,墨团瞬间明白,这是一道时空裂缝,它正想再仔细观察,背着书包的初二学生苏晓走进了图书馆,径直走向三楼的古籍区 ,管理员陈老师曾提到过一本名叫《星时记》的千年古籍,就藏在这个古籍书架上,只是一直找不到踪影,苏晓猜测,时空裂缝的出现,或许和这本古籍有关,于是两人便在古籍书架上仔细寻找起来,随着时间一点点过去,裂缝的光芒越来越亮 《星时记》,又看了看书架后方的裂缝,终于说出了隐藏已久的秘密,原来,陈老师的家族世代守护着《星时记》和图书馆的时空秘密,这本古籍是先祖流传下来的,用来稳定周边的时空秩序,前段时间整理古籍时,他不小心触碰了古籍的能量开关 腾讯云音视频为全真互联时代,提供坚实的数字化助力。

    47610编辑于 2026-03-27
  • 来自专栏AIGC 先锋科技

    ​从 ChatGPT 到 Sora | 生成式人工智能如何改变数字人文研究和服务 ?

    文章首先概述了古籍资源的重要性及数字化保护的必要性,随后详细介绍了ChatGPT等大规模语言模型的开发及其在文献管理、内容理解、跨文化研究等方面的应用。 古籍的研究与保护对于中华文化的传承、文化自信的提升以及传统文化的宝藏挖掘具有重大意义。然而,由于年代和保存条件的限制,古籍保护面临着许多困难。古籍的物质损害是不可避免的,且难以保护古籍的原貌和原创性。 近年来,深度神经网络、自然语言处理技术和大规模语言模型的进步,使得古籍资源的数字化和智能化处理表现出色,具有广阔的应用前景。 7月,代码解释器Code Interpreter发布。9月,文本图形模型DALL-E 3发布,微软开始整合基于GPT-4的Copilot功能。 3.2 Content Understanding and Knowledge Production of Ancient Literature 古代书籍的完整保护与数字人文研究应包括古籍的原生保护与数字化

    80310编辑于 2024-07-08
领券