当多模态智能技术的光芒,照亮古籍中那些历经千年的文字印记,我们团队正式报名参与EvaHan 2026国际评测,投身于这场具有深远意义的古籍文字解码事业。

在古籍数字化的进程中,OCR技术是打通“图像-文本”壁垒的关键所在。古籍文本存在诸多特殊挑战,如印刷体中的异体字繁多、混合版式里图文交织复杂、手写本中笔势变化多样等,这些都是传统技术难以应对的难题,而多模态大模型的发展为解决这些问题带来了新的可能。
EvaHan系列评测已成功举办四届,2022年聚焦古汉语分词与词性标注(法国马赛),2023年专注古汉语机器翻译(中国澳门),2024年致力于古汉语自动句读与标点(意大利都灵),2025年则围绕古汉语命名实体识别展开(美国阿尔伯克基),一步步推动着古籍智能处理技术的发展。2026年的多模态OCR任务,首次系统评估大语言模型在真实古籍图像上的端到端识别与版面理解能力,是该领域的前沿课题,这正是我们选择参与的重要原因。
我们深知,人工录入一页典籍往往需要3小时,而高效的OCR系统能将效率提升百倍。希望通过参与此次评测,探索技术在古籍处理中的更多可能,为古籍保护与传承贡献力量。
EvaHan 2026设置了三大核心任务,基于其任务特点和官方提供的信息,我们关注到相应的技术方向:

关于参赛模式,我们正结合自身技术储备与资源情况进行全面评估,将在完成注册后确定具体参与方式。无论选择何种模式,我们都将严格遵守评测规则:若参与封闭模式,仅使用官方训练数据与指定预训练模型;若参与开放模式,则会在技术报告中完整披露所有外部资源。
从古籍修复的细致工作到实验室的技术研发,这场评测不仅是技术的比拼,更是一次跨领域的交流与合作。我们期待与全球参与团队分享经验、碰撞思想,无论是处理残损文字的技巧,还是版面分析的创新方法,都可能成为突破技术瓶颈的关键。
目前团队已完成注册信息填报,正等待2026年1月1日训练数据的发布。让千年典籍在数字时代“开口说话”,需要更多人的共同努力。
2026年5月,西班牙马略卡岛的LREC会场,我们争取带上精心准备的成果赴约,不为虚名,只为让更多珍贵古籍走出图书馆的恒温柜,在当代焕发新的生命力。