备战EvaHan 2026

翻身AI挖掘机

发布于 2026-06-22 15:32:05

860

深耕古籍多模态OCR，共探技术新边界

当多模态智能技术的光芒，照亮古籍中那些历经千年的文字印记，我们团队正式报名参与EvaHan 2026国际评测，投身于这场具有深远意义的古籍文字解码事业。

为何选择EvaHan 2026？

在古籍数字化的进程中，OCR技术是打通“图像-文本”壁垒的关键所在。古籍文本存在诸多特殊挑战，如印刷体中的异体字繁多、混合版式里图文交织复杂、手写本中笔势变化多样等，这些都是传统技术难以应对的难题，而多模态大模型的发展为解决这些问题带来了新的可能。

EvaHan系列评测已成功举办四届，2022年聚焦古汉语分词与词性标注（法国马赛），2023年专注古汉语机器翻译（中国澳门），2024年致力于古汉语自动句读与标点（意大利都灵），2025年则围绕古汉语命名实体识别展开（美国阿尔伯克基），一步步推动着古籍智能处理技术的发展。2026年的多模态OCR任务，首次系统评估大语言模型在真实古籍图像上的端到端识别与版面理解能力，是该领域的前沿课题，这正是我们选择参与的重要原因。

我们深知，人工录入一页典籍往往需要3小时，而高效的OCR系统能将效率提升百倍。希望通过参与此次评测，探索技术在古籍处理中的更多可能，为古籍保护与传承贡献力量。

针对三大任务的技术应对方向

EvaHan 2026设置了三大核心任务，基于其任务特点和官方提供的信息，我们关注到相应的技术方向：

印刷文本识别（数据集A）官方计划以Xunzi_Qwen2_VL_7B_Instruct模型为基底，融合《四库全书》异体字库进行定向微调，重点攻克避讳字、异体字的识别混淆问题。这为我们提供了重要的参考，我们将关注该方向的技术细节和实现方式。
混合版式解析（数据集B）官方拟研发基于空间注意力机制的版面分析模块，以区分插图、批注与正文的层级关系，模拟古籍学者的版式解读逻辑。我们将研究该机制在古籍混合版式处理中的应用原理。
手写文献转写（数据集C）官方探索将书法风格特征（如笔势走向、墨色浓淡）转化为文本识别的辅助信号，构建“视觉特征-文字形态”的映射桥梁。这一思路为手写古籍识别提供了新视角，值得我们深入研究。