刊登日期 : 2021-06-18
五千年中华文明留下浩如烟海的古籍,近代社会动荡,有超过400万册珍贵古籍流散海外,令人遗憾。现代科技的发展,为这些失落的古籍提供了“回家”之路。中国科企与中美大学合作,花费两年多让AI(人工智能)学会辨识古籍文字,让失落海外的20万页古籍以“数码版”形式回归中国。经过培训,AI识别古籍的准确率高达97.5%,效率较人工录入提升30倍。
他们用两年教AI认识古籍文字
2019年,阿里巴巴达摩院(阿里巴巴全球研究院)、四川大学和美国加州大学柏克莱分校,联合启动了一个名为“汉典重光”的项目,计划搜索失落海外的中国典籍,用AI技术识别古籍,制成数码版本,放上网络平台,让所有人都能看到。
首批“数码化”的古籍共20万页、3万多字,来自加州大学柏克莱分校,该校东亚图书馆有90万册藏书,其中四成是中文书籍,包括宋朝、元朝时期的珍贵古籍善本。

加州大学柏克莱分校提供藏书的影印版;四川大学的历史文化专家、达摩院的AI技术高手,共同开发识别系统,将影相转为文字。看起来不太难,但项目刚刚启动,就给了项目团队“当头一棒”。
由于中国古籍材质繁多,不少有破损,排版格式各异,且不同字体的差别很大,现有OCR(图像文字识别)对古籍的识别准确率只有40%,远不满足要求。
AI识别古籍准确率97% 效率高30倍
专家们只能像教小朋友认字那样,教AI辨识古籍文字,一教就是两年,终于开发出一个新的AI古籍识别系统,主要步骤包括:
首先对古籍影印版进行单字检测,将每一个字都变成一张图,总结归纳同一个字的不同字体和写法(聚类),经过专家校对,生成给AI学习的“课本(训练样本)”。

经过几轮训练,AI识别准确率从40%提高到了97.5%,未来随着数据增加,准确率还能再提升。
此前将古籍数码化,全靠专家人工辨识、录入文字,100万字的书籍需要1,000天才能完成。有了AI识别系统的帮助,专家只需处理AI无法辨识的文字,大约占总字数的3.5%,100万字只需要花35天就能完成,工作效率提升30倍。

阿里巴巴达摩院、四川大学、美国加州大学柏克莱分校、中国国家图书馆、浙江图书馆,于2021年5月发布全新的“汉典重光”网络平台,将首批数码版古籍上载平台,向所有人开放。
这20万页古籍的“回归”只是开始,相信AI识别技术能帮助更多流失古籍,以“数码化”方式重返故土。
延伸阅读:全中国只有1000位的“古籍医生”