科技守护传统文化 AI“找回”20万页古籍

编辑︰闻华

  五千年中华文明留下浩如烟海的古籍,近代社会动荡,有超过400万册珍贵古籍流散海外,令人遗憾。现代科技的发展,为这些失落的古籍提供了“回家”之路。中国科企与中美大学合作,花费两年多让AI(人工智能)学会辨识古籍文字,让失落海外的20万页古籍以“数码版”形式回归中国。经过培训,AI识别古籍的准确率高达97.5%,效率较人工录入提升30倍。

他们用两年教AI认识古籍文字

  2019年,阿里巴巴达摩院(阿里巴巴全球研究院)、四川大学和美国加州大学柏克莱分校,联合启动了一个名为“汉典重光”的项目,计划搜索失落海外的中国典籍,用AI技术识别古籍,制成数码版本,放上网络平台,让所有人都能看到。

  首批“数码化”的古籍共20万页、3万多字,来自加州大学柏克莱分校,该校东亚图书馆有90万册藏书,其中四成是中文书籍,包括宋朝、元朝时期的珍贵古籍善本。

当代中国-AI古籍-海外古籍数码化
清朝文澜阁版《四库全书》中的《宋百家诗存》,是首批用AI古籍技术製作的数码版古籍之一。(网上图片)

  加州大学柏克莱分校提供藏书的影印版;四川大学的历史文化专家、达摩院的AI技术高手,共同开发识别系统,将影相转为文字。看起来不太难,但项目刚刚启动,就给了项目团队“当头一棒”。

  由于中国古籍材质繁多,不少有破损,排版格式各异,且不同字体的差别很大,现有OCR(图像文字识别)对古籍的识别准确率只有40%,远不满足要求。

AI识别古籍准确率97% 效率高30倍

  专家们只能像教小朋友认字那样,教AI辨识古籍文字,一教就是两年,终于开发出一个新的AI古籍识别系统,主要步骤包括:

  首先对古籍影印版进行单字检测,将每一个字都变成一张图,总结归纳同一个字的不同字体和写法(聚类),经过专家校对,生成给AI学习的“课本(训练样本)”。

当代中国-AI古籍-海外古籍数码化
阿里巴巴达摩院和四川大学开发的AI古籍技术,主要通过聚类、生成单字、样本学习等过程,令AI能够辨识古籍文字。(网上图片)

  经过几轮训练,AI识别准确率从40%提高到了97.5%,未来随着数据增加,准确率还能再提升。

   此前将古籍数码化,全靠专家人工辨识、录入文字,100万字的书籍需要1,000天才能完成。有了AI识别系统的帮助,专家只需处理AI无法辨识的文字,大约占总字数的3.5%,100万字只需要花35天就能完成,工作效率提升30倍。

当代中国-AI古籍-海外古籍数码化
首批用AI技术识别的20万页数码版古籍,已上载“汉典重光”网络平台,民众可上网查阅、检索。(网上图片)

  阿里巴巴达摩院、四川大学、美国加州大学柏克莱分校、中国国家图书馆、浙江图书馆,于2021年5月发布全新的“汉典重光”网络平台,将首批数码版古籍上载平台,向所有人开放。

  这20万页古籍的“回归”只是开始,相信AI识别技术能帮助更多流失古籍,以“数码化”方式重返故土。

  延伸阅读:全中国只有1000位的“古籍医生”

相关标签

《甄嬛传》里的冰嬉舞 原来是中国古代“冬奥”比赛?

中秋习俗|最好玩的活动 猜灯谜源于朝堂进谏?

中华千年医药文明 中医针灸获逾百国家认可使用

2:02

“复活”千年文明记忆 全中国只有1000人的古籍修复师

我要回应

(可输入500字)

回应只代表会员个人观点,不代表当代中国立场

相关每周主题
1:49
智慧图书馆

真正“易借易还”?AI VR打造智慧图书馆

1:56
人工智能AI华智冰

中国首个AI“虚拟学生”华智冰 入学清华大学

2:01

下棋 按摩 读甲骨文 中国AI机器人样样精通

深圳车管所推行AI自助体检,助港人换领中国驾驶执照

AI自助体检有多方便?一文看清深圳免试更换内地驾驶执照

科技守护传统文化 AI“找回”20万页古籍

2:05
十四五 数字经济 5G 新基建

十四五创科篇|AI 5G 大数据 中国如何发展“数字经济”?

WeChat