主页文化精华文化传承

文化精华

科技守护传统文化 AI“找回”20万页古籍

A-

A+

AI 中国文化

刊登日期 : 2021-06-18

编辑︰闻华

　　五千年中华文明留下浩如烟海的古籍，近代社会动荡，有超过400万册珍贵古籍流散海外，令人遗憾。现代科技的发展，为这些失落的古籍提供了“回家”之路。中国科企与中美大学合作，花费两年多让AI（人工智能）学会辨识古籍文字，让失落海外的20万页古籍以“数码版”形式回归中国。经过培训，AI识别古籍的准确率高达97.5%，效率较人工录入提升30倍。

他们用两年教AI认识古籍文字

　　2019年，阿里巴巴达摩院（阿里巴巴全球研究院）、四川大学和美国加州大学柏克莱分校，联合启动了一个名为“汉典重光”的项目，计划搜索失落海外的中国典籍，用AI技术识别古籍，制成数码版本，放上网络平台，让所有人都能看到。

　　首批“数码化”的古籍共20万页、3万多字，来自加州大学柏克莱分校，该校东亚图书馆有90万册藏书，其中四成是中文书籍，包括宋朝、元朝时期的珍贵古籍善本。

当代中国-AI古籍-海外古籍数码化 — 清朝文澜阁版《四库全书》中的《宋百家诗存》，是首批用AI古籍技术製作的数码版古籍之一。（网上图片）

　　加州大学柏克莱分校提供藏书的影印版；四川大学的历史文化专家、达摩院的AI技术高手，共同开发识别系统，将影相转为文字。看起来不太难，但项目刚刚启动，就给了项目团队“当头一棒”。

　　由于中国古籍材质繁多，不少有破损，排版格式各异，且不同字体的差别很大，现有OCR（图像文字识别）对古籍的识别准确率只有40%，远不满足要求。

AI识别古籍准确率97% 效率高30倍

　　专家们只能像教小朋友认字那样，教AI辨识古籍文字，一教就是两年，终于开发出一个新的AI古籍识别系统，主要步骤包括：

　　首先对古籍影印版进行单字检测，将每一个字都变成一张图，总结归纳同一个字的不同字体和写法（聚类），经过专家校对，生成给AI学习的“课本（训练样本）”。

当代中国-AI古籍-海外古籍数码化 — 阿里巴巴达摩院和四川大学开发的AI古籍技术，主要通过聚类、生成单字、样本学习等过程，令AI能够辨识古籍文字。（网上图片）

　　经过几轮训练，AI识别准确率从40%提高到了97.5%，未来随着数据增加，准确率还能再提升。

　　此前将古籍数码化，全靠专家人工辨识、录入文字，100万字的书籍需要1,000天才能完成。有了AI识别系统的帮助，专家只需处理AI无法辨识的文字，大约占总字数的3.5%，100万字只需要花35天就能完成，工作效率提升30倍。

当代中国-AI古籍-海外古籍数码化 — 首批用AI技术识别的20万页数码版古籍，已上载“汉典重光”网络平台，民众可上网查阅、检索。（网上图片）

　　阿里巴巴达摩院、四川大学、美国加州大学柏克莱分校、中国国家图书馆、浙江图书馆，于2021年5月发布全新的“汉典重光”网络平台，将首批数码版古籍上载平台，向所有人开放。

　　这20万页古籍的“回归”只是开始，相信AI识别技术能帮助更多流失古籍，以“数码化”方式重返故土。

　　延伸阅读：全中国只有1000位的“古籍医生”

AI 中国文化

中国科技智慧生活

AI的尽头是算力？算力之争乃能源之争｜Token工厂之二

山东省淄博市博物馆收藏的竹节柄青铜汲酒器，利用大气压倒酒，充满黑科技，体验战国古人大智慧。

文化精华文博漫游

文物有料｜战国汲酒器“懂物理”？如何利用大气压倒酒？

乐活湾区飞凡香港

香港创科｜无人机新应用外墙清洗高空巡查

1:55

国宝级浮雕“复活” 真人版《帝后礼佛图》传承中国千年艺术文化

1:44

从街头小食到百亿产业 “年轻”螺蛳粉成非遗

中华千年医药文明中医针灸获逾百国家认可使用

传承5000年的庆阳香包从端午药袋到亿元产业

我要回应

观看所有回应

登入发表回应

登记成为新会员

国产AI 引领前沿科技

1:49

真正“易借易还”？AI VR打造智慧图书馆

1:56

中国首个AI“虚拟学生”华智冰入学清华大学

2:01

下棋按摩读甲骨文中国AI机器人样样精通

深圳车管所推行AI自助体检，助港人换领中国驾驶执照

AI自助体检有多方便？一文看清深圳免试更换内地驾驶执照

科技守护传统文化 AI“找回”20万页古籍

2:05

十四五创科篇｜AI 5G 大数据中国如何发展“数字经济”？

2026年5月18日适逢国际博物馆日，小学生到敦煌研究院兰州敦煌艺术馆参观，在一尊佛像展品前开心观摩。寒假时，研学学子在参观文物展。

文化精华文化传承

在石窟里上课敦煌研学旅行何以成“必修课”？｜文化新旅途

西安是最受游客欢迎的汉服旅拍城市，整个城市遍布文物遗址，为汉服旅拍提供天然的取景地，西安钟楼、大唐不夜城、大唐芙蓉园、大雁塔等热门景点，游客身穿不同形制的汉服正在旅拍。

文化精华文化传承

西安汉服旅拍：穿汉服“最不尴尬城市”如何炼成？｜文化新旅途

泡泡玛特人气IP角色Molly20周年特展上有一把订制的龙泉宝剑，剑首龙头有Molly的经典表情，剑身则刻满专属Molly的图案，剑鞘也刻有K，代表Molly的创作者Kenny Wong。

文化精华文化传承

潮玩IP遇上非遗匠心泡泡玛特Molly的“尚方宝剑”有何来头？

云南旅居近年成风潮，除了宜人气候、风景优美，多民族文化是吸引旅居者的主要原因之一。丽江古城花灯游、篝火晚会，大理白族扎染等各种非遗手作体验，深受游客和旅居者欢迎。

文化精华文化传承

云南旅居：滇式慢生活何以成550万人之选？｜文化新旅途

河南沉浸式演艺代表作“只有河南·戏剧幻城”热门打卡位

文化精华文化传承

河南沉浸式演艺：千年文脉如何演成“生意经”｜文化新旅途

每年春天，杭州法喜寺那棵500年古玉兰花开，还有永福寺绣球花，吸引许多游客前来参观，有年轻人穿上汉服到寺庙打卡并祈福。

文化精华文化传承

杭州寺庙游不止求神拜佛这么简单｜文化新旅途

文化精华文化传承

哪吒2｜来自博物馆的神秘原型

文化精华文化传承

哪吒2｜哪吒曾在澳门“显灵”？从传说到国家级非遗

1:51

文化精华文化传承

“太空舱”里挖文物？三星堆考古“黑科技”开创先河

文化精华文化传承

翻滚而不熄灭？神奇滚灯登上杭州亚运开幕式

1:39

文化精华文化传承

从日用品到工艺品「一壶一世界」的內画绝技

1:40

文化精华文化传承

从河泥到千古名砚澄泥砚工艺是怎样复活的？

文化精华文化传承

10万元一条？东莞中堂龙舟有甚么特別？

文化精华文化传承

从天书到表情包最古老甲骨文融入网络时代

文化精华文化传承

广东独有「软黄金」香云纱如何做好现代传承？

1:40

文化精华文化传承

雕出大千世界莆田木雕怎样打破世界纪录？

文化精华文化传承

世界最大水上庙会「溱潼会船」竟可带动200亿投资？

1:40

文化精华文化传承

「人间第一香」茉莉花茶源於这个独特工艺？

文化精华文化传承

江苏百年窨糕只有春天才能吃到？

1:40

文化精华文化传承

穿越3000年「活」在当下的古琴

文化精华文化传承

百年神秘仪式松花江「采冰」的真相是？

https://www.ourchinastory.com/cn/7762

复制连结

开启微信

WeChat