科技守護傳統文化 AI「找回」20萬頁古籍

編輯︰聞華

  五千年中華文明留下浩如煙海的古籍,近代社會動盪,有超過400萬冊珍貴古籍流散海外,令人遺憾。現代科技的發展,為這些失落的古籍提供了「回家」之路。中國科企與中美大學合作,花費兩年多讓AI(人工智能)學會辨識古籍文字,讓失落海外的20萬頁古籍以「數碼版」形式回歸中國。經過培訓,AI識別古籍的準確率高達97.5%,效率較人工錄入提升30倍。

他們用兩年教AI認識古籍文字

  2019年,阿里巴巴達摩院(阿里巴巴全球研究院)、四川大學和美國加州大學柏克萊分校,聯合啟動了一個名為「漢典重光」的項目,計劃搜尋失落海外的中國典籍,用AI技術識別古籍,製成數碼版本,放上網絡平台,讓所有人都能看到。

  首批「數碼化」的古籍共20萬頁、3萬多字,來自加州大學柏克萊分校,該校東亞圖書館有90萬冊藏書,其中四成是中文書籍,包括宋朝、元朝時期的珍貴古籍善本。

當代中國-AI古籍-海外古籍數碼化
清朝文瀾閣版《四庫全書》中的《宋百家詩存》,是首批用AI古籍技術製作的數碼版古籍之一。(網上圖片)

  加州大學柏克萊分校提供藏書的影印版;四川大學的歷史文化專家、達摩院的AI技術高手,共同開發識別系統,將影相轉為文字。看起來不太難,但項目剛剛啟動,就給了項目團隊「當頭一棒」。

  由於中國古籍材質繁多,不少有破損,排版格式各異,且不同字體的差別很大,現有OCR(圖像文字識別)對古籍的識別準確率只有40%,遠不滿足要求。

AI識別古籍準確率97% 效率高30倍

  專家們只能像教小朋友認字那樣,教AI辨識古籍文字,一教就是兩年,終於開發出一個新的AI古籍識別系統,主要步驟包括:

  首先對古籍影印版進行單字檢測,將每一個字都變成一張圖,總結歸納同一個字的不同字體和寫法(聚類),經過專家校對,生成給AI學習的「課本(訓練樣本)」。

當代中國-AI古籍-海外古籍數碼化
阿里巴巴達摩院和四川大學開發的AI古籍技術,主要通過聚類、生成單字、樣本學習等過程,令AI能夠辨識古籍文字。(網上圖片)

  經過幾輪訓練,AI識別準確率從40%提高到了97.5%,未來隨着數據增加,準確率還能再提升。

   此前將古籍數碼化,全靠專家人工辨識、錄入文字,100萬字的書籍需要1,000天才能完成。有了AI識別系統的幫助,專家只需處理AI無法辨識的文字,大約佔總字數的3.5%,100萬字只需要花35天就能完成,工作效率提升30倍。

當代中國-AI古籍-海外古籍數碼化
首批用AI技術識別的20萬頁數碼版古籍,已上載「漢典重光」網絡平台,民眾可上網查閱、檢索。(網上圖片)

  阿里巴巴達摩院、四川大學、美國加州大學柏克萊分校、中國國家圖書館、浙江圖書館,於2021年5月發布全新的「漢典重光」網絡平台,將首批數碼版古籍上載平台,向所有人開放。

  這20萬頁古籍的「回歸」只是開始,相信AI識別技術能幫助更多流失古籍,以「數碼化」方式重返故土。

  延伸閱讀:全中國只有1000位的「古籍醫生」

相關標籤

王羲之的「墨池」

    我們日常工作常常會遇到困難,如果抱着「將勤補拙」的心態,必定事半功倍。《禮記 · 中庸》就有「人一能之,己百之;人十能之,己千之。果能此道矣,雖愚必明,雖柔必強。」

  這句話就是說:別人做1次能做到的,我做100次去完成它;別人做10次便做到的,我做1,000次去完成它。如果真的能夠跟這個方法去做,即使天性愚笨的,也必定可以聰明起來;即使本質柔弱的,也必定可以剛強起來的。

  書法家王羲之,成名之前一直都好學不倦,甚至因為瘋狂寫書法,令到家中池塘變成一池墨水。

 ...

1:55

國寶級浮雕「復活」 真人版《帝后禮佛圖》傳承中國千年藝術文化

1:44

從街頭小食到百億產業 「年輕」螺螄粉成非遺

中華千年醫藥文明 中醫針灸獲逾百國家認可使用

傳承5000年的慶陽香包 從端午藥袋到億元產業

我要回應

(可輸入500字)

回應只代表會員個人觀點,不代表當代中國立場

相關每周主題

科技守護傳統文化 AI「找回」20萬頁古籍

1:51

「太空艙」裏挖文物?三星堆考古「黑科技」開創先河

1:19

角色外觀?節日活動?《王者榮耀》特殊方式傳承非遺文化

2:02

「復活」千年文明記憶 全中國只有1000人的古籍修復師

1:40
中國文化-唐宮夜宴

唐俑復活?《唐宮夜宴》再現盛唐時期中國文化

1:35

打機了解文化遺產?《江南百景圖》裏的「杭州三絕」

1:38

神獸出沒注意!光繪攝影重塑中國文化記憶

WeChat