当前栏目:首页> 学术园地
书报刊珍品
离家百年、去国万里,

20万页海外古籍
“回来了”

 

\
 

       宋刻本《後村居士集》、北宋《金粟山大藏经》写本、清文澜阁《四库全书》零本……离家百年、去国万里,它们“回来”了。5月18日,“汉典重光”海外古籍数字化回归发布会在中国科技馆举行。一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地汉典重光古籍平台。借助阿里达摩院的技术,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。据悉,达摩院AI对20万页古籍的识别准确率达到97.5%。

 

\

 

 

       “汉典重光”项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展,旨在寻觅流散海外的中国古籍并将其数字化、公共化,让普通人也能亲近古籍,通过古籍与先贤对话,与优秀传统文化对话。

 

\

 

       因邦交、贸易、战乱等,历史上中国古籍时有出海,近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

 

       2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。

 

\

 

       加州大学伯克利分校是美国的汉学研究重镇,中文藏书量排名全美第三。首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。

 

\

文澜阁版《宋百家诗存》(卷七)

 

       伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。古汉语常用字仅有几千,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。

 

       技术人员介绍,达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。

 

\

原藏于伯克利大学东亚图书馆的苏轼著《苏文忠公文集》

 

       该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。

 

       “守护中华传世典籍,是科技工作者和文化工作者共同的使命。”阿里巴巴达摩院院长张建锋透露,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营。

 

       与古籍打了一辈子交道的陈力说,典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护和传承,让更多普通人有机会接触古籍、使用古籍,让所有蒙尘的古籍重焕新生,让书写在古籍里的文字活起来。

 

\

 

来源:汉典重光 · 古籍数字化平台


(如本站发布的文章涉及版权等知识产权问题,请致电010-6303 6548或136 8150 6222,我们将尽快删除,坚决维护您的合法权益。)

copyright © 中国收藏家协会 协会网站:京ICP备09066346号 京公网安备110108006117号

制作单位:中国收藏家协会书报刊分会