当前位置: 首页 » 行业资讯 » 机器人»以识别西夏文为例,聊聊人工智能如何帮我们认识历史
   

以识别西夏文为例,聊聊人工智能如何帮我们认识历史

 46.1K
     [点击复制]
放大字体  缩小字体 发布日期:2017-10-27   浏览次数:979
核心提示:  曾记得有一次聊天,有个同伙描写他对人工智能的印象,总结成三个词:东方的、贸易的、将来的。  我立即表现你说的很好,独一的成绩是一条都没说对  按下我们俩怎样睁开斗殴暂且不提。这里愿望废除的是年夜家

  曾记得有一次聊天,有个同伙描写他对人工智能的印象,总结成三个词:东方的、贸易的、将来的。

  我立即表现你说的很好,独一的成绩是一条都没说对……

  按下我们俩怎样睁开斗殴暂且不提。这里愿望废除的是年夜家对人工智能的某种固有印象。现实上,人工智能作为一种很早就成长起来的通用技巧,毫不是东方的专利,也毫不仅仅可以或许发明贸易价值。

  乃至在某些机缘偶合下,人工智能可以或许成为我们用以熟悉汗青、熟悉本身平易近族、熟悉先人与曩昔的利器。

  梁启超说“学术乃世界之公器”,不只是说学术世界人共有,同时也是说学术世界共致。作为一种基本对象的人工智能,常常可以或许在乎想不到处所产生功效。好比说明天为年夜家引见的借助人工智能技巧,主动辨认西夏文——一个纯洁中国的人文社科范畴。

以识别西夏文为例,聊聊人工智能如何帮我们认识历史

  (美感独特的西夏文)

  固然这项技巧年夜多半人永久不会涉足,但这个案例的价值在于可以打破我们对AI的某些成见。AI不只是集中在那几个范畴,也不是欧美寡头的玩具,它乃至能够无处不在。

  为何要辨认西夏文?个中隐含着哪些艰苦?

  我们晓得,西夏是与北宋、辽、金前后对立的党项族国度,已经统治河西地域跨越二百年。与年夜众认知中分歧,西夏不是个茹毛饮血的蛮横文明。他们已经创建过惊人的文明、艺术与宗教文明,但跟着1227年蒙古灭西夏,蒙元不为西夏立史,关于这个政权的记载疾速灭亡,李元昊立国时创建的西夏文也随之湮灭。

  西夏文别名河西字、番文、唐古特文,曾在西夏王朝总揽的今宁夏、甘肃、陕东南部、内蒙古南部地域风行了约两个世纪。但在西夏灭国后,这类参考汉字创建的独特文字逐步掉传,终究成了一种逝世文字。

  直到1804年,武威年夜云寺发明了有名的《重建凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世。从此识读西夏文开端成了学界的主要任务。

以识别西夏文为例,聊聊人工智能如何帮我们认识历史

  (《重建凉州护国寺感通塔碑》部分)

  二百年以来,出土的西夏文文献赓续增多,个中年夜部门都被英、俄探险家带到了境外。但列国学者尽力下,西夏文的基本文字辨认曾经完成,现阶段的任务重点是根据文字列表,去识读年夜量西夏文文献的详细内容,揭开西夏和其时华夏、西域列国的汗青迷雾。

  但在这个进程里,研讨人员认读西夏文必需经由过程手工翻阅查找,消耗时光异常辛劳不说,因为西夏文是一种类似度极高的文字,人工辨认还能够存在很年夜的毛病率。

  所以就有学者提出,应用盘算机来主动辨认西夏文。这类假想很好,但在详细操作中照样有伟大成绩。好比西夏文构造庞杂、构成字符各部门要素高度类似,而且均匀笔划到达25画,盘算机辨认难以动手。

  另外,西夏时代固然已有印刷术,但出土文献照样以手手本和刻版文字为主,统一个字的在分歧文献上的地位不固定、全体结构会产生偏移,都给机械辨认带来伟大艰苦。

  因而成心思的事涌现了,宁夏年夜学相干研讨机构为代表的学术力气,选择了以人工智能技巧处理西夏文的主动辨认。

  而且这个任务很早就曾经开端,赓续有结果出现。从时光上看,毫不是赶这波AI热的产品。

  人工智能完成西夏文主动辨认

  其实,用盘算机技巧处置西夏文很早就曾经开端。

  早在1996年,日本国立亚非说话文明研讨所就制造了西夏文字库和排版体系。1997 年中国粹者李范文和日本学者中岛干起应用该排版体系协作出书了《电脑处置西夏文〈杂字〉研讨》。俄罗斯应当也都有西夏文数据化和盘算机处置的项目与研讨结果。

  而应用弹性收集、神经收集、AI算法和深度进修来辨认西夏文,则是中国抢先完成的一个创举。

以识别西夏文为例,聊聊人工智能如何帮我们认识历史

  (记载片《奥秘的西夏》创建文字片断)

  用AI辨认西夏文,重要依托的是盘算机字符辨认( optical character recognition,OCR) 技巧,这类技巧上世纪60年月就成了人工智能研讨的重要范畴之一。它的焦点技巧主意是基于人工智能运算来辨认文字符号的数字影象,并将其转换为对应的数字文本,到达可辨认、可编纂、可转化的目标。

  OCR技巧今朝在许多范畴曾经相当做熟,好比我们常常用到的印刷文件文字提取。在OCR辨认范畴,更多的运用是手写体内容的精准辨认,而应用OCR辨认考古文献中的非普遍应用文字却根本处于空白。

  这里可以联合论文简略引见两种AI辨认西夏文的案例。

  好比在《基于弹性收集的西夏文辨认》傍边,研讨人员应用弹性收集技巧,将西夏文中的笔划特点停止网格化提取。再统计像素点在每一个网格内的几率散布,构成一种可读取的特点模子。最初应用文档主题模子办法对提取的特点降维处置,联合数据库对文献停止辨认。

  依据论文这类办法实际,这类办法均匀辨认率可达87.99 %。

  再好比《基于Mean Shift算法的西夏文字笔形辨认》,Mean Shift算法,即偏移均值向量,是机械进修范畴的一种根本算法。其基本实际是应用信息密度来完成聚类、图象朋分、跟踪义务,可应对类似但界线隐约的图象处置运用。应用这类算法,研讨人员将原始材料生成几率统计直方图,经由过程类似度来断定归类详细的西夏文笔形。

以识别西夏文为例,聊聊人工智能如何帮我们认识历史

  (西夏文智能辨认算法流程)

  这里仅仅是两个详细运用案例,应用深度进修等前沿人工智能技巧辨认西夏文的运用还在赓续成长。

  文献与考古范畴的人工智能运用

  能够辨认西夏文间隔我们的平常生涯还绝对较远,但推行当全部人文社科范畴,AI的运用能够就会从另外一个角度无穷切近我们的生涯。

  从近处来讲,AI推进学术效力,能够会影响我们的学科设置装备摆设、学术练习乃至高级教导系统,从远处来看,AI推进的进一步辨认汗青与文献的才能,是我们窥测本身曩昔,懂得“中国”为什么是“中国”的全新对象。

  在我们沉溺于将来带来的快感时,人工智能却能够在汗青范畴疾速施展它的价值。经由过程西夏文辨认的例子,不难发明在文献与考古这些社科范畴傍边,人工智能至多可以施展以下几种功能:

  1、考古图象的辨认与归档,好比基于算法的文物辨认、文物数据化、考古现场数据化。

  2、文献文本的辨认与转码,好比原始文献的文字辨认读取、文献聚类、文献数据化。

  3、文献数据库的常识图谱化与机械进修运用。好比学科文献图谱化、时期文献图谱化、科研项目数据图谱化,和基于常识图谱练习的人文社科范畴智能体。这一点特别主要,想象力也最为充分。就像金融、翻译等范畴极可能被AI替换一样,文献学与汗青研讨范畴年夜部门依附考据、校勘、材料爬梳的任务,也完整可以被AI代替。

  相似的人文范畴与AI跨界还有许多,有些乃至触及哲学与伦理层面的技巧与人文互搏,今后我们会陆续引见。

  或许AI就像风,当它是一场风暴的时刻,家家户户都邑门窗紧锁当心防护。但当它是清风徐来穿屋而过的时刻,在我们不知觉间,AI就曾经无孔不入了。

只要你关注机器人,你就无法错过睿慕课

 
 
 
[ 行业资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]