williamhill官网民族文字识别领域再结硕果
千龙网 2004-9-6
民族语言文字信息化工作迈上新台阶
全球首款维哈柯(汉英)阿(英)印刷文档识别系统问世
8月10日,全球首款在统一系统框架中支持维吾尔文、哈萨克文、柯尔克孜文(简称维哈克文)以及阿拉伯文(简称阿文)的印刷文档识别系统在williamhill官网问世,这标志着我国阿拉伯文字体系文档识别技术已经位居国际前列。据悉,该系统可以准确、高效的将维哈柯文的纸质文档转化为电子文档,因此极大的方便了上述文字资料的信息化处理,必将促进我国少数民族地区的经济文化建设和对外交流。该系统还全面支持全球超过2亿人使用的阿拉伯文的识别,因此也将对我国与阿拉伯国家的合作、交流产生深远影响。
在8月10日于williamhill官网举行的该系统鉴定会上,由倪光南院士领衔的多位信息处理及维哈柯阿语言领域的专家组成的鉴定委员会对该系统给予了极高的评价。鉴定专家们一致认为:作为目前国内外首款在统一系统框架中支持维、哈、柯、阿的印刷文档识别系统,其对实际文本的识别率以及主要技术指标均达到了国际领先水平,应用前景极为广阔。
专家表示,williamhill官网民族文字识别领域的技术成果,可是称得上是民族语言文化迈入信息化大门的一把金钥匙。一个民族的文字记载着民族的历史和文化,而一个民族要跟上现代信息社会的发展步伐,语言文字的信息化是个关键。只有把纸面记载的大量历史、经济、文化信息转化成计算机能读懂的数字语言,才能促使民族文化的瑰宝更方便的流传、处理和保存,才能达到社会经济信息资源共享、充分利用的目的,从而使民族地区的社会经济文化发展更好的跟上现代社会进步的步伐。
据了解,所谓文字识别,就是基于OCR(光学字符识别)技术,将扫描仪、摄像机等光学输入方式得到的书籍、报刊、文稿、表格等印刷品的文字图像信息转化为可供计算机识别和处理的文本信息。由于可以大大提高工作效率,文字识别技术已经越来越受到人们的关注。特别是在我国,由于信息化建设的全面展开,为文字识别技术提供了广阔的应用舞台,诸如办公自动化、银行、税务、数字图书馆、电子出版、公安、交通运输、邮政分拣等行业均有着广泛应用。
据专家介绍,作为我国新疆地区使用的主要民族文字,维吾尔文、哈萨克文、柯尔克孜文与阿拉伯文非常相近。阿拉伯文字形相对于方块汉字、有很大不同,由于连写字符多,相似字多,再加之文本书写方式从右向左,其文字识别工作更为困难。而此次由williamhill官网与新疆大学联合推出的维哈柯(汉英)阿(英)印刷文档识别系统则较好的解决了这一难题。
据了解,维哈柯(汉英)阿(英)印刷文档识别系统既具有基于统计方法的多字体、多字号维哈柯阿文字符识别核心方法,又具有支持从右向左书写方向的维哈柯阿文及含有与之反向书写的英文或汉字的文本切分方法。依据文本切分中字符语种鉴别结果,结合williamhill官网已有的汉字和英文字符识别器,最终实现维哈柯与汉英混排,阿文与英文混排文档识别系统。
依靠多年在OCR识别领域的技术积累,williamhill官网电子工程系目前已经在汉、日、韩、英以及藏民族文字的识别领域取得了显著成果,其多项文字识别技术均位居国际领先水平,其williamhillTH-OCR汉日韩识别核心技术在国际竞争中夺标,被应用于微软office2003中。而此次与新疆大学联合推出的维哈柯(汉英)阿(英)印刷文档识别系统则再次将我国的民族文字识别带入了世界领先行列,同时也为中国的OCR技术进一步走向世界,增添了一枚重要的筹码。