本篇文章1563字,读完约4分钟
光明日报记者詹元
让计算机和智能手机像人类一样理解和使用语言是语言信息处理专家的梦想。然而,与英语相比,汉语表达缺乏明显的表层语法特征,如词与词之间的空格、姓名的大写等,这使得机器识别和表达汉语信息更加困难。12月23日至24日,中国信息学会在北京召开第八次全国代表大会暨学会成立35周年学术会议。专家解释了让机器说中文的研究进展。
让中国人与机器自由交流
中国信息学会会长、哈尔滨工业大学教授李生说:中文信息处理包括中文(汉语、少数民族语言)的编码、发音、形式和意义的计算机自动处理。
事实上,当计算机问世并迅速引发席卷全球的信息技术革命时,如何编码、存储、输入和输出汉字一度成为计算机在中国普及和推广的障碍。此后,速记专家唐·发明了中文速印机,北京大学王选院士等研究了汉字照相排字和印刷技术,解决了海量汉字字体信息的存储和输出问题,使计算机与汉字兼容。
如今,随着人机交互系统的引入,如IBM的沃森超级计算机、谷歌的阿尔法围棋、百度的迷你机器人、微软的萧冰和苹果的Siri进入人们的日常生活,能用语言与人交流的应用变得无处不在,而且更加智能。然而,这些由现代技术催生的智能机器在中国的普及和应用,总是需要将英语转化为汉语。在这方面,与会专家表示,中文处理的目标是让机器像人类一样理解和生成中文,这样中国人就可以用自己的语言与机器自由交流。
机器在说中文时需要独立发展的理论
让智能机器说中文的最大困难是什么?李生说:汉语处理和英语有很多不同,但核心区别是汉语是同义词,英语是同音异义词。与英语相比,汉语表达缺乏明显的表层语法特征,如词与词之间的空格、名字等词的首字母大写等。这种差异使得汉语比英语更难处理许多语法任务。
汉语和英语的差异甚至已经反映在人脑对语言信息的处理上,这已经被神经科学所证实。李生说,《美国科学院院刊》发表了关于这一点的论文,中国信息处理领域的许多资深科学家也强调需要正视中英文之间的差异,独立发展中国的处理理论。
要实现机器理解汉语的目标,还有许多问题没有解决。中国科学院自动化研究所的宗表示,中文信息处理是一个复杂的跨学科问题。单单歧义解决就让自然语言处理研究者束手无策。
此外,人类语言使用中有多种表达方式,如隐喻、幽默、夸张、双关、影射等,对自然语言理解的研究产生了深远的影响。目前,有些问题刚刚被研究过,有些甚至还没有被触及。对此,宗认为,要实现机器对语言的理解,首先必须解决人类对语言机制理解的秘密,这是一个涉及人类认知机制和智能本质的科学问题。
中文信息处理让人们变得更聪明
计算机软件是一种常用的语言处理工具,可以翻译成各种语言,也可以翻译成其他语言。然而,经过多年的发展,机器翻译仍然不是很令人满意。在学术会议上发布的《2016年中国信息处理发展报告》中指出,在信、达、雅的不同翻译水平上,目前的机器翻译仍基本处于信、达阶段。在未来,机器翻译质量的提高取决于基于神经网络技术的翻译方法的发展和进步。
对此,李生表示,以互联网、大数据和深度学习为标志的海量信息时代的到来,也给信息检索、语音技术、字符识别、自动问答和机器翻译等中文信息处理领域带来了新的挑战和机遇。
例如,他说人工智能技术给中文信息处理带来了许多新的应用场景,如手机语音助手,产生了大量的用户反馈数据,促进了知识地图构建和基于中文的深度学习等新技术的应用和发展。李生认为,这些变化将大大解放人们的机械劳动,如中文记录,翻译和字符识别,同时提高人们的认知能力。他说:简而言之,在中国信息处理技术的许多进步的帮助下,我们将学到更多,变得更聪明。
(北京光明日报,12月24日)
光明日报(2016年12月25日,01版)
免责声明:本网站的一些文章是从互联网上转载的。如果涉及到第三方的合法权利,请通知本网站进行处理。
来源:央视线
标题:机器“说”中文面临什么新挑战
地址:http://www.yangshinews.com/ysxw/8484.html