ChatGPT等生成式人工智能产品的开发与应用,预示着人工智能生成内容(Artificial Intelligence Generated Content,AIGC)时代的到来。人工智能生成内容需要多维度的训练数据、大量丰富的训练资源、长久的训练时间和优秀的算法模型提供支持。汉、英语言形式和表达习惯的差异会对汉、英思维产生一定影响,而思维模式的区别又会导致行为方式的不同。目前的生成式人工智能产品,则多带有一定的“西方思维”色彩。因此,随着技术的不断发展,我国人工智能需要关注“汉语思维”,提供具有汉语意识的技术刻画方式和行之有效的技术实现路径。
“汉语思维”指以汉语为载体的思维方式和习惯,包括复杂的汉语语言结构和悠久的汉语文化历史,蕴含着中华优秀传统文化的思想和价值观。汉语独特的语言结构、思维方式和历史文化,给我国人工智能的未来发展带来了一定挑战,同时也提供了宝贵的机遇。
其一,“汉语思维”为人工智能的开发与应用提供了广泛的场景。随着人工智能在各行各业的使用愈加深入,人们对智能化的需求也随之增高。规模庞大的汉语语料库为我国人工智能的资源获取和数据挖掘提供了独特优势——不仅可以更好地助推自然语言处理模型的构建,提高学习效率、完善学习效果;还可以增强机器学习的训练及深层次语义的理解,从而具备良好的可解释性。
其二,“汉语思维”可以推动人工智能的算法创新和技术研发。“汉语思维”与人工智能的有机融合,可以创造出更多具有中国特色和国际竞争力的人工智能产品,为用户提供更加贴近生活、更具实用性的智能化服务,并将进一步推动我国人工智能产业的发展。此外,随着内容和需求的不断增长,“汉语思维”还可以促进数据、算法、算力等要素持续迭代。我国大语言模型未来会带来更多创新性探索,开拓出更为广泛的应用领域。
“汉语思维”与我国人工智能发展的融合具有广阔的应用前景。这不仅是促进我国科技发展的应有之义,更是我国人工智能高质量发展的必经之路。自然语言处理(Natural Language Processing,NLP)作为人工智能领域的一个重要分支,旨在利用计算机对自然语言进行智能化处理,包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两个部分。这两个部分都可以同“汉语思维”建立联系。鉴于“汉语思维”自身的独特性,我国人工智能未来发展需要关注汉语语言结构和汉语语言文化。
汉语语言语法结构复杂,词汇量丰富。因此,在“汉语思维”同自然语言理解与自然语言生成相关联的过程中,需要关注汉语语法、词义、语义和语用等。此外,面向汉语的自然语言处理,需要深入理解汉语的语言和文化背景,尤其要考虑我国用户的文化习惯和心理需求。我们可以通过收集和整理不同领域和语境下的汉语文本进行语料库建设,然后依托语料库中的大量语言数据来训练模型,并将其应用到机器翻译、语音识别等领域。
其一,机器翻译是一种使用计算机程序将一种自然语言(比如将英语作为源语言)的文本转换为另一种自然语言(比如将汉语作为目的语)的技术。其基本原理是将源语言的文本标注为计算机可处理的形式,并使用机器学习算法从这些标注中学习如何将源语言的文本转换为目标语言的文本。因此,在相关应用中需要机器翻译技术能够理解并处理语言结构和语言思维方式,从而实现准确翻译。比如,在汉语分词、词性标注、命名实体识别等任务中,机器翻译需要考虑汉语的词序、词性、语义、篇章等特点。而在翻译中涉及的语言,不仅是表面上的文字和语法结构,更涉及语言背后的文化、历史、传统等方面的元素。此外,中文语言中存在许多习惯用语、成语和俚语等特殊表达方式,这些表达方式往往不能够直接翻译成其他语言。鉴于此,机器翻译总体上可作为一种直线型、单向度、高度规整的符码转换活动,由于缺乏与文本之间的灵性互动,因此在对高阶思维的运用、语言的精准理解和表达、原文风格美感的再现以及灵感译文的产出等方面存在着较为明显的短板。机器翻译技术需要充分考虑到汉语独特的结构和思维方式,同时结合丰富的语言背景知识和文化素养,这样才能实现更好的翻译效果。
其二,语音识别是一种将语音信号进行转换、使其可供计算机理解和处理的技术。其基本原理是将语音信号分析为一系列语音特征,并使用模式识别算法将这些特征映射到已知的语音模型,从而得到语音信号所对应的文本或命令。目前,语音识别技术已广泛应用于智能家居、车载导航、语音助手等领域,可以支持中文语音识别和语音交互,未来也将涵盖更广泛的领域。在“汉语思维”方面,需要解决的问题包括汉语的音调、声调和语音变异等问题。此外,还需要考虑汉语的方言和口音等因素。比如,汉语中有许多词汇在不同语境下的发音和语调是不同的。建立一个汉语语音语料库,可以帮助语音识别系统更好地理解和分析汉语语音信号。此外,还可以在语音库中加入成语、俗语、习惯用语等固定搭配的语音样本,帮助系统更好地识别这些表达方式。汉语语音库的建设,主要包括制定语音库制作规范、预收集与预评价、正式收集、语音标注、电子发音词典、语料库评价与分发等过程。对于汉语语音识别技术的发展,还需要不断探索和创新。
我国人工智能的未来发展应考虑到“汉语思维”的特点和需求。本土化的大语言模型将更加适应我国的语境和市场,并助推有关技术进一步发展。在“汉语思维”领域深耕,能够使我国的人工智能绽放出独特魅力。
作者:同济大学外国语学院教授许文胜、同济大学外国语学院博士研究生万菊万菊、同济大学外国语学院博士研究生、郑州科技学院外国语学院教授韩彩虹
编辑:宁菁菁