实验语音学与计算语言学(汉文部分)

发布时间:2021-11-19 17:53:49 | 来源: | 作者: | 责任编辑:

二、实验语音学与计算语言学

2010年藏语实验语音学的成果在整个藏语文研究成果中占据很大比例,具不完全统计有近30篇相关论文。鉴于藏语实验语音学与计算语言学在研究方法和研究对象上各有偏重,在实践过程中又互有交叉,本文将这两个学科的研究成果放在一起进行梳理。代表性的研究成果有:杨阳蕊、周一心、于洪志《藏语音素音位系统的功能负担计算》(《兰州学刊》第1期),杨阳蕊、于洪志、李永宏《基于呼吸信号的藏语诗歌韵律研究》(《微计算机信息》第28期),王双成、陈忠敏的《安多藏语送气擦音的实验研究》(《民族语文》第2期),李亮、于洪志、杨阳蕊、李永宏等的《现代藏语声调研究现状及方法》(《西北民族大学学报》自然科学版第1期),陈小莹、陈晨、胡妍茹、李永宏、华侃的《基于EGG信号的安多藏语元音嗓音特征研究》(《西北民族大学学报》自然科学版第1期),陈晨、陈琪、李永宏、于洪志的《藏语语音合成语料库的韵律标注规则设计》(《西北民族大学学报》自然科学版第1期),李永宏、于洪志、孔江平的《藏语连续语音语料库设计与实现》(《计算机工程与应用》第13期),达哇彭措的《基于优化Apriori算法的藏语音韵律规则研究》(《微计算机信息》第18期),李永宏、张金爽、王姝文、于洪志的《藏语新闻朗读的呼吸信号声学分析》(《西北民族大学学报》自然科学版第2期),高璐、陈琪、李永宏、于洪志的《藏语语音合成中文本分析的若干问题研究》(《西北民族大学学报》自然科学版第2期),韩清华、于洪志的《基于HMM的安多藏语非特定人孤立词语音识别研究》(《软件导刊》第7期),多杰卓玛的《现代藏语词语信息库构建研究》(《电脑开发与应用》第7期),才让卓玛、才智杰的《基于语料库的藏语TTS技术研究》(《青海师范大学学报》自然科学版第2期),陈小莹、华侃、于洪志的《藏语拉萨话元音单音节嗓音声学参数分析》(《语文学刊》第15期),廖艳莎、安亚彬、杨阳蕊、何向真的《藏语单音节声学参数数据库结构设计》(《陇东学院学报》第4期),刘泽国、张会庆、张环、张兆基的《结合语音学知识的藏语语音端点检测方法研究》(《福建电脑》第8期),扎西加、顿珠次仁的《自然语言处理用藏语格助词的语法信息研究》(《中文信息学报》第5期)等。上述成果中,对于藏语语音相关参数的实验研究、分析和藏语声学数据库的建设是藏语实验语音学界关注的重点。杨阳蕊、周一心、于洪志的《藏语音素音位系统的功能负担计算》一文,以藏语的音素音位系统为研究对象,对拉萨话和夏河话的元音、辅音及声调的音位功能负担进行了量化研究,该项研究的意义在于为历史语言中关于方言分化和声调产生理论提供了参考基础。韩清华、于洪志的《基于HMM的安多藏语非特定人孤立词语音识别研究》以VC++6.0为开发平台,实现一个基于隐马尔可夫模型(Hidden Markov Model,简称HMM)非特定人的安多藏语孤立词语音识别系统。对有声段语音进行MFCC参数的提取,对提取后的MFCC参数进行矢量量化后训练HMM模型,形成特征模板库,最后进行识别。根据安多藏语的特点,改进端点检测的方法,提高了孤立词语音信号检测的准确性,并进一步提高了识别率。

端点检测是语音识别中的一项关键技术,端点检测的准确性对语音识别的性能有很大影响。刘泽国、张会庆、张环、张兆基的《结合语音学知识的藏语语音端点检测方法研究》一文,将藏语语音学知识融入端点检测过程中,同时综合时域频域特征,根据短时能频值和语音能量集中区的频域谱幅采取自适应门限方法,改进端点检测的方法。实验表明该方法提高了端点检测的识别率,对于藏语语音识别起到了很好的辅助作用。

韵律是语音的一个重要特征。对韵律规则进行研究和韵律标注是藏语语音合成语料库建设的重要环节。杨阳蕊、于洪志、李永宏等的《基于呼吸信号的藏语诗歌韵律研究》、达哇彭措的《基于优化Apriori算法的藏语音韵律规则研究》和陈晨、陈琪、李永宏、于洪志等的《藏语语音合成语料库的韵律标注规则设计》就是这方面的研究成果。上述研究成果为建立藏语语音合成语料库提供了直观的、科学的方法。

运用实验设备和手段对藏语具体语音现象进行研究是实验语音学的重要特征之一。相关的成果有王双成、陈忠敏的《安多藏语送气擦音的实验研究》,陈小莹、陈晨、胡妍茹、李永宏、华侃的《基于EGG信号的安多藏语元音嗓音特征研究》和陈小莹、华侃、于洪志的《藏语拉萨话元音单音节嗓音声学参数分析》。《安多藏语送气擦音的实验研究》一文的作者根据送气擦音的发音机制,对安多藏语许多土语有清擦音送气和不送气的对立进行研究,提出在安多方言里可以用三个声学特征来区别一般清擦音和送气清擦音。《基于EGG信号的安多藏语元音嗓音特征研究》和《藏语拉萨话元音单音节嗓音声学参数分析》二文,就是通过提取元音的参数基频,就元音之间、元音与辅音之间的组合对嗓音参数的影响进行研究,得出基频、开商和速度商之间有很强的关联性,各种组合方式下前置辅音对嗓音参数的影响不及辅音韵尾的影响程度、各元音由于组合方式变化对于参数影响的趋势基本一致。

声调研究是现代藏语语音研究的一个基础部分,同时也为汉藏语系其他语言的研究奠定了基础。李亮、于洪志、杨阳蕊、李永宏等的《现代藏语声调研究现状及方法》一文,分别从起源时间和形成条件两方面说明藏语声调的产生和发展,纵向阐述了藏语声调研究及研究结果,并从声学角度分析、论述了藏语声调的现代语音学研究方法。

计算语言学为藏语文的信息化处理提供技术思路和技术支持保障。藏汉双语语料库建设对计算语言学的发展具有重要意义。语料库的建设涉及对语料的描述、标记,数据库的总体结构、设计与实现等多个方面。多杰卓玛的《现代藏语词语信息库构建研究》一文,以语言学的理论和方法为主导,在藏文信息处理中引入了藏语词语的信息化和形式化,并对构建的信息库进行了结构上的总体设计,从而制定了信息处理用藏语词语信息库的构建原则及收词规则,即一形一项、一时(式)一项、一义一项。为此构建了以藏文词汇为主的音、形、义等的信息库。

才让卓玛、才智杰的《基于语料库的藏语TTS技术研究》通过比较分析国内外TTS技术的发展,提出基于语料库的藏语TTS技术的可行性,研究了藏语TTS的文本分析模块、语音合成模块及语音数据库的关键技术,并设计了一个完整的基于语料库的藏语TTS系统。廖艳莎、安亚彬、杨阳蕊、何向真的《藏语单音节声学参数数据库结构设计》一文,在分析藏语三大方言音节结构基础上设计了藏语单音节声学参数数据库,其中包括39项声学参数。这些声学参数在表征语音现象的同时,最终服务于工程语音学。李永宏、于洪志、孔江平等在《藏语连续语音语料库设计与实现》一文中,以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库,实现了语料自动选取。李永宏、张金爽、王姝文、于洪志的《藏语新闻朗读的呼吸信号声学分析》一文从言语生理的角度研究藏语新闻朗读时的呼吸生理特性。主要利用统计学的方法研究新闻语料的男女发音人的呼吸信号的声学表现,包括:1.选取20篇250字左右的新闻语料,进行呼吸信号的录制;2.利用已建好的呼吸信号处理平台,进行呼吸重置的标注,提取新闻呼吸信号的重置时长和幅度参数;3.统计分析新闻朗读的三级呼吸特性,并对男女呼吸特征进行对比分析,得出呼吸重置时长和重置幅度的正相关和呼吸节奏特点。

文本分析是文语转换系统的前端,是制约语音合成自然度的一个重要因素。高璐、陈琪、李永宏、于洪志的《藏语语音合成中文本分析的若干问题研究》一文在考察汉语文本分析方案的基础上,分析藏语的特点,提出了一套适合于藏语语音合成的文本分析模块的实现方案。文中采用最大匹配法和分词词库相结合的方法实现文本的自动分词,建立一套层次化的规则体系对文本进行规范化处理,字音转换则通过SAMPA-ST的藏语机读音标系统来实现。本研究的完成为藏语的语音合成打下了良好的基础。扎西加、顿珠次仁的《自然语言处理用藏语格助词的语法信息研究》一文主要探讨了藏语格助词的语法信息、语义信息、功能结构等内容,从而为建立藏语格助词的语法属性库提供翔实的参数。这对句子进行分析与描述,观察句子歧义都有着重要的意义。

版权所有 。 保留所有权利。 京ICP备06045333号-1

京公网安备 11010502035580号

Baidu
map