应用软件开发和文本信息处理是近几年藏语计算语言学处理的核心研究领域,文本处理包括文本知识自动发现、自动分类、知识抽取、校对、检索等内容。2014年度,涉及藏语计算语言学的研究成果比较多,有50多篇,下面按研究内容大致分类介绍。
(一)关于信息化建设的讨论以及相关数据库的建设
相关的研究成果有:德萨的《藏文数字图书馆研究综述》(《西藏科技》第4期),《论藏文文献数据库建设实证调查研究的必要性:兼谈价值及其意义》(《西藏科技》第9期),何明华的《当代藏文信息处理的现状与展望》(《科技资讯》第23期),万福成、李冬晨、何向真等的《面向信息检索的藏文文本索引策略研究》(《计算机工程与应用》第7期)等。
德萨的《藏文数字图书馆研究综述》一文,概述了2005—2013年国内藏文数字图书馆研究的进展及热点,从藏文数字图书馆的概念、特点及各种技术在藏文数字图书馆中的应用、元数据研究成果,揭示了藏文数字图书馆的研究现状、研究重点和研究方向。在《论藏文文献数据库建设实证调查研究的必要性:兼谈价值及其意义》一文中,德萨对国内外藏文文献数据库建设的理论与实践研究现状进行概括性述评,阐述了藏文文献数据库建设实证调查研究的必要性及其价值与意义,以期为藏文文献数据库的建设与研究者提供参考。何明华的《当代藏文信息处理的现状与展望》一文,立足于藏文信息处理现状,结合藏文发展状况对藏文信息处理从技术层面和文化传承方面进行了分析。万福成、李冬晨、何向真等的《面向信息检索的藏文文本索引策略研究》,认为互联网文本数量持续爆炸式增长,用户通过互联网查找信息变得更加困难,响应时间得不到满足。针对藏文本身的语言学特点,探讨一种面向信息搜索的藏文文本索引建立策略,建立一种高效的藏文文本索引,以提高藏文信息检索速度。
(二)藏语文词性标注、识别、分词是藏语文信息处理的基础,也是计算语言学关注的焦点
标注是分词和识别的基础。涉及标注的代表性研究有:龙从军、康才畯、李琳等的《基于多策略的藏语语义角色标注研究》(《中文信息学报》第5期),完么扎西的《藏语词语兼类情况及识别规则库》[《西藏大学学报》(自然科学版)第2期],安见才让、陈烈多杰的《藏语虚词ng的词性标注的研究》[《信息与电脑》(理论版)第8期],祁坤鈺的《基于依存关系的藏文语义角色标注研究》(《西北民族大学学报》第1期),华却才让、刘群、赵海兴的《判别式藏语文本词性标注研究》(《中文信息学报》第2期)等。
龙从军、康才畯、李琳等在《基于多策略的藏语语义角色标注研究》一文中指出,语义角色标注研究对自然语言处理具有十分重要的意义,提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,首先对藏语语义角色进行分类,得到语义角色标注的分类体系,然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到8278%、8571%和8391%。完么扎西在《藏语词语兼类情况及识别规则库》一文中指出,对兼类词的处理是藏语词性标注的关键所在。文章利用传统和现代藏语语法理论,在分析藏语真实文本的基础上,归纳了藏语兼类词的种类,提出了兼类词的标注原则。并根据词语搭配关系和词的组合结构构建了兼类词的识别规则库,利用该规则库可对兼类词的词性进行较准确的标注。祁坤鈺的《基于依存关系的藏文语义角色标注研究》一文指出,语义角色标注已成为中文信息处理研究的热点问题,并广泛应用在问答系统、信息抽取、机器翻译等领域。在多年来藏文分词标注研究和语料库建设的基础上,分析了传统藏文文法中的逻辑格,以及接续特征的语义映射关系,参考FrameNet、PropBank和北大中文网库等资源库制定了藏文语义角色标注体系,提出了建立高质量的藏语句法树库TTB(Tibetan TreeBank)、语义角色标注库TPB(Tibetan PropBank)和藏语动词语义框架库TVN(Tibetan VerbNet)等知识库的方案;运用依存句法分析方法建立了句法分析模型;结合藏文句法结构特征和语言习惯,挖掘藏文句法结构属性,阐明了藏语语义角色标注的理论和原理。华却才让、刘群、赵海兴的《判别式藏语文本词性标注研究》一文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了9826%的词性标注精确率。
(三)各类识别、分词
涉及各类识别研究的成果主要有:加羊吉、李亚超、宗成庆等的《最大熵和条件随机场模型相融合的藏文人名识别》(《中文信息学报》第1期),王天航、史树敏、龙从军等的《基于错误驱动学习策略的藏语句法功能组块边界识别》(《中文信息学报》第5期),当增卓玛的《藏文文本中格助词的识别研究》(《网络安全技术与应用》第1期),完么才让、曹玉林的《藏语及物与不及物动词的自动识别研究》[《西南民族大学学报》(自然科学版)第1期],华却才让、姜文斌、赵海兴等的《基于感知机模型藏文命名实体识别》(《计算机工程与应用》第15期)等,康才畯、龙从军、江荻的《基于词位的藏文黏写形式的切分》(《计算机工程与应用》第11期),高定国、扎西加、赵栋材的《计算机识别藏语虚词的方法研究》(《中文信息学报》第1期)等。
加羊吉、李亚超、宗成庆等在《最大熵和条件随机场模型相融合的藏文人名识别》一文中,分析了藏文人名构成规律和特点,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。王天航、史树敏、龙从军等在《基于错误驱动学习策略的藏语句法功能组块边界识别》一文中,指出藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。首先基于条件随机场(ConditionalRandomFields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(TransformationbasedErrordrivenLearning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了165%、836%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到941%、9476%与9443%。当增卓玛在《藏文文本中格助词的识别研究》一文中通过研究藏文格的用法,建设藏文八格的知识库和藏文八格的算法及识别研究。完么才让、曹玉林在《藏语及物与不及物动词的自动识别研究》一文,通过句子中的使格助词来自动判断动词及物性的方法,这种自动识别方法是一种理性主义的判断方法,所以不需要大规模语料的支持。华却才让、姜文斌、赵海兴等的《基于感知机模型藏文命名实体识别》一文,通过对命名实体构词规律及分词歧义进行分析,提出基于音节特征感知机训练模型的藏文命名实体识别方案。康才畯、龙从军、江荻的《基于词位的藏文黏写形式的切分》一文,根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。卓玛吉、安见才让的《藏文不自由虚词的自动识别研究》一文,主要研究藏文文本中大量藏文不自由虚词的识别算法,同时建立了藏文不自由虚词的消歧规则库,使计算机快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文自动分词的准确率。高定国、扎西加、赵栋材的《计算机识别藏语虚词的方法研究》一文,认为藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2525句典型藏文句子进行了验证,虚词识别的正确率高达970768%。
涉及分词的研究成果主要有:孙萌、华却才让、才智杰等的《基于判别式分类和重排序技术的藏文分词》(《中文信息学报》第2期),艾金勇、陈小莹、华侃等的《面向Web的藏文文本分词策略研究》(《图书馆学研究》第21期),完么扎西、尼玛扎西《藏语自动分词中的几个关键问题的研究》(《中文信息学报》第4期),黄鹤鸣、达飞鹏、韩晓旭的《基于小波变换和梯度方向的脱机手写藏文字符特征提取方法》[《东南大学学报》(英文版)第1期]等。
孙萌、华却才让、才智杰等的《基于判别式分类和重排序技术的藏文分词》一文,提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁—音节点、音节为最小构词粒度对分词效果的影响,在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分。艾金勇、陈小莹、华侃等的《面向Web的藏文文本分词策略研究》一文,对比参照其他藏文分词系统的优缺点并借鉴汉语分词系统的一些好的方法,设计开发了一个面向藏文网页的自动分词系统。项炜、金澎的《基于词频学习和动态词频更新的藏文自动分词系统设计》一文,针对藏文自动分词中的重点难点,设计了一个新的藏文自动分词系统,该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术,在歧义字段分词准确性、未登录词识别率和分词速度上,系统具有较优的性能。完么扎西、尼玛扎西的《藏语自动分词中的几个关键问题的研究》一文,通过分析藏文构词规则、句法结构、词的前后词性关系、后加字的添接法和格助词的用法等重点研究了未登录词、紧缩词和交集型歧义的识别及处理方法,并提出了“重组法”“排除—还原法”和“词性规则法”三种方法。
(四)算法与识别
相关的研究成果主要有:康健、乔少杰、格桑多杰等的《基于群体智能的半结构化藏文文本聚类算法》(《模式识别与人工智能》第7期),才项俄日、安见才让的《藏文属格助词的识别算法》[《信息与电脑》(理论版)第8期],珠杰、李天瑞、刘胜久的《藏文文本自动校对方法及系统设计》[《北京大学学报》(自然科学版)第1期],边巴旺堆、卓嘎、陈延利等的《藏文构件元素识别算法研究》(《中文信息学报》第3期),边巴旺堆、卓嘎、陈延利等的《藏文构件元素识别算法研究》(《中文信息学报》第3期),曹晖、孟祥和的《基于藏文新闻文本话题检测的聚类算法研究》[《华中师范大学学报》(自然科学版)第1期],珠杰、李天瑞、刘胜久的《TSRM藏文拼写检查算法》(《中文信息学报》第3期),徐涛、于洪志、加羊吉的《基于改进卡方统计量的藏文文本表示方法》(《计算机工程》第6期),春燕的《基于藏文音节特征的模式匹配算法的研究》(《计算机光盘软件与应用》第15期),刘伟光、郭小丹、孔繁秀的《一种基于改进向量空间模型的藏文主题网页采集方法》(《图书馆学研究》第16期),梁会方、黄鹤鸣、杨峰的《汉文专有名词藏文音译的研究与实现》(《计算机技术与发展》第12期)等。
康健、乔少杰、格桑多杰等的《基于群体智能的半结构化藏文文本聚类算法》一文,将群体智能技术应用于半结构化的藏文Web文本聚类,提出基于群体智能的半结构化藏文Web文本聚类算法(SCAST),充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响。SCAST算法首先运用向量空间模型表示藏文文本信息,将藏文文本按其相似性聚集在一起,得到最终聚类结果。才项俄日、安见才让的《藏文属格助词的识别算法》一文,将藏文属格助词作为查找目标,结合藏文属格助词添接规则、属格助词前词与词库进行比较,提出了一种有效的属格助词识别算法,进一步提高藏文信息处理技术中藏文自动分词的准确率。珠杰、李天瑞、刘胜久的《藏文文本自动校对方法及系统设计》,以藏文音节拼写检查、梵音转写藏文检查、接续关系检查、词语检查为研究内容,提出藏文文本自动校对框架和接续关系检查算法。根据该框架及算法,设计并实现藏文自动校对系统,通过实验证明算法和系统的可靠性和有效性。边巴旺堆、卓嘎、陈延利等的《藏文构件元素识别算法研究》一文,指出要实现藏文排序算法,必须解决组成藏文音节的构件元素识别,然后由构件元素的优先级进行排序。文章通过对藏文的文字结构、书写规律,以及文法规则的研究,设计了符合现代藏文的构件元素识别算法。曹晖、孟祥和的《基于藏文新闻文本话题检测的聚类算法研究》一文,提出一种聚类算法,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别。本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高。珠杰、李天瑞、刘胜久的《TSRM藏文拼写检查算法》一文,以藏文语音特性建立的字组织法为依据,以藏文音节规则为模型,提出了藏文音节规则模型(TSRM)的藏文音节拼写检查算法,并通过两组实验验证了算法的有效性。徐涛、于洪志、加羊吉的《基于改进卡方统计量的藏文文本表示方法》一文,认为传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。结合向量空间模型,提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。春燕的《基于藏文音节特征的模式匹配算法的研究》一文指出,近年来针对网络中藏文舆情的研究已在相关研究机构进行。模式匹配问题是计算机科学中的一个基本问题,在藏文舆情、网络入侵检测等应用中起着重要的作用。针对藏文字本身特性的字符匹配算法在相关文献并没有给出相应的解决办法,而是直接采用了中文或英文的模式匹配算法作为研究的基础。认为给出一个合理有效的藏文字符串的模式匹配算法,能有效地提高藏文字符的匹配效率。刘伟光、郭小丹、孔繁秀的《一种基于改进向量空间模型的藏文主题网页采集方法》一文,设计了一种基于改进向量空间模型的藏文主题网页采集算法。梁会方、黄鹤鸣、杨峰的《汉文专有名词藏文音译的研究与实现》一文,在汉藏音译规则的制定的基础上,对于存在的约定俗成译法词组优先处理,以及汉文的多音字结合了统计的多音字语料词组,提高音译系统的性能,以及其音译的准确性。该算法实现简单,准确率高。
标注、算法、识别、分类等之间是相互关联的。不能将彼此截然分开。此外,相关的研究还有:仁青诺布、苏亚超、孙亚东的《基于最大熵模型的藏文不良文本识别系统的设计和实现》(《西藏科技》第3期)一文,该文通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。武强、边巴旺堆的《信息检索系统中藏文自动提示的研究与实现》(《电脑知识与技术》第19期)一文,认为在当今信息社会,信息检索已经成为人们日常工作的一部分。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。才华的《藏文组字部件的自动识别与字排序研究》[《西藏大学学报》(自然科学版)第2期]一文,认为藏文字有着独特的构字规则,组字部件的自动识别在藏文字、词、句层面的信息化处理有重要的应用。文章把现代藏文字按其第一个部件字符的不同分成5种结构类型,每一种类型又按其字长分为若干个子类,在每个子类中定义各字的部件识别算法,最后在藏文组字部件识别的基础上,给每个部件赋予序值,实现藏文字的有效排序。
(五)软件开发与应用
在过去的一年,涉及软件开发与应用的研究成果主要有:看不太、安见才让的《藏文学术论文复制检测技术研究》[《信息与电脑》(理论版)第8期],柔特的《基于WordNet的藏文语义词典半自动构建方法研究》[《西藏大学学报》(自然科学版)第1期],江涛、江静、戴玉刚等的《藏文舆情云分析系统平台研究》(《信息网络安全》第9期),高红梅、拉巴顿珠、嘎玛平措等的《基于Flash的藏文词语学习软件设计》(《西藏科技》第4期),陈小莹、艾金勇、郭小丹《藏文拉丁转写的设计与实现》(《科技信息》第11期),白玛玉珍的《几种藏文字特征提取方法比较研究》[《信息与电脑》(理论版)第4期],俄果措、安见才让的《藏文单音节动词时式的形态变化研究》[《信息与电脑》(理论版)第9期],高定国、郭鑫的《TSF藏文输入法的设计与实现》[《西藏大学学报》(自然科学版)第2期],白玛拉姆、张旋的《基于物联网的藏文二维码的研究与实现》(《西藏科技》第2期),张继伟的《基于Android系统智能终端的藏文输入法分析与实现》(《信息安全与技术》第4期),张云洋、刘芳的《基于Unicode的藏文网页搜索探讨》(《科技情报开发与经济》第11期),项毛措、张有谊的《Word 2007中藏文排序的研究》(《商》第5期),扎西加、多拉的《基于FUG的藏语句法形式化描述》(《中文信息学报》第3期),达召卡什吉的《现代藏语常用名词的内部结构特征分析》(《安多研究》第11辑,甘肃民族出版社)等。
看不太、安见才让的《藏文学术论文复制检测技术研究》一文,在分析藏文论文整体结构的基础上结合或改进现有的复制检测方法并提出某种符合藏文文法的新的藏文学术论文复制检测算法,实现用于藏文学术论文对他人的隐式抄袭、部分抄袭和完全抄袭等抄袭现象的初步检测。柔特的《基于WordNet的藏文语义词典半自动构建方法研究》一文,在藏语独特的文法理论研究基础上,利用对比英文和藏文词之间的语义关系、构建双语大型数据库和制定映射过程中词汇空缺等方法,构建了基于半自动匹配的藏文语义词典,为藏文信息处理提供了重要的数据资源。江涛、江静、戴玉刚等的《藏文舆情云分析系统平台研究》一文,介绍了藏文舆情云分析平台的系统框架和核心模块,及其模块运行。高红梅、拉巴顿珠、嘎玛平措等的《基于Flash的藏文词语学习软件设计》一文,选用藏语词典作素材,基于Flash设计了一款藏文词语学习软件,通过通关形式增强学习的趣味性,同时对词组辅以图片演示、读音配音和讲解,真正起到辅助教学的作用。陈小莹、艾金勇、郭小丹的《藏文拉丁转写的设计与实现》一文,从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。白玛玉珍的《几种藏文字特征提取方法比较研究》一文,认为藏文字识别中特征提取是一个很重要的环节。该文研究了几种藏文字特征提取的方法,提出了各个特征提取方法的优、缺点。俄果措、安见才让的《藏文单音节动词时式的形态变化研究》一文,采用统计学的研究方法,建立藏文单音节动词词库,并对每一个动词形态变化类型进行标注。根据动词形态同形方式的不同,对四种、三种、两种和无形态变化的动词模式进行统计,从而总结了动词形态的规则,为藏语语音和词汇的演变做了基础性的研究。高定国、郭鑫的《TSF藏文输入法的设计与实现》一文,指出TSF是微软推出的一种新的输入法框架,用TSF开发藏文输入法不仅能实现词组输入的功能,还能提高藏文键盘的输入速度。白玛拉姆、张旋的《基于物联网的藏文二维码的研究与实现》一文,基于物联网的相关技术,通过藏文二维码软件的设计,对二维码的编码结构、编码原理、编码流程等问题进行了分析,最后利用Visual Basic软件进行应用和开发。张继伟的《基于Android系统智能终端的藏文输入法分析与实现》一文,阐述了藏文在Android系统下输入法的设计思想,以及实现过程,介绍了该技术的设计原理以及流程。张云洋、刘芳的《基于Unicode的藏文网页搜索探讨》一文指出,藏文网页搜索是藏文计算机技术和藏文网站发展的必然要求,藏文字的特殊结构和藏文编码的多样性给网页的统一检索造成一定的困难,使用基于Unicode的藏文编码来识别和存储藏文有利于网页搜索的实施。项毛措、张有谊的《Word 2007中藏文排序的研究》一文,认为藏文文字的排序是藏文信息处理领域一项不可缺少的关键所在,也是一直以来有待解决的问题。目前,word成了最广泛的应用程序之一,如果word中实现符合藏文文字结构特点和语法规则的藏文排序,将会为以后藏文研究工作者带来很大方便。扎西加、多拉的《基于FUG的藏语句法形式化描述》一文,分析了用复杂特征描述藏语句子的必要性,引入了复杂特征集和合一运算的概念,以实例举证的方式对藏语词汇、句法、语义的规则及句子合一运算提出了探索性的研究思路,并且采用框式表示的方法,力求从形式化的角度为藏语自然语言处理提供便利。达召卡什吉的《现代藏语常用名词的内部结构特征分析》一文,主要对名词的内部结构特征进行了分析研究,其目的是为藏语名词的语义分词服务和扩大藏语资源建设的规模。为藏语信息处理的机器翻译、信息检索、信息提取、文本校对服务。
版权所有 。 保留所有权利。 京ICP备06045333号-1
京公网安备 11010502035580号