二、计算语言学
计算语言学是涉及语言学、计算机科学和自然语言处理、语言信息化建设等多门学科的综合性交叉学科,藏语计算语言学主要涉及藏语计算处理理论,词法、句法和语义阶段重要的分析算法及语料库的设计与实践,运用不同算法对语料进行标注,分词是计算语言学关注的重点,也是藏文信息化建设的关键。本文根据研究的不同侧重将相关研究成果作一简单分类,鉴于研究内容有很多属交集,若有分类不合适的还望专家多提宝贵意见。
(一)分词、标注与识别
藏文分词、标注和识别是进行各类藏文自然语言处理的基础,藏文分词的结果直接影响其他自然语言处理任务的性能。桑杰端珠、才让加《神经网络藏文分词方法研究》(《青海科技》第6期)一文,通过对CNN、BiLSTM、和CRF三种网络的有效组合,提出一种藏文分词的神经网络构架,使分词模型在测试数据集上的准确率、召回率和F1值分别达到了93.4%、94.2%和94.1%,超越了各类基准模型的表现。道吉仁青、安见才让《藏文终结词与离合词的识别算法研究》(《信息通信》第4期)一文,用正则表达式识别藏语终结词与离合词,提出了一种计算机识别藏文终结词与离合词的算法,并用18232个句子(包含241272个藏文字)进行了实验,通过实验得出藏文终结词识别准确率达99.89%,离合词识别准确率达90.18%。色差甲、贡保才让、才让加《基于最大和HMM的藏文新词识别对比研究》(《青海师范大学学报》自然科学版第1期)一文,首先使用序列标注方法来识别藏文新词,对多种题材共15万藏文句子进行统计建模,最后对3087句(其中包含12348个新词)开放语料进行测试,实验结果表明将规则嵌入到最大熵模型比嵌入到HMM模型中的正确率、召回率都高。张日培、姜占才《基于特征的藏文音节识别算法》(《电子设计工程》第20期)一文,以音节为基元,选择并提取音节中由字符列投影变换组成的特征向量,以此建立音节特征库;通过查表算法对藏文音节进行识别。通过理论分析和算法测试实验证明:提取的特征向量与藏文音节一一对应,藏文音节识别率达到100%,且特征的提取过程简便易行。该算法已经成功应用于藏文的文语转换系统。
扎西拉旦、安见才让《藏文字结构自动识别与形式化描述研究》(《中国信息化》第3期),一文通过研究藏文的构件规则,结构特征,提出了藏文组合规则和藏文字语法分析相结合的藏文字自动分解算法,进而对藏文字的字母组合进行分段处理,简化藏文字构件复杂度,研究出各分段部分的藏文字的构件规则,并且按照规则进行藏文字数的统计。实验表明,系统能有效地自动识别现代藏文。
洛桑嘎登、仁增多杰《基于知识反馈的藏文词性标注研究》(《计算机时代》第7期)一文指出,提出的基于知识反馈的藏文词性标注方法可以显著提高词性标注效果,准确率达到98.75%,该研究已基本满足日常实际使用。夏吾吉、华却才让《基于有限状态自动机阿拉伯数字与藏文数词自动翻译》(《计算机工程与科学》第3期)一文,分析并规定了阿拉伯数字和藏文数词的结构成分,分析藏文数词的构词规律,采用最大匹配的原则实现了翻译复杂数词自动翻译系统。实验F值达到了98.02%。
版权所有 。 保留所有权利。 京ICP备06045333号-1
京公网安备 11010502035580号