计算语言学(汉文部分)——藏语文智能信息化专题

发布时间:2023-05-23 16:26:33 | 来源: | 作者: | 责任编辑:

(四)藏语文智能信息化专题

1.信息的提取

信息的提取,不仅是自然语言处理的重要环节,同时信息提取也为构建知识图谱、问答系统等应用提供重要支撑。相关研究有:夏天赐、孙媛《基于联合模型的藏文实体关系抽取方法研究》(《中文信息学报》第12期)一文,采用端到端的BiLSTM框架,提出了基于联合模型抽取藏文实体关系的方法,实验结果表明,该方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。

成晨、于洪志、徐涛等《基于卷积神经网络的藏文实体关系抽取模型研究》(《中国新通信》第19期)一文,采用基于卷积神经网络的藏文实体关系抽取方法,在原始词向量的基础上,通过关键词算法获得类别关键词特征,采用分段最大池化策略,减少传统最大池化策略的信息丢失。实验表明,该方法有利于提升藏文实体关系抽取结果。朱利娟、云中华、边巴旺堆等的《基于极坐标变换的脱机手写藏文字符特征提取方法》(《计算机应用与软件》第3期)一文,基于向量特征,将脱机手写藏文字符图像进行预处理,求出二值图像中所有值为1的点对应的极坐标后将其进行投影变换得到投影向量。使用KNN分类器对30000个脱机手写藏文字进行实验,其中80%的样本作为训练数据,20%的样本作为测试数据,识别率达到了96.32%。结果表明该方法的有效性,计算简单并达到了较好的识别效果。

指代消解是文本理解和信息抽取的一项重要任务。夏吾吉、华却才让《基于混合策略的藏文人称代词指代消解研究》(《计算机工程与应用》第7期)一文,通过对藏文人名、人称代词的形态特征和构词规律的研究,采用基于规则、最大熵模型以及规则与最大熵模型相结合的三种方法实现了藏文人称代词的指代消解系统。在包含2306个待消解对的藏文句子集上,经测试分别获得76.02%、86.21%和88.16%的F值。

2.情感标注

情感因素对于自然语言的标注与处理很重要。相关研究有:闫晓东、黄涛《基于情感词典的藏语文本句子情感分类》(《中文信息学报》第2期)一文提出了一种基于极性词典的藏语文本句子情感分析方法。实验结果表明,利用该文构建的词典进行的倾向性分析效果良好。孙本旺、田芳《藏文情感词典的构建及微博情感计算研究》(《计算机技术与发展》第11期)一文,针对国内尚缺乏系统的藏文情感词典,提出借助中文情感词典资源自动构建藏文情感词典的方法,并基于构建的藏文情感词典对藏文微博进行情感分析研究。实验自动构建了藏文情感词典,包含基础情感词、程度词、否定词、转折词、双重否定词、藏文停用词。基于实验构建的藏文情感词典,与其他藏文情感词典相比,有效地提高了藏文微博情感倾向分类的准确率。实验结果表明,该词典达到了良好的实用性。张瑞《藏文在线评论情感分析研究综述》(《智库时代》第35期)一文,从藏文情感词典的构建、藏文句子情感分析和藏文篇章情感分析三个层面对藏文情感分析进行研究,发现基于机器学习的方法是藏文情感分析研究的主流方法,今后应加强藏文语料和情感词典建设等基础性工作。

3.算法与文本的分类与识别

运用不同的算法对藏语文进行分类与识别,是藏语文信息处理的重要步骤。相关研究有:群诺、贾宏云《基于Logistic回归模型的藏文文本分类研究与实现》(《信息与电脑》理论版第5期)一文,基于Logistic回归模型分类器对藏文文本进行分类,并且对Logistic算法和Gaussian NB算法进行分类性能进行了比较,结果显示Logistic算法具有较好的分类效果。贾宏云、群诺等《基于SVM藏文文本分类的研究与实现》(《电子技术与软件工程》第9期)一文,利用SVM(支持向量机)技术藏文文本进行分类,包括文本向量空间模型化,获取SVM中核函数的参数并进行常用核函数分类性能对比,最后与Logistic回归分类器进行同等条件下的实验对比,验证了支持向量机模型在藏文文本分类中具有良好的分类效果。才藏太、索南才让、才让加《面向语言信息处理的藏语短语及其分类方法研究》(《中文信息学报》第9期)一文,根据藏语信息处理的特点和要求,在藏语短语与句子界线研究的基础上,按照语法功能和便于计算机自动分析和处理的原则对短语进行分类,并规定了信息处理中藏语短语类别单位的标记代码。

拉毛措《基于正则表达式的藏文属格的识别及其检错算法研究》(《电子技术与软件工程》第9期)一文,结合传统的格助词添接规则和正则表达式对属格助词进行了识别和检错的算法研究,提出了藏文属格助词的识别算法,在此基础上提出了基于正则表达式和消歧知识库的属格助词自动检错算法。周雁、西绕多吉《面向藏语声纹识别的语料库建设》(《计算机工程与科学》第11期)一文结合藏语特点设计了一个面向藏语声纹识别的语料库。语料库的文本语料来自新闻报刊、文学类、教育类、科技类、佛学类、历史类和传统文化五明类等文献资料,该研究为藏语的声纹识别研究奠定了一定的基础。王德欣、卓嘎、张瑞《基于LBG的藏语字母识别算法研究》(《电子技术与软件工程》第20期)一文,使用MATLABR2014a进行算法的仿真,采用VQ的技术中LBG来实现对藏文字母的识别。此算法对藏语30个字母的语音进行了语音预处理和端点检测,并提取了MFCC特征参数,该研究为今后藏语语音的识别有一定的借鉴作用。

文献的图像处理是近年来藏语文信息化的一个节点。相关研究有:刘芳、张云洋等《基于像素邻域点信息的藏文图像细化算法研究》(《计算机技术与发展》第4期)一文,根据首先对藏文数字图像利用局部自适应方法进行二值化处理,再采用滤波处理噪声方法进行去噪处理,通过对某个像素点的八个邻域点的连接情况,在对照矩阵中查找对应矩阵项的值判断该点是否能删除,该算法在藏文字符数字图像细化实验中效果良好,正确率高,实用性强。张西群、马龙龙等《基于卷积降噪自编码器的藏文历史文献版面分析方法》(《中文信息学报》第7期)一文,利用卷积降噪自编码器提取超像素块的特征;使用SVM分类器对藏文历史文献的超像素块进行分类预测,提取出藏文历史文献版面的各个部分。实验表明,该方法能够对藏文历史文献的不同版面元素进行有效的分离。

珠杰、仁青诺布等《论元角色的藏语语义角色标注研究》(《高原科学研究》第3期)一文探讨了藏语语义角色标注问题,一是按照PropBank标注规范对藏语简单句进行了语义角色标注;二是依据藏语动词的语义类别,研究了藏文语义角色框架文件建设的可行性;三是结合藏语动词分析理论和格语法理论,在PropBank标记基础上研究了藏语特殊语义角色标记规范和标记方式。头旦才让、尼玛扎西、完么扎西《藏语依存树库的构建技术研究》(《高原科学研究》第3期)一文,建立了规模为1万句、词语总数为119510个、平均句长为12个词的藏语依存树库,并对建立的藏语依存树库进行了词类分布统计,该研究为藏语依存树库的构建提供了思路。

洛松求培、安见才让《藏文网页主题爬虫系统的实现》(《电子技术与软件工程》第10期)一文,将贝叶斯分类算法用于网页文档分类,通过样本集本训练出教育、政治、宗教三类主题分类器,再与爬虫技术结合从互联网上采集与主题相似的网页集合,从而满足了用户的个性化需求,提升了信息检索的效率。

4.藏语文信息化建设及文献回溯

藏语文信息化研究以及发展历程梳理,对于藏语文信息化建设具有指导意义。相关研究有:头旦才让、尼玛扎西《改革开放以来西藏藏文信息化发展综述》(《西藏研究》第5期)一文,回顾了西藏藏文信息化发展的历程和取得的重要成就,指出并预测今后西藏藏文信息化的发展策略与路径。高定国《藏文信息处理研究进展》(《广西科学院学报》第1期)一文,简要回顾了藏文信息处理中字、词、句、段、篇的特点、处理方法及取得的典型成果,藏语资源建设和应用研究取得的成果,并对藏文信息处理未来的发展方向进行展望。李玖一、于洪志、徐涛《藏文文本聚类及其相关技术综述》(《广西科学院学报》第1期)一文,介绍了藏文文本聚类的应用背景和相关概念、藏文文本特点和藏文文本聚类的相关技术,讨论了藏文文本建模和聚类算法,并对藏文聚类发展和应用进行了总结和展望。尕玛草《论新时代藏文信息技术的应用与发展》(《电脑迷》第9期)一文,主要对目前国内藏文信息技术的应用与发展状况进行了介绍和评价,并在此基础上探讨加强藏文信息技术的应用,进而有效推动藏文信息技术的发展,并对进一步加速制定藏文信息标准化提出了自己的见解。

此外,扎西当知、多拉等《从六百余篇藏文学术论文看藏学研究40年——以词汇计量为视角》(《中国藏学》第4期)一文,梳理了国内25种藏文学术期刊的642篇藏文学术论文,建立语料库,进行分词、词性标记,并通过统计文献信息、音节、词汇等方法,对藏文学术文章的外部信息和词汇、音节等内容信息进行计量研究,从而观察40年来国内藏文学术研究的发展脉络、主要研究领域及其发展趋势。肖维霖《基于文献计量的藏语自然语言处理研究分析》(《青藏高原论坛》第1期)一文,以中国知网为数据源,分析了所有与藏语自然语言处理相关的文章,用文献计量学的方法从论文数量规律、机构发展、主题研等,介绍了我国在藏语自然语言处理方面的研究发展情况。

版权所有 。 保留所有权利。 京ICP备06045333号-1

京公网安备 11010502035580号

Baidu
map