基于预训练语言模型的藏文文本分类被引量：7

Pre-trained Language Model Based Tibetan Text Classification

在线阅读下载PDF

导出

摘要藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F 1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。 Tibetan text classification is a fundamental task in Tibetan natural language processing.The current mainstream text classification model is a large-scale pre-training model plus fine-tuning.However,Tibetan lacks open source large-scale text and pre-training language model,and cannot be verified on Tibetan text classification task.This paper crawls a large Tibetan text dataset to solve the above problems and trains a Tibetan pre-training language model(BERT-base-Tibetan)based on this dataset.Experimental results show that the pre-training language model can significantly improve the performance of Tibetan text classification(F 1 value increases by 9.3%on average)and verify the value of the pre-training language model in Tibetan text classification tasks.

作者安波龙从军 AN Bo;LONG Congjun(Institute of Ethnology and Anthropology,Chinese Academy of Social Sciences,Beijing 100081,China)

机构地区中国社会科学院民族学与人类学研究所

出处《中文信息学报》 CSCD 北大核心 2022年第12期85-93,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(62076233) 中国社会科学院民族学与人类学研究所2022创新工程青年学者资助计划项目(2022MZSQN001) 国家社会科学基金冷门绝学研究专项(20VJXG036) 国家社会科学基金(22BTQ010)。

关键词藏文文本分类预训练语言模型深度学习 Tibetan text classification,pre-trained language model deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1苏慧婧,群诺.藏文文本分类技术研究综述[J].电脑知识与技术,2021,17(4):190-192. 被引量：4
2王志娟,冯迎辉,赵小兵.我国藏文网站分析[J].语言政策与规划研究,2014(2):25-31. 被引量：3
3贾宏云,群诺,苏慧婧,次仁罗增,巴桑卓玛.基于SVM藏文文本分类的研究与实现[J].电子技术与软件工程,2018(9):144-146. 被引量：12
4贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：73
5QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：173
6贾会强,李永宏.藏文文本分类器的设计与实现[J].科技致富向导,2010,0(4X):30-31. 被引量：7
7群诺,贾宏云.基于Logistic回归模型的藏文文本分类研究与实现[J].信息与电脑,2018,30(5):70-73. 被引量：8
8王莉莉,杨鸿武,宋志蒙.基于多分类器的藏文文本分类方法[J].南京邮电大学学报（自然科学版）,2020,40(1):102-110. 被引量：14
9胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
10刘汇丹,诺明花,赵维纳,吴健,贺也平.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):97-103. 被引量：25

二级参考文献96

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
4卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
5顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：36
6才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
7袁向阳,殷建平.基于二元语法的全链接模块化B*树设计[J].计算机工程与应用,2005,41(27):74-76. 被引量：2
8宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
9祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
10刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14

共引文献290

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：11
2李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
3王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
4邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
5胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
6王关嵩,钱桂生,杨晓静.一氧化碳对大鼠肺动脉平滑肌细胞[Ca^(2+)]、cAMP、cGMP的作用[J].第三军医大学学报,2000,22(5):417-419. 被引量：6
7赵栋材.基于虚词切分的藏文分词系统的设计与实现[J].西藏大学学报（社会科学版）,2012,27(5):61-65. 被引量：5
8孙萌,华却才让,刘凯,吕雅娟,刘群.藏文数词识别与翻译[J].北京大学学报（自然科学版）,2013,49(1):75-80. 被引量：7
9诺明花,刘汇丹,马龙龙,吴健,丁治明.基于中心语块扩展的汉藏基本名词短语对的识别[J].中文信息学报,2013,27(4):63-69. 被引量：1
10高定国,扎西加,赵栋材.计算机识别藏语虚词的方法研究[J].中文信息学报,2014,28(1):113-117. 被引量：15

同被引文献61

1蔡坤钊,曾碧卿,陈鹏飞.GAT:用于自然语言理解的基于全局的对抗训练[J].中文信息学报,2023,37(3):27-35. 被引量：2
2熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
4桑塔,达哇彭措.信息处理用藏文字丁统计[J].科技信息,2010(29):14-14. 被引量：2
5胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
6贾会强.基于KNN算法的藏文文本分类关键技术研究[J].西北民族大学学报（自然科学版）,2011,32(3):24-29. 被引量：13
7刘汇丹,诺明花,赵维纳,吴健,贺也平.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):97-103. 被引量：25
8华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：28
9扎西加,多拉.藏语依存树库构建的理论与方法探析[J].西藏大学学报（社会科学版）,2015,30(5):76-83. 被引量：13
10李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：28

引证文献7

1马召贵.基于改进KNN的不均衡信息文本分类算法[J].信息与电脑,2023,35(12):85-87. 被引量：1
2张英,拥措,于韬.基于动态多头注意力机制的藏文语言模型[J].计算机工程与设计,2023,44(12):3707-3713. 被引量：3
3张渊,姚峰.基于知识嵌入式预训练语言模型的文本分类方法研究[J].武汉工程大学学报,2023,45(6):674-679.
4安波,赵维纳,龙从军.基于提示学习的低资源藏文文本分类[J].中文信息学报,2024,38(2):70-78.
5张英,拥措,斯曲卓嘎,拉毛杰,扎西永珍,尼玛扎西.基于注意力头数和词性融合的藏文预训练模型[J].科学技术与工程,2024,24(23):9957-9964.
6敬容,杨逸民,万福成,国旗,于洪志,马宁.基于GraphSAGE网络的藏文短文本分类研究[J].中文信息学报,2024,38(9):58-65.
7洛桑嘎登,尼玛扎西.基于藏文字符感知的文本预训练模型方法研究[J].计算机工程与应用,2024,60(21):127-133.

二级引证文献4

1贾星星,陆玉,杨龙飞,多拉,王道顺.T-Transformer-XL和T-XLNet:两个藏语预训练模型[J].西安邮电大学学报,2024,29(4):93-99.
2马永杰,李罡.基于Conformer-SE的端到端语音识别[J].计算机系统应用,2024,33(12):106-114.
3潘鑫宇,陈亮,王珺琳.基于Lattice LSTM-Cascade结构盗窃罪案由的命名实体识别算法[J].通信与信息技术,2025(1):118-122.
4杨易木.基于KNN算法的电子档案信息文本自动分类方法[J].办公自动化,2025,30(5):14-16.

1Shoyang,Gesang Lundrup(Text/Photos),Gengsong Yongtso,Zhang Jing(Photos),Huang Wenjuan.PASANG TSETEN,RESTORER OF ANCIENT CLASSICS[J].China's Tibet,2022,33(6):52-57.
2New Books[J].China's Tibet,2022,33(6):69-69.
3王宇晗,林民,李艳玲,赵佳鹏.基于BERT的嵌入式文本主题模型研究[J].计算机工程与应用,2023,59(1):169-179. 被引量：8
4SHI Ruiqing,Li Jiameng.Cultural Symbols and Inheritance of Tibetan Intangible Cultural Heritage[J].Cultural and Religious Studies,2022,10(11):651-657.
5CHEN Yitao.Review and Prospect of Tibetan Stupa Research in China During the Last Hundred Years[J].Journal of Landscape Research,2022,14(6):68-72.
6White Yak.Culture That Carries a Tune[J].China's Tibet,2022,33(6):40-42.
7Cedric Del Rio,Teng-Xiang Wang,Shu-Feng Li,Lin-Bo Jia,Pei-Rong Chen,Robert ASpicer,Fei-Xiang Wu,Zhe-Kun Zhou,Tao Su.Fruits of Firmiana and Craigia (Malvaceae) from the Eocene of the Central Tibetan Plateau with emphasis on biogeographic history[J].Journal of Systematics and Evolution,2022,60(6):1440-1452. 被引量：3

中文信息学报

2022年第12期

浏览历史

内容加载中请稍等...

基于预训练语言模型的藏文文本分类被引量：7

参考文献10

二级参考文献96

共引文献290

同被引文献61

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的藏文文本分类 被引量：7

参考文献10

二级参考文献96

共引文献290

同被引文献61

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的藏文文本分类被引量：7