基于预训练模型的代码分类研究

Research on Code Classification Based on Pre-trained Model

在线阅读下载PDF

导出

摘要代码分类是软件开发与管理的基础工作,有利于代码的重用、理解、查找和维护。现有的有监督学习方法需要大量带标签数据作为训练样本,而数据的标注成本很高,针对这一问题,提出了基于预训练的代码分类方法。首先,对代码进行消除空白、去除低频符号等预处理工作;其次,采用一种基于BERT的预训练模型(CodeBERT)在无标注样本上提取代码的语法、语义和上下文语境等相关特征;最后,基于预训练模型在小样本上微调代码分类器。实验结果表明:该方法即使在较小的训练周期也获得了较好的实验结果,其F1值比文本卷积神经网络(Text-Convolutional Neural Networks,Text-CNN)方法提高了约12%。 Code classification is a basic task for software development and management,which is conducive to code reuse,code comprehension,code search and code maintenance.Existing supervised approaches for code classification require a large number of labeled data,and the cost of data annotation is high.To solve this problem,this paper proposes a pre-trained code classification method.Firstly,preprocess the code by eliminating whitespace and low-frequency symbols.Secondly,a pre-trained model based on BERT(CodeBERT)is adopted to extract relevant features such as syntax,semantics,and context of the code on unlabeled samples.Finally,the classification task is finetuned on the basis of the pre-trained model.The experimental results show that this method achieves good experimental results even in small training cycles,and its F1 value is about 12%higher than that of the Text Convolutional Neural Networks(Text-CNN)method.

作者梁瑶洪庆成王霞谢春丽 LIANG Yao;HONG Qingcheng;WANG Xia;XIE Chunli(School of Computer Science and Technology,Jiangsu Normal University,Xuzhou 221116,China)

机构地区江苏师范大学计算机科学与技术学院

出处《软件工程》 2023年第10期32-35,共4页 Software Engineering

基金江苏省研究生科研与实践创新计划项目(2021XKT1392) 江苏省高等学校大学生创新创业训练计划(202010320035Z) 江苏省现代教育技术研究课题(2022-R-102067) 江苏省教育科学十四五规划立项课题(D/2021/01/139)。

关键词代码表征代码分类预训练模型 code representation code classification pre-trained model

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1冷林珊,刘爽,田承霖,窦淑洁,王赞,张梅山.预训练增强的代码克隆检测技术[J].软件学报,2022,33(5):1758-1773. 被引量：2
2代寒静,涂新辉.基于Pre-RoBERTa-MTL的中文机器阅读理解模型[J].计算机应用,2020,40(S02):12-18. 被引量：4
3周顺先,蒋励,林霜巧,龚德良,王鲁达.基于Word2vector的文本特征化表示方法[J].重庆邮电大学学报（自然科学版）,2018,30(2):272-279. 被引量：22

二级参考文献6

1杨河彬,贺樑,杨静.一种融入用户点击模型Word2Vec查询词聚类[J].小型微型计算机系统,2016,37(4):676-681. 被引量：4
2唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：146
3Tu Shouzhong,Huang Minlie.Mining microblog user interests based on TextRank with TF-IDF factor[J].The Journal of China Universities of Posts and Telecommunications,2016,23(5):40-46. 被引量：20
4梁小波,任飞亮,刘永康,潘凌峰,侯依宁,张熠,李妍.N-Reader:基于双层Self-attention的机器阅读理解模型[J].中文信息学报,2018,32(10):130-137. 被引量：11
5陈秋远,李善平,鄢萌,夏鑫.代码克隆检测研究进展[J].软件学报,2019,30(4):962-980. 被引量：20
6曾杰,贲可荣,张献,李晓伟,周全.基于程序向量树的代码克隆检测[J].计算机科学与探索,2020,14(10):1656-1669. 被引量：6

共引文献25

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
3邓可君,华凯,邓昌明,姜宁,袁玲,彭一明,张治坤.基于机器学习的论文作者名消歧方法研究[J].四川大学学报（自然科学版）,2019,56(2):241-245. 被引量：8
4邱瑶瑶,方勇,黄诚,刘亮,张星.基于语义分析的恶意JavaScript代码检测方法[J].四川大学学报（自然科学版）,2019,56(2):273-278. 被引量：7
5张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16
6康海燕,王紫豪,于爱民,谭雨轩.基于网络日志的用户行为刻画与预测研究[J].郑州大学学报（理学版）,2019,51(3):48-54. 被引量：6
7刘云,黄荣乘.基于指数分布族的类特定文本分类算法[J].重庆邮电大学学报（自然科学版）,2019,31(5):694-701. 被引量：2
8周庆华,李晓丽.基于MCNN的铁路信号设备故障短文本分类方法研究[J].铁道科学与工程学报,2019,16(11):2859-2865. 被引量：16
9张灿阳,刘晓洁.基于改进Simhash的虚拟机镜像去重方法[J].四川大学学报（自然科学版）,2020,57(1):57-65. 被引量：4
10张芮,杨煦晨,琚生根,刘宁宁,谢正文,王婧妍.基于多层次动态门控推理网络的文本蕴含识别[J].四川大学学报（自然科学版）,2020,57(2):277-283. 被引量：2

1黄玮,王坚,吴暄,李思聪.基于BiTCN-SA的恶意代码分类方法[J].空军工程大学学报,2023,24(4):77-84. 被引量：2
2游瑞琼.与形容词相关的考点剖析[J].语数外学习（高中版）（上）,2023(5):72-73.
3孙泽宇,张洁,熊英飞,郝丹,张路.基于同位替换的深度程序生成模型测试及修复方法[J].计算机学报,2023,46(10):2025-2040.
4史江义,温聪,刘鸿瑾,王泽坤,张绍林,马佩军,李康.基于图神经网络的门级硬件木马检测方法[J].电子与信息学报,2023,45(9):3253-3262. 被引量：1

软件工程

2023年第10期

浏览历史

内容加载中请稍等...

基于预训练模型的代码分类研究

参考文献3

二级参考文献6

共引文献25

相关作者

相关机构

相关主题

浏览历史