-
题名基于大语言模型的燃气事故调查报告实体识别
- 1
-
-
作者
王明达
赵宝熙
吴志生
冷高强
-
机构
中国石油大学(华东)机电工程学院
-
出处
《中国安全生产科学技术》
北大核心
2025年第2期139-145,共7页
-
基金
国家自然科学基金项目(52075549)。
-
文摘
为解决样本稀少对大语言模型(LLM)在燃气事故调查报告中的实体识别精度影响显著的问题,提出1种基于两阶段训练的大语言模型实体识别方法。在数据集构建阶段,LLM根据对话式指令微调模板自动生成燃气事故调查报告数据集,采用简单数据增强(EDA)技术扩充人工标注的关键样本;在模型微调训练阶段,采用低秩适配微调技术对Phi3-mini-128k模型进行微调训练,第1阶段微调训练利用LLM自动标注数据集,在训练基础上利用增强数据集对模型进行第2阶段微调训练。研究结果表明:经过第1阶段微调训练后,Phi3-mini-rq模型的实体识别综合评价指标提高11.01百分点;当EDA增强数据占总数据的50%时,模型第2阶段微调效果最佳,综合评价指标值进一步提升2.49百分点。研究结果可为燃气领域的事故报告自动化处理提供有效技术支持。
-
关键词
燃气事故调查报告
命名实体识别
大语言模型
指令微调
数据增强
-
Keywords
gas accident investigation report
named entity recognition
large language model
instruction fine-tuning
data enhancement
-
分类号
X937
[环境科学与工程—安全科学]
-