期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
THUUyMorph:维吾尔语形态切分语料库 被引量:5
1
作者 哈里旦木·阿布都克里木 孙茂松 +1 位作者 刘洋 阿布都克力木·阿布力孜 《中文信息学报》 CSCD 北大核心 2018年第2期81-86,共6页
THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活... THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。 展开更多
关键词 THUUyMorph 维吾尔语 形态切分
在线阅读 下载PDF
维吾尔语机器翻译研究综述 被引量:1
2
作者 哈里旦木·阿布都克里木 侯钰涛 +2 位作者 姚登峰 阿布都克力木·阿布力孜 陈吉尚 《计算机工程》 CSCD 北大核心 2024年第1期1-16,共16页
维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语... 维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语机器翻译发展的不同阶段,研究人员针对其特点在算法和模型上不断优化与创新,取得了一定的研究成果,但缺乏系统性的综述。全面回顾维吾尔语机器翻译的相关研究,并根据方法的不同将其分为基于规则和实例的维吾尔语机器翻译、基于统计的维吾尔语机器翻译以及基于神经网络的维吾尔语机器翻译3种类型,同时对相关学术活动和语料库资源进行汇总。为进一步探索维吾尔语机器翻译的潜力,采用ChatGPT模型对维吾尔语-汉语机器翻译任务进行初步研究,实验结果表明,在Few-shot情景下,随着示例数的增加,翻译性能先升后降,在10-shot时表现最佳。此外,思维链方法在维吾尔语机器翻译任务中并未展示出更优的翻译能力。最后对维吾尔语机器翻译未来的研究方向进行了展望。 展开更多
关键词 维吾尔语 基于规则和实例的机器翻译 统计机器翻译 神经机器翻译 大语言模型
在线阅读 下载PDF
深度学习在骨折诊断中的应用综述 被引量:1
3
作者 哈里旦木·阿布都克里木 冯珂 +2 位作者 史亚庆 尼合买提·阿布都克力 阿布都克力木·阿布力孜 《计算机工程与应用》 CSCD 北大核心 2024年第5期47-61,共15页
深度学习辅助诊断是减少临床中骨折漏诊误诊的有效方法。目前,深度学习在骨折诊断中的研究成果较多,但缺少对该领域研究现状进行总结分析的综述性文章。对领域内现有的文献进行总结;介绍骨折影像及相关数据集;系统地阐述三种基于深度学... 深度学习辅助诊断是减少临床中骨折漏诊误诊的有效方法。目前,深度学习在骨折诊断中的研究成果较多,但缺少对该领域研究现状进行总结分析的综述性文章。对领域内现有的文献进行总结;介绍骨折影像及相关数据集;系统地阐述三种基于深度学习的骨折辅助诊断方法,对各方法中包含的深度学习模型进行比较;按照不同骨折类型进行分类,对各类型骨折诊断中深度学习方法的应用进行展示。分析发现,深度学习在骨折诊断领域的应用和研究已取得显著进展,模型性能可与临床医生相当。但模型在训练时受数据集的影响较大,新的模型和技术较难得到实施。深度学习辅助骨折诊断仍有较大的发展空间。 展开更多
关键词 深度学习 影像数据集 骨折诊断
在线阅读 下载PDF
新型高双折射率高灵敏度光子晶体光纤设计 被引量:1
4
作者 马依拉木·斯得克 薛煜阳 +1 位作者 哈里旦木·阿布都克里木 姚建铨 《光通信技术》 北大核心 2024年第5期67-72,共6页
针对现有光子晶体光纤(PCF)结构复杂、不易制造且灵敏度低的问题,设计了一种用于液体传感的新型高双折射率高灵敏度PCF。这种光纤的纤芯中引入了2种尺寸不同的椭圆形空气孔,而包层则是由相同尺寸的圆形空气孔按四边形排列组成的。利用... 针对现有光子晶体光纤(PCF)结构复杂、不易制造且灵敏度低的问题,设计了一种用于液体传感的新型高双折射率高灵敏度PCF。这种光纤的纤芯中引入了2种尺寸不同的椭圆形空气孔,而包层则是由相同尺寸的圆形空气孔按四边形排列组成的。利用有限元法结合完美匹配层边界条件,借助COMSOL Multiphysics模拟软件对该PCF进行了数值模拟。将水作为传感液体注入纤芯,在1.3~1.8μm的波段范围内对光纤的双折射、限制损耗以及灵敏度进行了详细的分析。研究结果表明:随着波长的增加,新型PCF的双折射率达到了10-2数量级;在波长为1.3μm时,其灵敏度高达54.4%,相较于已有PCF,提升幅度高达1.1~2.5倍。 展开更多
关键词 光子晶体光纤 有限元法 双折射 灵敏度
在线阅读 下载PDF
人工智能在中医诊疗领域的研究综述 被引量:9
5
作者 苏尤丽 胡宣宇 +3 位作者 马世杰 张雨宁 阿布都克力木·阿布力孜 哈里旦木·阿布都克里木 《计算机工程与应用》 CSCD 北大核心 2024年第16期1-18,共18页
中医诊疗领域正逐步迈向标准化、客观化、现代化与智能化。在此过程中,人工智能的融入极大地推动了中医诊疗、科学研究及中医传承的发展。从人工智能在中医领域的研究现状出发,梳理了从最初的专家系统和规则引擎,到逐渐成熟的传统机器... 中医诊疗领域正逐步迈向标准化、客观化、现代化与智能化。在此过程中,人工智能的融入极大地推动了中医诊疗、科学研究及中医传承的发展。从人工智能在中医领域的研究现状出发,梳理了从最初的专家系统和规则引擎,到逐渐成熟的传统机器学习算法,再到如今引领潮流的深度学习三个阶段,人工智能在中医领域的应用发展情况。总结了近年来涌现出的中医知识管理工具和大型模型,这些工具和模型为中医诊疗的智能化提供了坚实的支持。最后针对现阶段人工智能在中医领域中存在的数据公平性、多模态数据理解、模型鲁棒性、个性化医疗及可解释性等多重挑战进行分析。为应对这些挑战,需要持续探索并提出可能的解决方案,以推动中医诊疗智能化的深入发展,更好地满足人民健康需求。 展开更多
关键词 中医诊疗 人工智能 中医知识库 中医大模型
在线阅读 下载PDF
维吾尔语形态词汇解码的频率效应
6
作者 阿布都克力木·阿布力孜 江铭虎 +1 位作者 姚登峰 哈里旦木·阿布都克里木 《现代语言学》 2017年第4期366-374,共9页
本文从心理语言学的角度,通过事件相关电位(ERP)脑电技术,以词汇判断实验范式来研究维吾尔语屈折词和派生词的加工方式。实验材料由高/低频派生词,高/低频屈折词组成。实验材料的词基频率、词长、音节等因素进行严格控制。实验中主要观... 本文从心理语言学的角度,通过事件相关电位(ERP)脑电技术,以词汇判断实验范式来研究维吾尔语屈折词和派生词的加工方式。实验材料由高/低频派生词,高/低频屈折词组成。实验材料的词基频率、词长、音节等因素进行严格控制。实验中主要观察被试在加工不同频率的维吾尔语派生/屈折词加工时的电生理数据和行为数据(反应时间)。实验结果显示维吾尔语派生词和屈折词在加工时间进程上有显著差异,行为数据显示高频屈折词的反应时间比低频词快,但高/低频派生词的反应时间没有差异。总之,维吾尔语派生词是整体加工,但是屈折词是进行分解加工。 展开更多
关键词 维吾尔语 派生词 屈折词 心理语言学
在线阅读 下载PDF
基于自监督特征提取的骨骼X线影像异常检测方法
7
作者 张雨宁 阿布都克力木·阿布力孜 +4 位作者 梅悌胜 徐春 麦尔达娜·买买提热依 哈里旦木·阿布都克里木 侯钰涛 《计算机应用》 CSCD 北大核心 2024年第1期175-181,共7页
为探索自监督特征提取方法在骨骼X线影像异常检测方面的可行性,提出了基于自监督特征提取的骨骼X线影像异常检测方法。将自监督学习框架与ViT(Vision Transformer)模型结合用于骨骼异常检测的特征提取,并通过线性分类器进行异常检测分类... 为探索自监督特征提取方法在骨骼X线影像异常检测方面的可行性,提出了基于自监督特征提取的骨骼X线影像异常检测方法。将自监督学习框架与ViT(Vision Transformer)模型结合用于骨骼异常检测的特征提取,并通过线性分类器进行异常检测分类,在特征提取阶段可有效避免有监督模型对大规模有标注数据的依赖性。在公开的骨骼X线影像数据集上进行实验,采用准确率分别评估预训练的卷积神经网络(CNN)和自监督特征提取的骨骼异常检测模型。实验结果表明,自监督特征提取模型相较于一般的CNN模型效果更优,在7个部位分类结果与有监督的CNN模型ResNet50相差无几,但在肘部、手指、肱骨的异常检测中准确率均取得了最优值,平均准确率提升了5.37个百分点。所提方法易于实现,可以作为放射科医生初步诊断的可视化辅助工具。 展开更多
关键词 自监督学习 特征提取 X线影像 深度学习 异常检测
在线阅读 下载PDF
基于自顶向下算法的维吾尔语句法分析初探 被引量:3
8
作者 阿布都克力木·阿不力孜 哈里旦木·阿布都克里木 +2 位作者 吐尔根·依布拉音 帕里·吐尔逊 艾山·吾买尔 《电脑知识与技术》 2010年第02Z期1182-1183,1185,共3页
该文通过研究国内外相关的句法分析算法与理论,再结合维吾尔语自身的特点对基于规则的维吾尔语句法分析方法进行讨论,由于维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国外经典的句法分析方法同样适合于维吾尔语的... 该文通过研究国内外相关的句法分析算法与理论,再结合维吾尔语自身的特点对基于规则的维吾尔语句法分析方法进行讨论,由于维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国外经典的句法分析方法同样适合于维吾尔语的句法分析,本论文主要讨论了自项向下的的自动句法分析方法。 展开更多
关键词 维吾尔 句法分析 自顶向下
在线阅读 下载PDF
面向“一带一路”的低资源语言机器翻译研究
9
作者 侯钰涛 阿布都克力木·阿布力孜 +2 位作者 史亚庆 马依拉木·斯得克 哈里旦木·阿布都克里木 《计算机工程》 CAS CSCD 北大核心 2024年第4期332-341,共10页
随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一... 随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了初步研究,在越南语-汉语翻译任务中,ChatGPT模型表现出色,远超传统的NMT模型,分别提高了9.28个BLEU值和3.12个chrF++值。 展开更多
关键词 低资源语言 机器翻译 数据增强 多语言预训练模型 大语言模型
在线阅读 下载PDF
形态切分在维吾尔语机器翻译中的性能
10
作者 阿布都克力木·阿布力孜 史亚庆 +3 位作者 侯钰涛 张雨宁 阿力江·亚森 哈里旦木·阿布都克里木 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期694-704,共11页
[目的]为研究形态切分效果与维吾尔语机器翻译性能的关系,对不同的形态切分方法及其与维吾尔语机器翻译性能的关系进行研究.[方法]从有监督学习和无监督学习的角度出发,对比了不同形态切分方法与字节对编码方法在维吾尔语机器翻译任务... [目的]为研究形态切分效果与维吾尔语机器翻译性能的关系,对不同的形态切分方法及其与维吾尔语机器翻译性能的关系进行研究.[方法]从有监督学习和无监督学习的角度出发,对比了不同形态切分方法与字节对编码方法在维吾尔语机器翻译任务中的性能表现,并将自监督学习应用到维吾尔语形态切分上.随后,利用不同切分方法处理后的语料进行机器翻译实验,以观察不同切分方法对翻译结果的影响.最后,对实验结果进行统计学检验,比较不同方法之间的性能差异.[结果]相较于无监督学习,基于有监督学习的形态切分方法能够取得更好的切分效果.本研究提出的方法在维吾尔语-汉语和维吾尔语-英语机器翻译任务上,与字节对编码方法相比多个评价指标之间不存在显著性差异.[结论]形态切分效果与机器翻译质量并不以绝对正相关的形式呈现,本研究提出的方法能够很好地兼顾形态切分效果和翻译质量,并显示出一定的优势. 展开更多
关键词 维吾尔语 机器翻译 形态切分 自监督学习
在线阅读 下载PDF
以Barendregt的变量约定形式化编程语言研究
11
作者 阿力江·亚森 艾合买提·阿不来提 +2 位作者 沙尔尔·帕尔哈提 阿布都克力木·阿布力孜 哈里旦木·阿布都克里木 《计算机工程与科学》 CSCD 北大核心 2024年第10期1807-1814,共8页
编程语言、类型系统和逻辑系统中常见的命名绑定,在实践中实现存在困难。在理论中以抽象思考发现并避免即将发生的变量捕获。在实践中变量捕获的检测需要定义笨拙的辅助操作,使形式化和证明变得复杂。现有几种命名绑定技术旨在表达式具... 编程语言、类型系统和逻辑系统中常见的命名绑定,在实践中实现存在困难。在理论中以抽象思考发现并避免即将发生的变量捕获。在实践中变量捕获的检测需要定义笨拙的辅助操作,使形式化和证明变得复杂。现有几种命名绑定技术旨在表达式具有良好的可读性,无变量捕获的代换操作和直观的证明。然而,这些技术的形式化与理论之间存在差别,两者的表达式和证明过程可能有很大的不同。提出一种命名绑定技术,其中在代换操作和推理规则中引入的表达式刷新函数使形式化遵守Barendregt的变量约定,形式系统的形式化与其理论几乎相同。以无类型λ-演算和具有简单数据类型的λ-演算的形式化展示了该技术的优点。 展开更多
关键词 变量命名 命名绑定 形式系统 Barendregt的变量约定 编程语言理论
在线阅读 下载PDF
多态性λ-演算的直观建模
12
作者 阿力江·亚森 阿布都克力木·阿布力孜 +2 位作者 沙尔尔·帕尔哈提 哈里旦木·阿布都克里木 朱义鑫 《计算机应用与软件》 北大核心 2024年第12期1-8,共8页
命名绑定是在形式系统中的核心概念之一。至于简单性和直观性,现有的命名绑定技术有其优缺点。通过建模语言HyperLMNtal将一种基于超图重写的命名绑定技术应用于具有子类型和结构类型的多态性λ-演算(或System F<:)的类型检查和按值... 命名绑定是在形式系统中的核心概念之一。至于简单性和直观性,现有的命名绑定技术有其优缺点。通过建模语言HyperLMNtal将一种基于超图重写的命名绑定技术应用于具有子类型和结构类型的多态性λ-演算(或System F<:)的类型检查和按值调用的建模,并使用PoplMark挑战的基准测试进行测试。实验结果表明该技术适合于复杂形式系统的快速建模,因为它使程序员无需理论的重新形式化即可将理论转化为实践。 展开更多
关键词 多态性λ-演算 命名绑定 图形重写 建模
在线阅读 下载PDF
预训练语言模型的扩展模型研究综述 被引量:11
13
作者 阿布都克力木·阿布力孜 张雨宁 +2 位作者 阿力江·亚森 郭文强 哈里旦木·阿布都克里木 《计算机科学》 CSCD 北大核心 2022年第S02期43-54,共12页
近些年,Transformer神经网络的提出,大大推动了预训练技术的发展。目前,基于深度学习的预训练模型已成为了自然语言处理领域的研究热点。自2018年底BERT在多个自然语言处理任务中达到了最优效果以来,一系列基于BERT改进的预训练模型相... 近些年,Transformer神经网络的提出,大大推动了预训练技术的发展。目前,基于深度学习的预训练模型已成为了自然语言处理领域的研究热点。自2018年底BERT在多个自然语言处理任务中达到了最优效果以来,一系列基于BERT改进的预训练模型相继被提出,也出现了针对各种场景而设计的预训练模型扩展模型。预训练模型从单语言扩展到跨语言、多模态、轻量化等任务,使得自然语言处理进入了一个全新的预训练时代。主要对轻量化预训练模型、融入知识的预训练模型、跨模态预训练语言模型、跨语言预训练语言模型的研究方法和研究结论进行梳理,并对预训练模型扩展模型面临的主要挑战进行总结,提出了4种扩展模型可能发展的研究趋势,为学习和理解预训练模型的初学者提供理论支持。 展开更多
关键词 自然语言处理 预训练 轻量化 知识融合 多模态 跨语言
在线阅读 下载PDF
深度学习在符号音乐生成中的应用研究综述 被引量:4
14
作者 陈吉尚 哈里旦木·阿布都克里木 +3 位作者 梁蕴泽 阿布都克力木·阿布力孜 米克拉依·艾山 郭文强 《计算机工程与应用》 CSCD 北大核心 2023年第9期27-45,共19页
符号音乐生成是音乐信息检索领域中的一个重要任务。对基于深度学习的符号音乐生成进行了全面总结,并对已有方法进行分类、分析和比较。详细介绍了符号音乐生成研究现状及其任务。阐述符号音乐表征及编码方法,并重点对基于深度学习的模... 符号音乐生成是音乐信息检索领域中的一个重要任务。对基于深度学习的符号音乐生成进行了全面总结,并对已有方法进行分类、分析和比较。详细介绍了符号音乐生成研究现状及其任务。阐述符号音乐表征及编码方法,并重点对基于深度学习的模型进行归纳比较与分析,根据不同的基础架构分为三类。阐述并归纳符号音乐生成领域的评价标准及数据集等资源,对代表性模型的性能进行评估对比。指出该领域目前存在的问题并提出相应的展望。 展开更多
关键词 人工智能 符号音乐 智能作曲 深度学习 神经网络
在线阅读 下载PDF
融合剪枝和多语微调的黏着语命名实体识别 被引量:1
15
作者 罗凯昂 哈里旦木·阿布都克里木 +2 位作者 刘畅 阿布都克力木·阿布力孜 郭文强 《计算机工程与应用》 CSCD 北大核心 2023年第24期121-130,共10页
以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CIN... 以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CINO新版本:CINO-Agglu。为了探讨最佳微调策略,缓解低资源问题,对维吾尔语、哈萨克语、柯尔克孜语、乌兹别克语、塔塔尔语等五种黏着语分别进行单语言和多语言微调。实验结果表明,CINO-Agglu相较于剪枝前,模型大小、参数量、词表大小、推理时间分别减少45%、44%、92%、38%,并且在五种语言上的平均F1值为85.9%,超过了所有基线模型。加入适当规模的同语族数据有利于提升微调效果。 展开更多
关键词 黏着语 低资源语言 命名实体识别 多语言迁移 模型剪枝
在线阅读 下载PDF
融合字符串特征的维吾尔语形态切分 被引量:1
16
作者 阿布都克力木·阿布力孜 刘畅 +1 位作者 哈里旦木·阿布都克里木 郭文强 《计算机仿真》 北大核心 2022年第7期257-262,共6页
维吾尔语是一种典型的低资源黏着语,在形态方面存在组合性和歧义性等技术处理难点。针对维吾尔语未登录词和低频率语素的识别困难等问题,提出融合字符串特征的形态切分方法。先利用多尺度卷积神经网络提取字符串特征,再利用双向长短期... 维吾尔语是一种典型的低资源黏着语,在形态方面存在组合性和歧义性等技术处理难点。针对维吾尔语未登录词和低频率语素的识别困难等问题,提出融合字符串特征的形态切分方法。先利用多尺度卷积神经网络提取字符串特征,再利用双向长短期记忆模型对字符和字符串进行上下文编码,最后使用CRF推断。实验结果表明,上述模型优于现有的维吾尔语形态切分模型,充分利用多尺度字符串特征有利于提高F-Score等方面性能。 展开更多
关键词 维吾尔语 自然语言处理 形态切分 多尺度卷积神经网络 双向长短期记忆模型 条件随机场
在线阅读 下载PDF
中文预训练模型研究进展 被引量:12
17
作者 侯钰涛 阿布都克力木·阿布力孜 哈里旦木·阿布都克里木 《计算机科学》 CSCD 北大核心 2022年第7期148-163,共16页
近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多... 近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾,首先介绍预训练模型的基本概况及其发展历史,对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理,然后根据不同模型所属类别提出了中文预训练模型的分类方法,并总结了中文领域的不同评测基准,最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程,继而为新模型的提出提供思路。 展开更多
关键词 中文预训练模型 自然语言处理 词向量 预处理 深度学习
在线阅读 下载PDF
维吾尔语形态分析研究综述 被引量:3
18
作者 刘畅 阿布都克力木·阿布力孜 +1 位作者 姚登峰 哈里旦木·阿布都克里木 《计算机工程与应用》 CSCD 北大核心 2021年第15期42-61,共20页
维吾尔语具有形态丰富性、黏着性和数据稀疏性等特点,处理技术和英汉等热门语言有着较大差距并且未能满足新疆地区发展需求。形态分析是自然语言处理的重要组成部分,研究维吾尔语形态分析对于推动维吾尔语信息处理技术发展有着重要意义... 维吾尔语具有形态丰富性、黏着性和数据稀疏性等特点,处理技术和英汉等热门语言有着较大差距并且未能满足新疆地区发展需求。形态分析是自然语言处理的重要组成部分,研究维吾尔语形态分析对于推动维吾尔语信息处理技术发展有着重要意义。简述了维吾尔语语法,描述了维吾尔语自然语言处理、形态分析及其相关基本资源研究现状,将常见方法分为基于规则、基于词典、基于统计、基于深度学习和基于混合5大类并分析了各种方法的优劣,介绍了维吾尔语形态分析后续研究,借鉴了先进的词法分析方法,总结了维吾尔语形态分析面临的挑战和机遇,并对其未来发展趋势进行展望。 展开更多
关键词 维吾尔语 自然语言处理 形态分析 音变还原 词干提取 形态切分
在线阅读 下载PDF
λ-演算归约策略的简易建模
19
作者 阿力江·亚森 阿布都克力木·阿布力孜 +1 位作者 朱义鑫 哈里旦木·阿布都克里木 《计算机工程与设计》 北大核心 2022年第9期2578-2583,共6页
在大多数基于图形的计算技术中,理论上的表达式与其图形表示并不相似,且它们的计算方式彼此不对应。出于理论研究需要一种与理论极为相似的计算技术。基于超图重写技术对无类型λ-演算的完全归约、按名称调用归约和按值调用归约进行建... 在大多数基于图形的计算技术中,理论上的表达式与其图形表示并不相似,且它们的计算方式彼此不对应。出于理论研究需要一种与理论极为相似的计算技术。基于超图重写技术对无类型λ-演算的完全归约、按名称调用归约和按值调用归约进行建模。利用超图重写技术得到的以超图表示的λ-表达式在形式上与理论上的λ-表达式相似,以超图重写规则实现的计算过程与理论上的计算过程相对应,使该技术成为编程语言理论研究和快速建模演示的有利工具。 展开更多
关键词 λ-演算 归化策略 超图重写 建模 编程语言
在线阅读 下载PDF
维吾尔语形态切分的元学习方法
20
作者 张雨宁 李文卓 +1 位作者 哈里旦木·阿布都克里木 阿布都克力木·阿布力孜 《计算机工程与应用》 CSCD 北大核心 2023年第11期98-104,共7页
随着深度学习的发展,维吾尔语形态切分的准确率得到了大幅提升,但对数据量的需求较高,而元学习方法通过对以往任务的学习,有效缓解了模型对数据量的依赖,在低资源领域应用广泛。因此提出维吾尔语形态切分的元学习方法,该方法主要通过对... 随着深度学习的发展,维吾尔语形态切分的准确率得到了大幅提升,但对数据量的需求较高,而元学习方法通过对以往任务的学习,有效缓解了模型对数据量的依赖,在低资源领域应用广泛。因此提出维吾尔语形态切分的元学习方法,该方法主要通过对以往任务的训练,获得一组具有快速适应新任务能力的参数,从而在新任务上实现快速泛化。实验根据数据的相似度构建N个伪元学习任务,完成元学习支撑集和查询集的划分,使用Transformer的编码器对维吾尔语数据进行编码,采用元学习方法实现对少样本环境下的维吾尔语形态切分。实验结果表明,在维吾尔语形态切分的少样本任务中元学习方法优于预训练模型,有效避免了模型的过拟合,缓解了数据稀疏性对模型的影响。 展开更多
关键词 元学习 形态切分 维吾尔语
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部