期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于Prompt和文本嵌入的刑事卷宗特征提取与信访风险评估模型的构建
1
作者 申强 《电脑知识与技术》 2024年第13期34-36,共3页
在刑事案件办理过程中,如何自动且有效地提取非结构化卷宗数据中的特征信息,是提升信访风险评估模型精度的关键问题。本研究提出利用自然语言处理技术,基于Prompt方法对卷宗提取特征文本,并采用文本嵌入模型对提取的特征进行向量化处理... 在刑事案件办理过程中,如何自动且有效地提取非结构化卷宗数据中的特征信息,是提升信访风险评估模型精度的关键问题。本研究提出利用自然语言处理技术,基于Prompt方法对卷宗提取特征文本,并采用文本嵌入模型对提取的特征进行向量化处理及相似度归一化,进而训练出风险评估预测模型。实验结果表明,该方法能够显著提高特征表达能力,并提升评估模型在检测信访风险中的性能。未来,可以构建端到端的混合模型,以实现完全自动化的特征提取与风险预测。 展开更多
关键词 风险评估 特征工程 文本嵌入 文本相似度
在线阅读 下载PDF
文本嵌入技术的研究与应用进展 被引量:3
2
作者 赵悦阳 崔雷 《数据与计算发展前沿》 CSCD 2023年第3期92-110,共19页
[目的]本文对国内外已经发表的自然语言处理领域有关文本嵌入的研究进行较深入的分析和对比,详细描述文本嵌入的知识结构和发展脉络,以及针对不同领域、不同数据集的模型改进方法,讨论流行的嵌入模型,比较每个模型在文本嵌入中的优缺点... [目的]本文对国内外已经发表的自然语言处理领域有关文本嵌入的研究进行较深入的分析和对比,详细描述文本嵌入的知识结构和发展脉络,以及针对不同领域、不同数据集的模型改进方法,讨论流行的嵌入模型,比较每个模型在文本嵌入中的优缺点,同时指出文本嵌入所面临的挑战,提出可能的解决方案。[方法]检索Web of Science数据库、CNKI数据库和万方数据,获取国内外文本嵌入研究的相关文献,运用内容分析法对文献做系统梳理分析,对这些文献中利用的文本嵌入技术以及改进方案、建模思想、生成过程等方面进行对比与分析。[结果]经过去重和合并,保留内容最相关的61篇文献。文本嵌入方法可以归纳为三类:基于频率的文本嵌入、基于神经网络的文本嵌入和基于主题建模的文本嵌入。针对语料库的规模大小、多义词嵌入、通用嵌入的域适应等文本嵌入所面临的挑战,从被调查的研究文章中提出了可能的解决方案。 展开更多
关键词 文本嵌入 自然语言处理 内容分析法
在线阅读 下载PDF
多模态与文本预训练模型的文本嵌入差异研究 被引量:3
3
作者 孙宇冲 程曦苇 +3 位作者 宋睿华 车万翔 卢志武 文继荣 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第1期48-56,共9页
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变... 为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系。实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词。另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系。 展开更多
关键词 多模态预训练 文本表示 文本嵌入分析
在线阅读 下载PDF
基于文本嵌入特征表示的恶意软件家族分类 被引量:5
4
作者 张涛 王俊峰 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期441-449,共9页
自动化、高效率和细粒度是恶意软件检测与分类领域目前面临的主要挑战.随着深度学习在图像处理、语音识别和自然语言处理等领域的成功应用,其在一定程度上缓解了传统分析方法在人力和时间成本上的巨大压力.因此本文提出一种自动、高效... 自动化、高效率和细粒度是恶意软件检测与分类领域目前面临的主要挑战.随着深度学习在图像处理、语音识别和自然语言处理等领域的成功应用,其在一定程度上缓解了传统分析方法在人力和时间成本上的巨大压力.因此本文提出一种自动、高效且细粒度的恶意软件分析方法-mal2vec,其将每个恶意软件看成是一个具有丰富行为语义信息的文本,文本的内容由恶意软件动态执行时的API序列构成,采用经典的神经概率模型Doc2Vec对文本集进行训练学习.实验结果表明,与Rieck[1]等人的分类效果相比,本文方法得到的效果有明显提升.特别的,不同于其他深度学习的方法,本文方法能够抽取模型训练的中间结果进行显式表示,这种显式的中间结果表示具有可解释性,可以让我们从细粒度层面分析恶意软件家族的行为模式. 展开更多
关键词 恶意软件 分类 文本嵌入 Doc2Vec
在线阅读 下载PDF
视觉语言模型引导的文本知识嵌入的小样本增量学习
5
作者 姚涵涛 余璐 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第5期2101-2119,共19页
真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型... 真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型对于新数据的迁移和旧数据的抗遗忘.但是少量数据的视觉特征往往难以建模一个类别的完整特征分布,导致上述算法的泛化能力较弱.相比于视觉特征,图像类别描述的文本特征具有较好的泛化性和抗遗忘性.因此,在视觉语言模型的基础上,研究基于文本知识嵌入的小样本增量学习,通过在视觉特征中嵌入具有抗遗忘能力的文本特征,实现小样本增量学习中新旧类别数据的有效学习.具体而言,在基础学习阶段,利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述,并通过文本编码器实现预训练视觉特征到文本空间的映射.进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征.在增量学习阶段,提出类别空间引导的抗遗忘学习,利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器,实现新数据知识学习的同时复习旧知识.在4个数据集(CIFAR-100,CUB-200,Car-196和mini Image Net)上验证算法的有效性,证明基于视觉语言模型文本知识嵌入可以在视觉特征的基础上进一步提升小样本增量学习的鲁棒性. 展开更多
关键词 小样本增量学习 视觉语言模型 文本知识嵌入 类别空间引导的抗遗忘学习
在线阅读 下载PDF
基于B/S结构的嵌入式超文本编辑器的设计与实现 被引量:2
6
作者 王磊 史烈 陈小平 《计算机工程》 CAS CSCD 北大核心 2002年第2期104-105,119,共3页
介绍了基于结构的嵌入式超文本格式编辑器的设计和实现方法。
关键词 嵌入式超文本编辑器 B/S结构 文档格式 文本标记语言 INTERNET
在线阅读 下载PDF
基于改进归纳式图卷积网络的文本分类方法 被引量:1
7
作者 赵钦 郑成博 《计算机工程与设计》 北大核心 2023年第4期1144-1150,共7页
针对图嵌入式文本分类方法在预测性能和归纳能力方面的缺陷,在文本图卷积网络(TextGCN)的基础上,进行适当改进。结合预测文本嵌入(PTE)的高效训练和归纳性,在各个网络层中使用不同的图;通过异质图卷积网络架构来学习特征嵌入,利用习得... 针对图嵌入式文本分类方法在预测性能和归纳能力方面的缺陷,在文本图卷积网络(TextGCN)的基础上,进行适当改进。结合预测文本嵌入(PTE)的高效训练和归纳性,在各个网络层中使用不同的图;通过异质图卷积网络架构来学习特征嵌入,利用习得的特征进行归纳推理。实验结果表明,在大量训练样本标注的情况下,所提方法取得了与其它方法相当或稍优的性能。在少量训练样本标注的情况下,所提方法表现更优,性能增益范围为2%~7%,支持更快的训练和泛化性。 展开更多
关键词 文本分类 预测性能 文本图卷积网络 异质图卷积网络 预测文本嵌入 归纳推理 特征嵌入
在线阅读 下载PDF
FLASH动画中文本的应用分析 被引量:1
8
作者 高杨 《电子技术与软件工程》 2014年第15期94-94,共1页
制作Flash动画时不可或缺的元素就是文本,添加文本,一方面能凸显动画的主题,另一方面也可以为文本添加超链接和嵌入文本。本文主要详细介绍传统文本和TLE文本的创建以及各个属性的设置。
关键词 静态文本 动态文本 输入文本 TLF文本 嵌入文本
在线阅读 下载PDF
基于自属性强关联交叉融合的电影票房预测
9
作者 朱衍熹 张明西 冒鸿宇 《计算机技术与发展》 2025年第1期109-116,共8页
电影属性多元且复杂,特征与票房关系的提取难度大。针对该问题,提出一种基于自属性强关联交叉融合的电影票房预测模型。扩展元数据中的离散型属性构建实值-离散表征;利用BERT提取文本属性词级表征和BILSTM-Attention提取文本属性句级表... 电影属性多元且复杂,特征与票房关系的提取难度大。针对该问题,提出一种基于自属性强关联交叉融合的电影票房预测模型。扩展元数据中的离散型属性构建实值-离散表征;利用BERT提取文本属性词级表征和BILSTM-Attention提取文本属性句级表征,融合构建文本强嵌入表征;提出一种均值多头相似度机制计算特征之间的关联相似度,在自属性与时序属性两个层面构建属性强关联表征,且当Heads取值为16时预测效果最佳;基于自属性强关联交叉融合表征矩阵利用改进的AlexNet网络构建票房预测模型。在大型IMDB电影数据集上的实验结果表明,该模型优于其他方法,MAE:0.7047,相比基线模型降低11%,MSE:0.7421,降低23%,平均SmoothL1Loss:0.3374,降低19%,RMSE:0.8614,降低12%。消融实验证明属性强关联表征和BERT模块对模型影响最大。该方法体现出卓越的票房预测能力,为影视从业人员提供参考与建议。 展开更多
关键词 实值-离散表征 文本嵌入表征 属性强关联表征 均值多头相似度 BERT BILSTM-Attention 票房
在线阅读 下载PDF
民族服装图像描述生成的局部属性注意网络
10
作者 张绪辉 刘骊 +2 位作者 付晓东 刘利军 彭玮 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第3期399-412,共14页
针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30000幅图像,约3600 MB的民族服装图像描述生成数据... 针对民族服装图像属性信息复杂、类间相似度高且语义属性与视觉信息关联性低,导致图像描述生成结果不准确的问题,提出民族服装图像描述生成的局部属性注意网络.首先构建包含55个类别、30000幅图像,约3600 MB的民族服装图像描述生成数据集;然后定义民族服装208种局部关键属性词汇和30089条文本信息,通过局部属性学习模块进行视觉特征提取和文本信息嵌入,并采用多实例学习得到局部属性;最后基于双层长短期记忆网络定义包含语义、视觉、门控注意力的注意力感知模块,将局部属性、基于属性的视觉特征和文本编码信息进行融合,优化得到民族服装图像描述生成结果.在构建的民族服装描述生成数据集上的实验结果表明,所提出的网络能够生成包含民族类别、服装风格等关键属性的图像描述,较已有方法在精确性指标BLEU和语义丰富程度指标CIDEr上分别提升1.4%和2.2%. 展开更多
关键词 民族服装图像 图像描述生成 文本信息嵌入 局部属性学习 注意力感知
在线阅读 下载PDF
一种利用注意力增强卷积的暗网用户对齐方法 被引量:1
11
作者 杨燕燕 杜彦辉 +3 位作者 刘洪梦 赵佳鹏 时金桥 王学宾 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2023年第4期206-214,共9页
暗网用户在地下市场从事大量违法犯罪活动,暗网的匿名性给暗网用户之间的沟通交流带来了极大的便利,但也给执法人员带来了极大困难。近年来,深度神经网络在各个领域取得广泛成功,越来越多的研究者开始利用神经网络对匿名的网络文本作者... 暗网用户在地下市场从事大量违法犯罪活动,暗网的匿名性给暗网用户之间的沟通交流带来了极大的便利,但也给执法人员带来了极大困难。近年来,深度神经网络在各个领域取得广泛成功,越来越多的研究者开始利用神经网络对匿名的网络文本作者进行身份识别。为了更好地进行暗网用户对齐,寻找更多同一身份的不同用户,笔者借用神经网络方法进行暗网用户身份识别和对齐。然而已有的方法主要面向短文本,不擅长处理全局和长序列信息。文中提出了一种自注意机制来增强卷积算子,利用长序列信息来建模暗网用户发表的网络文本的方法,从文本内容入手,对匿名的暗网用户进行多账号关联,达到聚合多个匿名账号信息的目的,为获取用户的真实身份提供更多线索。笔者在两个不同的暗网市场论坛进行全面评估,将提出的方法与当前最先进的技术进行了比较。结果表明提出的方法非常有效,在两个公开数据集上平均检索排名(MRR)分别提高约2.9%和3.6%,Recall@10分别提高约2.3%和3.0%。这项评估为该方法在暗网市场论坛中的有效性提供了强有力的证据。 展开更多
关键词 文本嵌入 注意力机制 卷积算子 长序列信息
在线阅读 下载PDF
基于迁移学习的越南语语音合成 被引量:2
12
作者 杨琳 杨鉴 +1 位作者 蔡浩然 刘聪 《计算机科学》 CSCD 北大核心 2023年第8期118-124,共7页
越南语是越南社会主义共和国的官方语言,属南亚语系越芒语族越语支。近年来基于深度学习的语音合成已经能够合成出高质量的语音,然而这类方法通常依赖于大规模的高质量语音训练数据。解决某些低资源非通用语语音训练数据不足问题的一种... 越南语是越南社会主义共和国的官方语言,属南亚语系越芒语族越语支。近年来基于深度学习的语音合成已经能够合成出高质量的语音,然而这类方法通常依赖于大规模的高质量语音训练数据。解决某些低资源非通用语语音训练数据不足问题的一种有效途径为:采用迁移学习方法并借用其他高资源通用语语音数据。在低资源条件下,以提高越南语语音合成质量为目标,选用端到端语音合成模型Tacotorn2作为基线模型,采用迁移学习方法研究不同源语言和不同文本字符嵌入方式、迁移学习方式对语音合成效果的影响;然后从主观和客观两方面对文中阐述的各种模型所合成的语音进行测评。实验结果表明,基于英语音素嵌入+越南语音素嵌入方式的迁移学习系统在合成自然可懂的越南语语音上取得了较好的结果,合成语音的MOS评分可达4.11分,远高于基线系统的2.53分。 展开更多
关键词 越南语 语音合成 迁移学习 文本嵌入 端到端
在线阅读 下载PDF
向量搜索在电商商品批量检索的应用
13
作者 朱俊 《宝钢技术》 CAS 2023年第4期13-16,共4页
随着电子商务的快速发展,商品数据量逐渐增长,为用户提供精准且高效的搜索结果变得尤为重要。在工业品电商领域,批量检索是一种常见的用户需求,尤其是针对采购清单等场景。传统基于分词索引的搜索技术在大规模数据下的批量检索方面面临... 随着电子商务的快速发展,商品数据量逐渐增长,为用户提供精准且高效的搜索结果变得尤为重要。在工业品电商领域,批量检索是一种常见的用户需求,尤其是针对采购清单等场景。传统基于分词索引的搜索技术在大规模数据下的批量检索方面面临着许多挑战,如搜索速度慢、语义理解不足等。为解决这些问题,引入了向量搜索方法,以提高电商商品批量检索的效率和效果。 展开更多
关键词 电商 批量检索 ES搜索 向量搜索 文本嵌入
在线阅读 下载PDF
基于内容的推荐算法在专题数据库中的应用研究
14
作者 郑志军 《信息与电脑》 2023年第15期116-119,共4页
随着信息技术在各行业的应用以及文献资源的数字化,文献管理方式也逐步转变为专题数据库的信息化管理方式。然而,文献情报数据的爆炸式增长引起的信息过载使得越来越难以在海量文献中找到合适的信息,因此构建一个能够实现相关内容推荐... 随着信息技术在各行业的应用以及文献资源的数字化,文献管理方式也逐步转变为专题数据库的信息化管理方式。然而,文献情报数据的爆炸式增长引起的信息过载使得越来越难以在海量文献中找到合适的信息,因此构建一个能够实现相关内容推荐的专题数据库,实现主动为用户寻找相关专题文献就具有重要的现实意义。基于内容的推荐算法引入专题数据库,使用基于文本嵌入及用户画像的方式为用户推荐专题文献。 展开更多
关键词 专题数据库 推荐算法 文本嵌入 用户画像
在线阅读 下载PDF
A Hybrid Method of Extractive Text Summarization Based on Deep Learning and Graph Ranking Algorithms 被引量:1
15
作者 SHI Hui WANG Tiexin 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2022年第S01期158-165,共8页
In the era of Big Data,we are faced with an inevitable and challenging problem of“overload information”.To alleviate this problem,it is important to use effective automatic text summarization techniques to obtain th... In the era of Big Data,we are faced with an inevitable and challenging problem of“overload information”.To alleviate this problem,it is important to use effective automatic text summarization techniques to obtain the key information quickly and efficiently from the huge amount of text.In this paper,we propose a hybrid method of extractive text summarization based on deep learning and graph ranking algorithms(ETSDG).In this method,a pre-trained deep learning model is designed to yield useful sentence embeddings.Given the association between sentences in raw documents,a traditional LexRank algorithm with fine-tuning is adopted fin ETSDG.In order to improve the performance of the extractive text summarization method,we further integrate the traditional LexRank algorithm with deep learning.Testing results on the data set DUC2004 show that ETSDG has better performance in ROUGE metrics compared with certain benchmark methods. 展开更多
关键词 extractive text summarization deep learning sentence embeddings LexRank
在线阅读 下载PDF
Performance Analysis and Framework Optimization of Open Source Cloud Storage System 被引量:1
16
作者 Lei Li Dagang Li +2 位作者 Zhiliang Su Lianwen Jin Ganbo Huang 《China Communications》 SCIE CSCD 2016年第6期110-122,共13页
More and more embedded devices, such as mobile phones, tablet PCs and laptops, are used in every field, so huge files need to be stored or backed up into cloud storage. Optimizing the performance of cloud storage is v... More and more embedded devices, such as mobile phones, tablet PCs and laptops, are used in every field, so huge files need to be stored or backed up into cloud storage. Optimizing the performance of cloud storage is very important for Internet development. This paper presents the performance evaluation of the open source distributed storage system, a highly available, distributed, eventually consistent object/blob store from Open Stack cloud computing components. This paper mainly focuses on the mechanism of cloud storage as well as the optimization methods to process different sized files. This work provides two major contributions through comprehensive performance evaluations. First, it provides different configurations for Open Stack Swift system and an analysis of how every component affects the performance. Second, it presents the detailed optimization methods to improve the performance in processing different sized files. The experimental results show that our method improves the performance and the structure. We give the methods to optimize the object-based cloud storage system to deploy the readily available storage system. 展开更多
关键词 Cloud Computing OpenStack Swift Object Storage Distribute System Storage Service Optimization
在线阅读 下载PDF
深度多模态融合服装风格检索 被引量:5
17
作者 苏卓 柯司博 +1 位作者 王若梅 周凡 《中国图象图形学报》 CSCD 北大核心 2021年第4期857-871,共15页
目的服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服... 目的服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法提出分层深度哈希检索模型,基于预训练的残差网络Res Net(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果在Polyvore数据集上,与原始Res Net模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。 展开更多
关键词 多模态服装检索 哈希特征 文本嵌入 风格相似性 深度哈希
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部