期刊文献+
共找到680篇文章
< 1 2 34 >
每页显示 20 50 100
基于电网对账系统的TF-IDF优化算法
1
作者 王岩 郭威 +1 位作者 隋海滨 符贵谦 《兵工自动化》 北大核心 2025年第4期83-87,共5页
为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S... 为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S)架构下的TF-IDF算法优化设计方法,对B/S架构下使用TF-IDF算法优化设计在电网系统中的综合应用效果进行分析。结果表明:该算法的对账效果提升明显,为优化电网对账系统提供了技术基础,为提升电网集团服务质量做出了贡献。 展开更多
关键词 电网集团 B/S架构 tf-idf算法 电网对账系统 对账效果
在线阅读 下载PDF
基于改进TF-IDF的FastText新闻文本分类算法
2
作者 李卫卫 葛欣杭 刘晓丹 《电脑与电信》 2025年第1期27-31,共5页
新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本... 新闻文本种类较多、内容繁杂,在分类时较易产生关键词缺失、特征提取不全面等问题,导致文本分类准确率降低。因此在分类特征提取以及模型输入层进行了改进,提出一种基于改进TF-IDF的FastText文本分类算法,并将该方法应用至财经新闻文本数据,以验证该模型的分类性能。实验结果表明,所提分类模型的财经新闻文本分类精确率达到95.82%,相较于对比方案,最高提升6.91%,证明所提方案具有一定的有效性以及可行性,能够有效提升新闻文本分类效果。 展开更多
关键词 新闻文本分类 FastText 特征因子 离散度 改进tf-idf
在线阅读 下载PDF
Research on User Profile Construction Method Based on Improved TF-IDF Algorithm
3
作者 SHAO Ze-ming LI Yu-ang +4 位作者 YANG Ke WANG Guo-peng LIU Xing-guo CHEN Han-ning SI Zhan-jun 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第6期110-116,共7页
In the data-driven era of the internet and business environments,constructing accurate user profiles is paramount for personalized user understanding and classification.The traditional TF-IDF algorithm has some limita... In the data-driven era of the internet and business environments,constructing accurate user profiles is paramount for personalized user understanding and classification.The traditional TF-IDF algorithm has some limitations when evaluating the impact of words on classification results.Consequently,an improved TF-IDF-K algorithm was introduced in this study,which included an equalization factor,aimed at constructing user profiles by processing and analyzing user search records.Through the training and prediction capabilities of a Support Vector Machine(SVM),it enabled the prediction of user demographic attributes.The experimental results demonstrated that the TF-IDF-K algorithm has achieved a significant improvement in classification accuracy and reliability. 展开更多
关键词 tf-idf-K algorithm User profiling Equalization factor SVM
在线阅读 下载PDF
基于TF-IDF算法的运营商客户投诉原因研究 被引量:3
4
作者 张爱华 孙嘉鸿 《北京邮电大学学报(社会科学版)》 2024年第2期39-49,共11页
针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值... 针对运营商人工处理客户投诉工单高成本低效率问题,提出了一种基于TF-IDF算法的定量研究方法,旨在高效精准地识别客户投诉原因。选用Jieba分词,导入自定义词典和停用词列表,对运营商客户投诉工单进行关键词抽取,获取各类问题中TF-IDF值排名前6的关键词,输出关键词集。提高了关键词抽取的准确性和效率。此外,对比仅对文档集使用TF进行统计和使用TextRank算法的情况,突显了IDF的重要性及算法原理的差异。实验结果表明,光猫、路由器、机顶盒问题广泛存在于各类投诉中。针对这三类问题,为运营商提供了改进产品、服务的相关建议,对运营商集中治理、解决问题具有一定的实用价值。 展开更多
关键词 投诉工单 投诉原因 关键词抽取 tf-idf
在线阅读 下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:9
5
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 tf-idf算法 Transformer模型
在线阅读 下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:4
6
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
在线阅读 下载PDF
长三角一体化发展特征与动力探究——基于TF-IDF算法与格兰杰检验
7
作者 关硕 赵雪 刘毅 《科技和产业》 2024年第5期40-47,共8页
从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设... 从政策观念视角出发,深入探讨长三角区域一体化发展进程,有助于洞察区域内生发展动力和经济增长潜力。应用话语制度主义和间断-均衡框架,结合TF-IDF(词频-逆文档频率)算法与格兰杰检验,揭示长三角一体化发展特征与动因。研究发现:建设主体对5个发展目标的注意力分配不均衡;在创新共建目标方面,地方主体的注意力变动会引起中央主体的注意力变动;长三角一体化发展呈现小间断大均衡特征,体现“自下而上”的地方主导模式。 展开更多
关键词 长三角一体化 话语制度主义 间断-均衡框架 tf-idf(词频-逆文件频率)算法 格兰杰检验
在线阅读 下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
8
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 tf-idf-RANK方法 特征选择 二进制灰狼优化
在线阅读 下载PDF
基于TF⁃IDF算法的舆情分析研究——以日本排放核废水事件为例
9
作者 杜宇灏 李环宇 林晓霞 《现代计算机》 2024年第23期108-112,共5页
日本核废水排海事件在互联网引起了极大的反响,迅速放大扩散到社会多个方面形成了一次舆情事件,在一定程度上影响到了社会管理甚至社会的安定。由此可见及时捕捉网络舆情,分析其特点,相关职能部分据此采取化解防范措施,已经成为当前亟... 日本核废水排海事件在互联网引起了极大的反响,迅速放大扩散到社会多个方面形成了一次舆情事件,在一定程度上影响到了社会管理甚至社会的安定。由此可见及时捕捉网络舆情,分析其特点,相关职能部分据此采取化解防范措施,已经成为当前亟待解决的问题。针对这一需求,开发了一个基于TF⁃IDF和Word2Vec算法的舆情监测程序。首先对微博内容文本进行清洗和分词处理,后利用TF⁃IDF算法提取微博文本关键词;其次按照关键词权重排序并生成词云图;最后将单词转换为高维向量并可视化在二维平面上,为舆情监测提供决策依据。 展开更多
关键词 核废水 舆情监测 tfidf 可视化
在线阅读 下载PDF
基于改进TF-IDF和AGLCNN的新闻长文本分类模型
10
作者 周宪溪 牟莉 《计算机与现代化》 2024年第8期120-126,共7页
新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-ID... 新闻长文本分类是自然语言处理中的一项重要任务,但传统的文本表示方法存在特征稀疏、语义不足等问题。此外,新闻长文本含有大量的冗余信息,并且可能涉及其他主题,以上问题都会导致文本特征提取不全面。为此,本文提出一种基于改进TF-IDF算法和AGLCNN的新闻长文本分类模型。该模型首先利用特征项在类间与类内分布情况及其位置信息来改进TF-IDF算法,并结合Word2Vec词向量进行文本表示;利用注意力机制突出关键字信息,输入至Bi-LSTM捕获文本上下文特征;接着利用CNN突出新闻主题的显著特征;考虑到新闻长文本中可能存在涉及其他主题信息的句子,引入门控机制对Bi-LSTM和CNN输出特征进行融合,获得最终的文本特征表示;最后,将特征向量输入Softmax层进行新闻分类。在THUCNews数据集和搜狐新闻数据集上进行对比实验,结果表明,所提模型在2个数据集上的召回率分别为0.985和0.976,优于其他分类模型。 展开更多
关键词 文本分类 tf-idf 注意力机制 卷积神经网络 特征项
在线阅读 下载PDF
基于TF-IDF相似度的标签聚类方法 被引量:22
11
作者 韩敏 唐常杰 +2 位作者 段磊 李川 巩杰 《计算机科学与探索》 CSCD 2010年第3期240-246,共7页
社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和... 社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和基于该相似度的聚类算法;(2)分析了影响标签相似度的条件;(3)通过实验表明:与已有方法相比,新方法的准确性更高。 展开更多
关键词 标签聚类 相似度 社会标签系统 tfidf技术
在线阅读 下载PDF
基于TF*IDF的垃圾邮件过滤特征选择改进算法 被引量:6
12
作者 陈琦 伍朝辉 +2 位作者 姚芳 宋秀荣 张付志 《计算机应用研究》 CSCD 北大核心 2009年第6期2165-2167,共3页
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点... 随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。 展开更多
关键词 垃圾邮件 过滤器 贝叶斯 特征选择 tfidf
在线阅读 下载PDF
基于行业专有词典的TF-IDF特征选择算法改进 被引量:7
13
作者 张齐勋 刘宏志 +2 位作者 刘诗祥 贾堂 曹健 《计算机应用与软件》 2017年第7期277-281,共5页
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复... 行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查全率和查准率。 展开更多
关键词 行业专有词典 tf-idf 特征空间 特征选择算法
在线阅读 下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:56
14
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 tf-idf 信息增益 互信息量
在线阅读 下载PDF
移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法 被引量:26
15
作者 李博 杨丹 邓林 《自动化学报》 EI CSCD 北大核心 2011年第6期665-673,共9页
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为... 针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算的效率和准确性,提高了闭环检测的准确率和召回率. 展开更多
关键词 闭环检测 视觉字典树 tf-idf得分准则 金字塔匹配
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:32
16
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
基于C-value与TF-IDF的文献簇主题识别研究 被引量:11
17
作者 陈仕吉 王小梅 《情报学报》 CSSCI 北大核心 2009年第6期821-826,共6页
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此... 引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征。本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法。实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别。 展开更多
关键词 C-VALUE tf-idf CV-idf 引文分析 主题识别
在线阅读 下载PDF
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:35
18
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 tf-idf
在线阅读 下载PDF
基于改进的TF-IDF方法的文本相似度算法研究 被引量:11
19
作者 周丽杰 于伟海 郭成 《泰山学院学报》 2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词... 传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. 展开更多
关键词 文本相似度算法 tf-idf方法 词语关联 马尔可夫模型 文本分类
在线阅读 下载PDF
基于TF/IDF多因素改进算法的知识单元抽取研究 被引量:1
20
作者 刘盛博 丁堃 +1 位作者 王贤文 刘则渊 《情报学报》 CSSCI 北大核心 2011年第10期1037-1043,共7页
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及... 深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以《半导体光电》期刊1999—2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性。 展开更多
关键词 知识计量 知识单元 知识单元抽取 tf/idf
在线阅读 下载PDF
上一页 1 2 34 下一页 到第
使用帮助 返回顶部