期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
网络热点事件发现系统的设计 被引量:30
1
作者 刘星星 何婷婷 +1 位作者 龚海军 陈龙 《中文信息学报》 CSCD 北大核心 2008年第6期80-85,共6页
该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天... 该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用该系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。 展开更多
关键词 计算机应用 中文信息处理 事件发现 凝聚聚类 Single-pass聚类 热度计算
在线阅读 下载PDF
基于排序学习的文本概念标注方法研究 被引量:2
2
作者 涂新辉 何婷婷 +1 位作者 李芳 王建文 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期153-158,共6页
提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对... 提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。 展开更多
关键词 概念标注 排序学习 维基百科 显示语义分析
在线阅读 下载PDF
中文维基百科的结构化信息抽取及词语相关度计算方法 被引量:24
3
作者 涂新辉 张红春 +1 位作者 周琨峰 何婷婷 《中文信息学报》 CSCD 北大核心 2012年第3期109-115,共7页
维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因... 维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。 展开更多
关键词 语义相关度 中文维基百科 结构化信息
在线阅读 下载PDF
协同过滤在中文维基百科类别推荐上的应用
4
作者 王静 何婷婷 衣马木艾山.阿布都力克木 《计算机应用》 CSCD 北大核心 2013年第3期838-840,844,共4页
针对传统人工编辑导致大量类别信息重复和不规范的问题,提出了应用协同过滤技术为中文维基百科文章自动推荐类别。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的... 针对传统人工编辑导致大量类别信息重复和不规范的问题,提出了应用协同过滤技术为中文维基百科文章自动推荐类别。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。 展开更多
关键词 协同过滤 中文维基百科 类别推荐 语义特征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部