期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
URL模式与HTML结构相结合的平行网页获取方法 被引量:6
1
作者 刘奇 刘洋 孙茂松 《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑... 平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。 展开更多
关键词 平行网页获取 平行语料库 URL模式 html结构
在线阅读 下载PDF
HTML结构特征及概念学习聚焦网页采集系统设计
2
作者 吉莉莉 陈悦 《中国新技术新产品》 2009年第20期21-21,共1页
网页采集技术是近年来Web相关领域研究的热点,大到通用搜索引擎(谷歌、百度等),小到特定主题的专用网页采集系统(如企业竞争情报系统),都离不开网页采集。本文介绍了HTML结构特征及与概念学习的聚焦网页采集系统的结构和主要算法。
关键词 聚焦网页采集 html结构特征 概念学习
在线阅读 下载PDF
基于HTML文档结构的向量空间模型的改进 被引量:10
3
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 html文档结构 信息检索 向量空间模型链接文本TREC 向量空间模型 html文档 文档结构 向量模型 分布特征 检索性能 标签
在线阅读 下载PDF
支持HTML5结构分析的语义Web框架JenaPro
4
作者 王海波 张润 王兆华 《计算机与现代化》 2013年第6期120-124,共5页
语义Web框架是人们进行语义Web开发时使用的主要工具。Jena作为应用十分广泛的语义Web框架,面对新涌现的HTML5文档和大数据量存储这两个问题时缺乏有效的支撑。本文提出并实现基于Jena的扩展语义Web框架JenaPro,它通过分析HTML5文档中... 语义Web框架是人们进行语义Web开发时使用的主要工具。Jena作为应用十分广泛的语义Web框架,面对新涌现的HTML5文档和大数据量存储这两个问题时缺乏有效的支撑。本文提出并实现基于Jena的扩展语义Web框架JenaPro,它通过分析HTML5文档中的语义标签,提炼出文档的层次结构,并可以利用Hadoop中的分布式文件存储系统HDFS进行文件的存储。在实际应用中,可以通过JenaPro获得HTML5文档的大纲层次结构,提取每一层的语义信息,为进一步的智能信息处理提供支撑平台。 展开更多
关键词 语义Web框架 语义标签 html5大纲结构 JENA 智能信息处理
在线阅读 下载PDF
基于网页结构与链接关系的中文文本分类方法 被引量:3
5
作者 郭晓 蒋宗礼 《现代电子技术》 2010年第22期54-56,63,共4页
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网... 提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。 展开更多
关键词 中文文本分类 html结构 链接关系 向量空间模型
在线阅读 下载PDF
利用平行网页建立中英文统计翻译模型 被引量:9
6
作者 聂建云 陈江 《中文信息学报》 CSCD 北大核心 2001年第1期1-12,共12页
建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构... 建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构信息。实验表明 ,所训练的翻译模型能达到 80 %的准确率。对于象跨语言信息检索这样的应用 ,这样的准确率已经能大致满足需要。这一工作表明 。 展开更多
关键词 中英问句翻译 句对齐 统计翻译模型 跨语言信息检索 平行文本 html结构 准确率
在线阅读 下载PDF
一种提高Web信息检索精度的分段检索方法 被引量:2
7
作者 宋睿华 马少平 张敏 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期151-155,共5页
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的... 在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著. 展开更多
关键词 信息检索 分段检索 Web数据 html结构
在线阅读 下载PDF
基于XML的互联网航空数据抓取的研究与实现
8
作者 张淑娟 《电子制作》 2013年第22期126-126,共1页
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法... 随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。 展开更多
关键词 Web数据抓取 XML html结构 JSP技术
在线阅读 下载PDF
基于智能的网页信息提取系统的研究与设计 被引量:7
9
作者 刘亚东 彭舰 张达平 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第4期957-962,共6页
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人... 随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息. 展开更多
关键词 智能 WEB信息提取 RoadRunner html结构
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部