期刊导航
期刊开放获取
唐山市科学技术情报研究..
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
9
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
URL模式与HTML结构相结合的平行网页获取方法
被引量:
6
1
作者
刘奇
刘洋
孙茂松
《中文信息学报》
CSCD
北大核心
2013年第3期91-99,共9页
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑...
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。
展开更多
关键词
平行网页获取
平行语料库
URL模式
html结构
在线阅读
下载PDF
职称材料
HTML结构特征及概念学习聚焦网页采集系统设计
2
作者
吉莉莉
陈悦
《中国新技术新产品》
2009年第20期21-21,共1页
网页采集技术是近年来Web相关领域研究的热点,大到通用搜索引擎(谷歌、百度等),小到特定主题的专用网页采集系统(如企业竞争情报系统),都离不开网页采集。本文介绍了HTML结构特征及与概念学习的聚焦网页采集系统的结构和主要算法。
关键词
聚焦网页采集
html结构
特征
概念学习
在线阅读
下载PDF
职称材料
基于HTML文档结构的向量空间模型的改进
被引量:
10
3
作者
胡健
陆一鸣
马范援
《情报学报》
CSSCI
北大核心
2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型...
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高.
展开更多
关键词
html
文档
结构
信息检索
向量空间模型链接文本TREC
向量空间模型
html
文档
文档
结构
向量模型
分布特征
检索性能
标签
在线阅读
下载PDF
职称材料
支持HTML5结构分析的语义Web框架JenaPro
4
作者
王海波
张润
王兆华
《计算机与现代化》
2013年第6期120-124,共5页
语义Web框架是人们进行语义Web开发时使用的主要工具。Jena作为应用十分广泛的语义Web框架,面对新涌现的HTML5文档和大数据量存储这两个问题时缺乏有效的支撑。本文提出并实现基于Jena的扩展语义Web框架JenaPro,它通过分析HTML5文档中...
语义Web框架是人们进行语义Web开发时使用的主要工具。Jena作为应用十分广泛的语义Web框架,面对新涌现的HTML5文档和大数据量存储这两个问题时缺乏有效的支撑。本文提出并实现基于Jena的扩展语义Web框架JenaPro,它通过分析HTML5文档中的语义标签,提炼出文档的层次结构,并可以利用Hadoop中的分布式文件存储系统HDFS进行文件的存储。在实际应用中,可以通过JenaPro获得HTML5文档的大纲层次结构,提取每一层的语义信息,为进一步的智能信息处理提供支撑平台。
展开更多
关键词
语义Web框架
语义标签
html
5大纲
结构
JENA
智能信息处理
在线阅读
下载PDF
职称材料
基于网页结构与链接关系的中文文本分类方法
被引量:
3
5
作者
郭晓
蒋宗礼
《现代电子技术》
2010年第22期54-56,63,共4页
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网...
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。
展开更多
关键词
中文文本分类
html结构
链接关系
向量空间模型
在线阅读
下载PDF
职称材料
利用平行网页建立中英文统计翻译模型
被引量:
9
6
作者
聂建云
陈江
《中文信息学报》
CSCD
北大核心
2001年第1期1-12,共12页
建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构...
建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构信息。实验表明 ,所训练的翻译模型能达到 80 %的准确率。对于象跨语言信息检索这样的应用 ,这样的准确率已经能大致满足需要。这一工作表明 。
展开更多
关键词
中英问句翻译
句对齐
统计翻译模型
跨语言信息检索
平行文本
html结构
准确率
在线阅读
下载PDF
职称材料
一种提高Web信息检索精度的分段检索方法
被引量:
2
7
作者
宋睿华
马少平
张敏
《广西师范大学学报(自然科学版)》
CAS
2003年第A01期151-155,共5页
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的...
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著.
展开更多
关键词
信息检索
分段检索
Web数据
html结构
在线阅读
下载PDF
职称材料
基于XML的互联网航空数据抓取的研究与实现
8
作者
张淑娟
《电子制作》
2013年第22期126-126,共1页
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法...
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。
展开更多
关键词
Web数据抓取
XML
html结构
树
JSP技术
在线阅读
下载PDF
职称材料
基于智能的网页信息提取系统的研究与设计
被引量:
7
9
作者
刘亚东
彭舰
张达平
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2009年第4期957-962,共6页
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人...
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息.
展开更多
关键词
智能
WEB信息提取
RoadRunner
html结构
树
原文传递
题名
URL模式与HTML结构相结合的平行网页获取方法
被引量:
6
1
作者
刘奇
刘洋
孙茂松
机构
清华大学计算机科学与技术系智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2013年第3期91-99,共9页
基金
国家863计划资助项目(2012AA011102
2011AA01A207)
媒体与网络技术教育部一微软重点实验室资助项目(20123000007)
文摘
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。
关键词
平行网页获取
平行语料库
URL模式
html结构
Keywords
parallel pages mining~ parallel corpus~ URL patterns
html
structure
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
HTML结构特征及概念学习聚焦网页采集系统设计
2
作者
吉莉莉
陈悦
机构
北京信息科技大学
北京信息职业技术学院
出处
《中国新技术新产品》
2009年第20期21-21,共1页
文摘
网页采集技术是近年来Web相关领域研究的热点,大到通用搜索引擎(谷歌、百度等),小到特定主题的专用网页采集系统(如企业竞争情报系统),都离不开网页采集。本文介绍了HTML结构特征及与概念学习的聚焦网页采集系统的结构和主要算法。
关键词
聚焦网页采集
html结构
特征
概念学习
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
P631.43 [天文地球—地质矿产勘探]
在线阅读
下载PDF
职称材料
题名
基于HTML文档结构的向量空间模型的改进
被引量:
10
3
作者
胡健
陆一鸣
马范援
机构
上海交通大学计算机科学与工程系
出处
《情报学报》
CSSCI
北大核心
2005年第4期433-437,共5页
基金
国家自然科学基金
文摘
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高.
关键词
html
文档
结构
信息检索
向量空间模型链接文本TREC
向量空间模型
html
文档
文档
结构
向量模型
分布特征
检索性能
标签
Keywords
html
document structure, information retrieval, vector space model, anchor text, TREC.
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP311.1 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
支持HTML5结构分析的语义Web框架JenaPro
4
作者
王海波
张润
王兆华
机构
中国传媒大学计算机与网络中心
出处
《计算机与现代化》
2013年第6期120-124,共5页
基金
中国传媒大学校级科研基金资助项目(XNG1142)
文摘
语义Web框架是人们进行语义Web开发时使用的主要工具。Jena作为应用十分广泛的语义Web框架,面对新涌现的HTML5文档和大数据量存储这两个问题时缺乏有效的支撑。本文提出并实现基于Jena的扩展语义Web框架JenaPro,它通过分析HTML5文档中的语义标签,提炼出文档的层次结构,并可以利用Hadoop中的分布式文件存储系统HDFS进行文件的存储。在实际应用中,可以通过JenaPro获得HTML5文档的大纲层次结构,提取每一层的语义信息,为进一步的智能信息处理提供支撑平台。
关键词
语义Web框架
语义标签
html
5大纲
结构
JENA
智能信息处理
Keywords
semantic Web framework
semantic markup
html
5 outline
Jena
intelligent information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于网页结构与链接关系的中文文本分类方法
被引量:
3
5
作者
郭晓
蒋宗礼
机构
北京工业大学计算机学院
出处
《现代电子技术》
2010年第22期54-56,63,共4页
文摘
提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。
关键词
中文文本分类
html结构
链接关系
向量空间模型
Keywords
Chinese text calssification
html
tags
hyperlinks
vector space model
分类号
TN911-34 [电子电信—通信与信息系统]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
利用平行网页建立中英文统计翻译模型
被引量:
9
6
作者
聂建云
陈江
机构
蒙特利尔大学RALI实验室
出处
《中文信息学报》
CSCD
北大核心
2001年第1期1-12,共12页
文摘
建立翻译模型的目的是试图从平行文本 (或翻译例句 )中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中 ,我们尽量利用文本中的HTML结构信息。实验表明 ,所训练的翻译模型能达到 80 %的准确率。对于象跨语言信息检索这样的应用 ,这样的准确率已经能大致满足需要。这一工作表明 。
关键词
中英问句翻译
句对齐
统计翻译模型
跨语言信息检索
平行文本
html结构
准确率
Keywords
Chinese English query translation
parallel web pages
sentence alignment
statistical translation model
cross language information retrieval.
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种提高Web信息检索精度的分段检索方法
被引量:
2
7
作者
宋睿华
马少平
张敏
机构
清华大学计算机系智能技术与系统国家重点实验室
出处
《广西师范大学学报(自然科学版)》
CAS
2003年第A01期151-155,共5页
基金
国家重点基础研究基金资助项目(973)(G1998030509)
自然科学基金资助项目(69836040)
文摘
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著.
关键词
信息检索
分段检索
Web数据
html结构
Keywords
information retrieval
passage retrieval
Web data
html
structure
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于XML的互联网航空数据抓取的研究与实现
8
作者
张淑娟
机构
云南经济管理职业学院
出处
《电子制作》
2013年第22期126-126,共1页
文摘
随着国际互联网的快速发展,我们进入了一个信息膨胀的时代。如何浏览、使用这些信息成为我们关注的问题。网络数据抓取的概念由此应运而生。通过数据抓取能够准确的发现我们所关心的信息,大大提高网络的使用效率。而传统的数据搜索方法所查到的数据庞大,不利于快速的找到所需要的精确信息,针对该类问题,本文研究了一个数据抓取系统,并以航空机票数据抓取为背景,进行系统开发。它解决了利用飞机出行的顾客查找机票不方便的问题,提高了机票查找的准度与效率。
关键词
Web数据抓取
XML
html结构
树
JSP技术
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于智能的网页信息提取系统的研究与设计
被引量:
7
9
作者
刘亚东
彭舰
张达平
机构
四川大学计算机学院
出处
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2009年第4期957-962,共6页
基金
四川省应用基础基金(2008JY0027)
四川省科技支撑计划项目(07GG006-040)
文摘
随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息.
关键词
智能
WEB信息提取
RoadRunner
html结构
树
Keywords
intelligence, Web information extraction, RoadRunner,
html
structure tree
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
URL模式与HTML结构相结合的平行网页获取方法
刘奇
刘洋
孙茂松
《中文信息学报》
CSCD
北大核心
2013
6
在线阅读
下载PDF
职称材料
2
HTML结构特征及概念学习聚焦网页采集系统设计
吉莉莉
陈悦
《中国新技术新产品》
2009
0
在线阅读
下载PDF
职称材料
3
基于HTML文档结构的向量空间模型的改进
胡健
陆一鸣
马范援
《情报学报》
CSSCI
北大核心
2005
10
在线阅读
下载PDF
职称材料
4
支持HTML5结构分析的语义Web框架JenaPro
王海波
张润
王兆华
《计算机与现代化》
2013
0
在线阅读
下载PDF
职称材料
5
基于网页结构与链接关系的中文文本分类方法
郭晓
蒋宗礼
《现代电子技术》
2010
3
在线阅读
下载PDF
职称材料
6
利用平行网页建立中英文统计翻译模型
聂建云
陈江
《中文信息学报》
CSCD
北大核心
2001
9
在线阅读
下载PDF
职称材料
7
一种提高Web信息检索精度的分段检索方法
宋睿华
马少平
张敏
《广西师范大学学报(自然科学版)》
CAS
2003
2
在线阅读
下载PDF
职称材料
8
基于XML的互联网航空数据抓取的研究与实现
张淑娟
《电子制作》
2013
0
在线阅读
下载PDF
职称材料
9
基于智能的网页信息提取系统的研究与设计
刘亚东
彭舰
张达平
《四川大学学报(自然科学版)》
CAS
CSCD
北大核心
2009
7
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部