一种基于语义及统计分析的DeepWeb实体识别机制被引量：18

A Deep Web Entity Identification Mechanism Based on Semantics and Statistical Analysis

在线阅读下载PDF

导出

摘要分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性. According to analyzing the traditional entity identification methods, a deep Web entity identification mechanism based on semantics and statistical analysis （SS-EIM） is presented in this paper, which includes text matching model, semantics analysis model and group statistics model. Also a three-phase gradual refining strategy is adopted, which includes text initial matching, representation relationship abstraction and group statistics analysis. Based on the text characteristics, semantic information and constraints, the identification result is revised continuously to improve the accuracy. By performing the self-adaptive knowledge maintenance strategy, the content of representation relationship knowledge database can be more complete and effective. The experiments demonstrate the feasibility and effectiveness of the key techniques of SS-EIM.

作者寇月申德荣李冬聂铁铮

机构地区东北大学信息科学与工程学院东软集团有限公司商用软件事业部

出处《软件学报》 EI CSCD 北大核心 2008年第2期194-208,共15页 Journal of Software

基金 Supported by the National Natural Science Foundation of China under Grant No.60673139 (国家自然科学基金)

关键词 DEEP WEB 数据集成实体识别数据消重表象整合 deep Web data integration entity identification data deduplication representation consolidation

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：270
2朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
3王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：46
4凌妍妍,刘伟,王仲远,艾静,孟小峰.Deep Web数据集成中的实体识别方法[J].计算机研究与发展,2006,43(z3):46-53. 被引量：4

二级参考文献47

1[1]Kevin Chen-Chuan Chang,Bin He,Chengkai Li,et al.Structured databases on the Web:Observations and implications.SIGMOD Record,2004,33(3):61-70
2[2]W Frakes,R Baeza-Yates.Information Retrieval:Data Structures and Algorithms.Englewood Cliffs,NJ:Prentice Hall,1992
3[3]W William.Cohen:Integration of heterogeneous databases without common domains using queries based on textual similarity.SIGMOD Conf,Seattle,Washington,1998
4[4]Sunita Sarawagi.Anuradha bhamidipaty.Interactive deduplication using active learning.KDD,Edmonton,Alberta,Canada,2002
5[5]E Winkler.The state of record linkage and current research problems.http://www.census.gov/srd/www/hyyear.html,1999
6[6]Sheila Tejada,Craig A Knoblock,Steven Minton.Learning domain-independent string transformation weights for high accuracy object identification.KDD,Acapulco,Mexico,2002
7[7]A Doan A,Y Lu,Y Lee,et al.Object matching for information integration:A profiler-based approach.IIWeb,2003
8Monge A E, Elkan C P. An Efficient Domain-independent Algorithm for Detecting Approximately Duplicate Database Records [A]. Proc of DMKD'97[C]. Tucson Arizona, 1997:23-29.
9Hernandez M A, Stolfo S G. The Merge/Purge Problem for Large Databases[A]. Proc ACMS IGMOD Int Conf on Management of Data [C]. California,1995:127-138.
10Lee M L, Lu H J, Ling T W, et al. Cleansing Data for Mining and Warehousing [A]. 10th Int Conf on Database and Expert ,Systems Applications [C].Florence, 1999:751-760.

共引文献325

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：8
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：32
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

同被引文献132

1黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
2杜小勇,李曼,王大治.语义Web与本体研究综述[J].计算机应用,2004,24(10):14-16. 被引量：64
3张峰,秦志光,刘锦德.基于入侵事件预测的网络安全预警方法[J].计算机科学,2004,31(11):77-79. 被引量：11
4孙晓东,焦玥,胡劲松.基于灰色关联度和理想解法的决策方法研究[J].中国管理科学,2005,13(4):63-68. 被引量：159
5李臣明,徐立中.可扩展性信息集成平台设计[J].计算机工程与设计,2005,26(10):2692-2694. 被引量：3
6吕建,陶先平,马晓星,胡昊,徐锋,曹春.基于Agent的网构软件模型研究[J].中国科学（E辑）,2005,35(12):1233-1253. 被引量：43
7潘哲信,佟俐鹃.基于Web服务的分布式异构数据库集成研究[J].计算机应用研究,2006,23(3):208-210. 被引量：18
8石磊,韩英杰,丁晓光,卫琳,古志民.An SPN-Based Integrated Model for Web Prefetching and Caching[J].Journal of Computer Science & Technology,2006,21(4):482-489. 被引量：15
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391
10王晓波,樊纪元.电力调度中心统一数据平台的设计[J].电力系统自动化,2006,30(22):89-92. 被引量：56

引证文献18

1刘芳.查询自动生成器在Web数据库发现中的应用[J].信息技术,2009,33(6):85-87. 被引量：2
2寇月,申德荣,于戈,聂铁铮.Combining Local Scoring and Global Aggregation to Rank Entities for Deep Web Queries[J].Journal of Computer Science & Technology,2009,24(4):626-637. 被引量：1
3刘金红,陆余良,施凡,宋舜宏.基于语义上下文分析的因特网人物信息挖掘[J].安徽大学学报（自然科学版）,2009,33(4):33-37. 被引量：1
4刘伟,肖建国.多Web数据源环境下的重复实体识别方法研究[J].计算机科学与探索,2010,4(7):599-607. 被引量：3
5陈国华,汤庸,彭泽武,李建国.基于学术社区的学术搜索引擎设计[J].计算机科学,2011,38(8):171-175. 被引量：13
6李海滨,许南山.基于高级搜索页面的动态表单搜索[J].计算机系统应用,2011,20(10):180-183. 被引量：1
7杨丹,申德荣,于戈,聂铁铮,寇月.数据空间中时间为中心的集合实体识别策略[J].计算机科学与探索,2012,6(11):974-984. 被引量：4
8李德明,叶进.基于分类代理的Web信息集成方法的研究[J].计算机工程与设计,2013,34(3):1108-1111.
9刘伟.医疗数据库松弛响应关联维分析及差异查询[J].科技通报,2014,30(6):116-118. 被引量：2
10吴聪.基于Logistic模型的商务英语文献翻译设备自动监测技术研究[J].自动化与仪器仪表,2019(1):22-24. 被引量：2

二级引证文献190

1熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
2刘鲁吉.类比推理在法律人工智能中的应用——以指导性案例智能推送系统的构建为例[J].法律方法,2019,0(2):118-134. 被引量：4
3应荷香,赵骞,张朝忙,任福,李方林.土地全生命周期管理的知识图谱构建及应用[J].测绘科学,2022,47(6):161-167. 被引量：10
4周锐,邢琳悦.基于知识图谱的城市公共危机信息资源融合研究[J].国家治理现代化研究,2021(1):108-124. 被引量：1
5顾彬,王建东,李涛.Ordinal-Class Core Vector Machine[J].Journal of Computer Science & Technology,2010,25(4):699-708. 被引量：1
6李炳芳,冒晓东.基于表单的网络印刷客户端色彩再现方法的研究[J].包装工程,2012,33(3):113-116.
7陈文忠.摩片弹簧钢轧制工艺探讨[J].四川冶金,2000,22(1):52-54.
8袁曦临.药品专利侵权纠纷的防范与处理[J].医学情报工作,2000,21(2):7-8. 被引量：3
9李春林.Web数据库集成技术及其发展趋势[J].硅谷,2012,5(9):1-2. 被引量：2
10李建国,毛承洁,刘晓,梁茹.学术信息服务平台的研究与设计[J].华南师范大学学报（自然科学版）,2012,44(3):51-54. 被引量：3

1徐红艳,党晓婉,冯勇,李军平.基于BP神经网络的Deep Web实体识别方法[J].计算机应用,2013,33(3):776-779. 被引量：5
2郭迎春,刘一伟,陈召旭.Deep Web数据抽取的分析与研究[J].南开大学学报（自然科学版）,2012,45(3):9-14. 被引量：2
3杜军,马继涛,谭鹏,黄红伟,邓艺.报表自由逐级分组统计原理研究及实现[J].云南民族大学学报（自然科学版）,2012,21(6):466-468.
4卢远志,钟志华,文桂林.模具零件工程图的孔特征识别与分组统计[J].湖南大学学报（自然科学版）,2010,37(2):22-26. 被引量：4
5尚乐轩..NET平台下水晶报表的多层次分组统计[J].软件导刊,2009,8(11):22-24. 被引量：1
6彭媛媛,许建潮.基于xml的Deep Web信息自动抽取技术的研究[J].科技信息,2009(33):85-85.
7王锐,陈丽,马方明.一种电信行业海量数据分组统计方法[J].计算机应用与软件,2012,29(12):237-239. 被引量：3
8孟小峰,于戈.DeepWeb数据集成专刊前言[J].软件学报,2008,19(2):177-178. 被引量：1
9王海荣.基于智能语义自相关特征的数据库实体识别查询[J].微电子学与计算机,2014,31(5):159-162. 被引量：3
10钱华明,李仲玉,马吉臣,邵志强.海明码在提高导航数据传输可靠性中的应用[J].微计算机信息,2008,24(36):225-227. 被引量：5

软件学报

2008年第2期

浏览历史

内容加载中请稍等...

一种基于语义及统计分析的DeepWeb实体识别机制被引量：18

参考文献4

二级参考文献47

共引文献325

同被引文献132

引证文献18

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

一种基于语义及统计分析的DeepWeb实体识别机制 被引量：18

参考文献4

二级参考文献47

共引文献325

同被引文献132

引证文献18

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

一种基于语义及统计分析的DeepWeb实体识别机制被引量：18