题名 Web日志挖掘预处理中的用户识别技术
被引量:21
1
作者
吴强
梁继民
杨万海
机构
西安电子科技大学电子工程学院
出处
《计算机科学》
CSCD
北大核心
2002年第4期64-66,共3页
文摘
1引言
互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率.作为数据挖掘技术[1]研究的一个重要领域,Web日志挖掘(Web L0gMining)是从服务器日志文件内大量的用户访问记录中抽取有用信息的过程.通过对Web日志的分析,可以构造出用户的行为模式,对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有极大的帮助[2,3].
关键词
因特网
服务器
web
日志挖掘预处理
用户识别
Keywords
web Log mining , preprocessing , user identification , Cookie
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘中的数据预处理技术
被引量:22
2
作者
李燕
冯博琴
鲁晓锋
机构
西安交通大学电子与信息工程学院
西安理工大学计算机科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第22期44-46,49,共4页
基金
国家"863"计划基金资助项目(2008AA01Z131)
文摘
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。
关键词
web 日志挖掘
数据预处理
用户会话识别
路径补充
Keywords
web log mining
data preprocessing
user -session identification
path completion
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 Web日志预处理中优化的会话识别方法
被引量:11
3
作者
方元康
胡学钢
夏启寿
机构
合肥工业大学计算机与信息学院
池州学院计算机中心
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第7期49-51,共3页
基金
国家自然科学基金资助项目(050504F)
池州学院自然科学基金资助项目(XK0829)
文摘
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。
关键词
web 挖掘
数据预处理
阈值
Frame页面
会话识别
Keywords
web mining
data preprocessing
threshold
Frame page
session identification
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web访问挖掘预处理的用户识别算法
被引量:5
4
作者
李煊
庄镇泉
机构
中国科技大学电子科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2002年第7期173-176,共4页
文摘
Web访问挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。该文主要对Web挖掘技术中的预处理过程进行了研究,着重分析了其中的用户识别方法,并给出了一个用户识别的通用算法。
关键词
预处理
用户识别算法
数据挖掘
数据库
web
数据格式
Keywords
web mining ,preprocessing ,user identification
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘数据预处理研究
被引量:6
5
作者
何波
涂飞
程勇军
机构
重庆理工大学计算机科学与工程学院
出处
《微电子学与计算机》
CSCD
北大核心
2011年第4期111-114,共4页
基金
教育部人文社会科学项目基金(09yjc870032)
文摘
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.
关键词
数据预处理
web 日志挖掘
路径完善
用户识别
Keywords
data preprocessing
web log mining
path completion
user identification
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于用户访问树的Web日志挖掘数据预处理
被引量:8
6
作者
刘加伶
范军
机构
重庆工学院
重庆邮电大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2009年第9期154-156,210,共4页
文摘
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理。
关键词
web 日志挖掘
数据预处理
用户识别
事务识别
Keywords
web log mining , Data preprocessing , user identification , Transaction identification
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Web访问挖掘的预处理技术的研究
被引量:19
7
作者
熊忠阳
周亚峰
机构
重庆大学计算机学院
出处
《计算机技术与发展》
2007年第8期11-14,18,共5页
文摘
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。
关键词
web 挖掘
web 日志挖掘
数据预处理
用户会话
会话识别
Keywords
web mining
web log mining
data preprocessing
user session
session identification
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 改进的Web日志数据预处理技术
被引量:3
8
作者
方元康
胡学钢
夏启寿
朱勇
机构
池州学院计算机中心
合肥工业大学计算机与信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第10期73-74,77,共3页
基金
国家自然科学基金资助项目(050504F)
安徽省教育厅自然科学基金资助项目(XK0829,KJ2008B45ZC)
池州学院自然科学基金资助项目(2007XJ015)
文摘
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。
关键词
web 日志挖掘
数据预处理
frame页面
会话识别
Keywords
web log mining
data preprocessing
frame page
session identification
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web日志数据挖掘中数据预处理模型的研究与建立
被引量:9
9
作者
赵莹莹
韩元杰
机构
桂林电子科技大学
出处
《现代电子技术》
2007年第4期103-105,共3页
文摘
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。
关键词
web 日志挖掘
数据挖掘
数据预处理
用户标识
会话标识
Keywords
web log mining
data mining
data preprocessing
user identification
session identification
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘中数据预处理技术的研究
被引量:9
10
作者
于飞
丁华福
姜伦
机构
哈尔滨理工大学计算机科学与技术学院
出处
《计算机技术与发展》
2010年第5期47-50,共4页
基金
国家自然科学基金项目(60736014)
文摘
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
关键词
web 日志挖掘
数据预处理
会话识别
数据清洗
Keywords
web log mining
data preprocessing
session identification
data cleaning
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘中的会话识别方法研究
被引量:4
11
作者
顾兆军
李晓红
王伟
黄杰培
机构
中国民航大学计算机学院
出处
《计算机技术与发展》
2012年第4期45-49,共5页
基金
中国民航局科研基金项目(MHRD200808)
文摘
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。
关键词
web 日志挖掘
数据预处理
会话识别
会话重组
访问时间
Keywords
web log mining
data preprocessing
session identification
session reconstruction
visit time
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
题名 基于MAS的Web用户数据预处理
被引量:3
12
作者
李晓
邱玉辉
机构
西南师范大学计算机与信息科学学院
出处
《广西师范大学学报(自然科学版)》
CAS
2003年第A01期160-163,共4页
文摘
数据预处理是采用基于Web的使用挖掘发现用户模式的第一步.由于Web用户数据来源的不同,不仅导致用户的识别困难,用户访问页面的完整性也难于得到保证,这给下一步的用户模式发现带来了问题.本文提出了一个基于MAS的数据预处理方法:在客户端采用Agent精确捕获用户浏览行为,构造用户访问图;在服务器端的Agent保存服务器生成页面,并根据客户端Agent返回的数据完整获得用户的访问内容,为有效实现用户模式发现提供了保证.
关键词
web
MAS
预处理
用户模式
web 使用挖掘
Keywords
web
MAS
preprocessing
user pattern
web usage mining
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘数据预处理过程技术研究
被引量:17
13
作者
姚洪波
杨炳儒
机构
北京科技大学计算机系
北京科技大学知识工程研究所
出处
《微计算机信息》
北大核心
2006年第06X期234-236,共3页
基金
国家科技成果重点推广项目基金编号:2003EC000001
文摘
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。本文介绍了面向Web日志的数据挖掘预处理的一般过程并给出了用户识别的算法实现。
关键词
web 日志挖掘
数据预处理
用户识别
Keywords
web Log,Data preprocessing ,user identification
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Web使用挖掘中数据预处理过程研究
被引量:6
14
作者
李超锋
杨殿生
许云
机构
中南民族大学管理学院
鄂州大学
马鞍山市农业发展银行
出处
《电子测量技术》
2007年第3期3-5,共3页
基金
湖北省科技攻关项目(2005101C18)
中南民族大学自然科学基金项目
文摘
Web使用挖掘是将数据挖掘技术应用于用户浏览Web时交互作用的二次数据以发现使用模式,从而达到更好地理解和服务基于Web应用的需要的目的。在将数据挖掘算法应用于从服务器日志收集来的数据之前必须要进行一些预处理工作。数据预处理就是把源数据转换为下一步应用数据挖掘算法所必须的数据抽象的过程。作为模式发现的数据源,数据预处理结果的质量直接影响着模式发现的最终结果。本文提出了几种可用于提高数据预处理性能的技术和方法。实验证明,这些技术和方法是有效的。最后,总结全文并提出了进一步的研究方向。
关键词
web 使用挖掘
web 日志
数据预处理
用户会话
Keywords
web usage mining
web log
data preprocessing
user session
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘的数据预处理研究
被引量:12
15
作者
方成效
袁可风
机构
华东交通大学信息工程学院
出处
《计算机与现代化》
2006年第4期79-81,84,共4页
文摘
分析了Web日志挖掘的数据预处理过程,提出了基于日志引用页的用户识别算法,并对其性能进行分析,最后给出了应用实例。
关键词
web 日志挖掘
数据预处理
用户识别算法
Keywords
web log mining
data preprocessing
user identification arithmetic
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘数据预处理优化
被引量:4
16
作者
周爱武
肖云
封军
机构
安徽大学计算机科学与技术学院
出处
《计算机技术与发展》
2011年第1期42-45,共4页
基金
安徽省教育科研重点项目(KJ2009A57)
文摘
在web日志挖掘中,数据预处理技术是各项工作的基础,此项内容将直接影响到后面的各个阶段,因此,也就显得至关重要。在已有的预处理方法基础上,选用了一种建立用户访问树的方法对用户进行识别,并且可以在缺乏网站拓扑结构的情况下对日志进行处理。提出了一种改进的事务处理方法,这可以在不额外增加步骤的基础上,能直接去除无用的事务,从而减少预处理结果对数据挖掘的影响,使得到的事务能更好地应用到模式分析当中,大大增强了后期挖掘的正确性。
关键词
数据预处理
web 日志
用户识别
事务识别
Keywords
bata pre-processing
web log mining
user identification
transaction identification
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘中的用户识别算法
被引量:11
17
作者
肖慧
王立华
机构
上海海洋大学信息学院
中国水产科学研究院渔业工程研究所
出处
《计算机系统应用》
2011年第5期223-226,共4页
基金
国家基础条件平台建设项目渔业科学数据平台建设项目(2005DKA31800-03)
文摘
介绍了现有的用户识别算法,针对用户识别目前存在的问题提出了IASR(IP,Agent,Session and Referrer)用户识别算法。该算法采用重写URL的用户跟踪技术,引入会话(Session)来识别用户,能够高效准确地识别访问同一代理服务器的不同用户,很好地解决同一用户直接从浏览器地址输入URL信息访问站点造成的"多用户问题"。最后,对用户识别算法的发展趋势进行了展望。
关键词
用户识别
重写URL
会话机制
web 日志挖掘
Keywords
user identification
overwrite URL
session mechanism
web log mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 Web日志挖掘中数据预处理方法研究
被引量:3
18
作者
陈红丽
李春生
张明
机构
东北石油大学现代教育技术中心
出处
《科学技术与工程》
北大核心
2012年第8期1928-1930,1935,共4页
文摘
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明,改进后的会话识别方法能更有效地识别出用户的真实会话。
关键词
数据预处理
会话识别
web 日志挖掘
Keywords
data preprocessing session identification web log mining
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 Web挖掘中的用户识别与虹膜识别技术
被引量:2
19
作者
王彤
何丕廉
机构
天津大学职业技术教育学院
天津大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第6期182-184,共3页
基金
国家自然科学基金资助项目(60603027)
天津市科技发展计划基金资助项目(04310941R)
天津市应用基础研究计划基金资助项目(05YFJMJC11700)
文摘
提出引入生物信息技术解决Web挖掘中的用户识别问题的设想及基于隐马尔科夫模型的虹膜识别方法,该方法仅需要虹膜的方向域作为输入参数,对虹膜图像的噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点。通过准确识别用户,克服了现有Web体系无状态的缺陷,可以实现对Web日志数据按"用户维"进行切片,使挖掘出的结果能够满足对用户个性化使用的需求。
关键词
隐马尔科夫模型
虹膜识别
用户识别
web 挖掘
Keywords
hidden Markov model
iris recognition user identification web mining
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 Web日志挖掘的预处理过程及算法
被引量:5
20
作者
靳风荣
郑雪峰
机构
新疆工业高等专科学校计算机系
北京科技大学
出处
《微型电脑应用》
2004年第6期44-45,55,共3页
文摘
随着WWW的广泛应用和Web技术的发展,数据挖掘进入一个崭新阶段。本文详细介绍了Web日志挖掘的预处理过程,通过实例分析了预处理方法,并给出了预处理过程中用户识别的算法实现。
关键词
web 日志挖掘
预处理
算法
数据挖掘
数据格式
数据库
Keywords
web log mining data preparation user identification algorithm
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]