什么是Web挖掘?
Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。Web内容挖掘。Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。
如何实现WEB挖掘?
Web挖掘发展自数据挖掘。数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。
Web内容挖掘实现技术
Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。利用Web文档中部分标记,如Title、Head等包含的额外信息,可以提高Web文本挖掘的性能。
Web使用记录挖掘实现技术
在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
GDCA(数安时代)拥有国内自主签发信鉴易 TrustAUTH SSL证书以及是国际多家知名品牌:GlobalSign、Symantec、GeoTrust SSL证书指定的国内代理商。为了让国内更多的网站升级到安全的https加密传输协议。近日,GDCA推出多种国际知名SSL证书优惠活动,实现HTTPS加密并展示网站真实身份信息。详情请资讯GDCA产品官网在线客服https://www.trustauth.cn/。
上一篇:Nginx 反向代理服务器的工作原理
下一篇:SQL注入攻击与防御