首页云计算 正文

什么是Web挖掘

2024-11-19 6 0条评论
  1. 首页
  2. 证书相关
  3. 什么是Web挖掘

什么是Web挖掘

发布日期:2017-05-23

什么是Web挖掘?

Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。Web内容挖掘。Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。

如何实现WEB挖掘?

Web挖掘发展自数据挖掘。数据挖掘方法通常可以分为两类:一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法等。

Web内容挖掘实现技术

Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。利用Web文档中部分标记,如Title、Head等包含的额外信息,可以提高Web文本挖掘的性能。

  • 文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。
  • 文本分类。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。
  • 文本聚类。文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次凝聚法和平面划分法两种类型。
  • 关联规则。发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。

Web使用记录挖掘实现技术

在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。

发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。


GDCA(数安时代)拥有国内自主签发信鉴易 TrustAUTH SSL证书以及是国际多家知名品牌:GlobalSign、Symantec、GeoTrust SSL证书指定的国内代理商。为了让国内更多的网站升级到安全的https加密传输协议。近日,GDCA推出多种国际知名SSL证书优惠活动,实现HTTPS加密并展示网站真实身份信息。详情请资讯GDCA产品官网在线客服https://www.trustauth.cn/。

上一篇:Nginx 反向代理服务器的工作原理   

下一篇:SQL注入攻击与防御

相关新闻

  • SSL证书对网站访问速度有影响吗
  • 个人隐私数据泄露有哪些危害?如何预防?
  • 部署SSL证书有哪些常见的错误
  • 国际证书、国产证书和国密证书
  • 游戏开发为什么离不开代码签名?
  • 僵尸网络攻击手法与防范方式
  • SSL证书助力保障网络数据安全
  • 网站加密与不加密区别
  • SSL证书有哪些类型和价格差异
  • ca机构颁发的证书包括那些内容呢?
文章版权及转载声明

本文作者:admin 网址:http://news.edns.com/post/113355.html 发布于 2024-11-19
文章转载或复制请以超链接形式并注明出处。

取消
微信二维码
微信二维码
支付宝二维码