Weka 数据挖掘软件使用指南
Weka 数据挖掘软件使用指南
1. Weka简介
该软件是WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过得到。Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
2. Weka启动
打开Weka主界面后会出现一个对话框,如图:
主要使用右方的四个模块,说明如下:
Explorer使用Weka探索数据的环境,包括获取关联项,分类预测,
聚
簇等;(本文主要总结这个部分的使用)
Experimenter运行算法试验、管理算法方案之间的统计检验的环境; KnowledgeFlow这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习; SimpleCLI提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行Weka命令;(某些情况下使用命令行功能更好一些)
3.主要操作说明
点击进入Explorer模块开始数据探索环境:
3.1主界面
进入Explorer模式后的主界面如下:
3.1.1标签栏
主界面最左上角(标题栏下方)的是标签栏,分为五个部分,功能依次是:
1. Preprocess. 选择和修改要处理的数据;
2. Classify. 训练和测试关于分类或回归的学习方案;
3. Cluster. 从数据中学习聚类;
4. Associate.从数据中学习关联规则;
5. Select attributes. 选择数据中最相关的属性;
6. Visualize.查看数据的交互式二维图像。
3.1.2载入、编辑数据
标签栏下方是载入数据栏,功能如下:
1.Open file.打开一个对话框,允许你浏览本地文件系统上的数据文件(.dat);
2.Open URL.请求一个存有数据的URL 地址;
3.Open DB.从数据库中读取数据;
4.Generate.从一些数据生成器中生成人造数据。
3.1.3其他界面说明
接下来的主界面中依次是Filter(筛选器),Currtent relation(当前关系)、Attributes(属性信息)、Selected attribute(选中的属性信息)以及Class(类信息),分别介绍如下:
Filter
在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要设置。Filter一栏的左边是一个
Choose 按钮。点击这个按钮就可选择Weka中的某个筛选器。用鼠标左键点击这个choose左边的显示框,将出现GenericObjectEditor对话框。用鼠标右键点击将出现一个菜单,你可从中选择,要么在
GenericObjectEditor对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。
Currtent relation
显示当前打开的数据文件的基本信息:Relation(关系名),Instances(实例数)以及Attributes(属性个数)。
Attributes
显示数据文件中的属性信息,并且包含四个操作按键:
1. All.所有选择框都被勾选;
2. None.所有选择框被取消;
3.Invert. 已勾选的选择框都被取消,反之亦然;
4. Pattern. 让用户基于Perl 5正则表达式来选择属性。例如,用*_id选择所有名称以_id结束的属性。
底下显示的就是数据文件包含的属性,可以进行勾选等操作。特别地,当数据预处理是不要某个属性时,将其各选,点击列表正下方的Remove按键即可删除这一属性:
Selected attribute
显示勾选的属性的基本信息。
Class
显示属性中数据元组的直方图。点击Visualize all按键可以查看所有属性中元组的直方图。
3.2实现基本数据挖掘功能:
3.2.1Associate(关联规则)
注意:目前,Weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。
各部分功能说明如下:
Associator
首先切换到Associate选项卡。默认关联规则分析是用Apriori算法,我们就用这个算法,点Choose右边的文本框修改默认的参数,弹出的窗口中点More可以看到各参数的说明。一下简列几项:
LowerBonundMinSupport:最小支持度下限;
UpperBonundMinSupport:最小支持度上限;
metricType:关联、程度指标;
numRules:在某种关联规则下取出的满足条件的规则数;
注意:各种关联规则算法都是尤其使用范围的,并不是所有的属性的数据类型都能被某一算法处理,典型的例如Apriori算法。因此可以在choose下拉菜单中选择Filter选项,在其中勾选待处理数据的属性的类型以滤除无法使用的算法。要想知道每种算法都是用哪些数据类型,可以左击choose旁边的文本框,在弹出的菜单栏中单击capabilities选项可以看到这种算法能够处理的数据类型。
Result list
点击Associator下方的start按键可以开始进行关联项分析,结果列表即出现在Result list中,右击出现更多选项可供选择。
Associator output
这里显示关联分析结果,如图为一个例子:
一次显示了100个符合条件的关联规则,并且在其后显示了关联规则的四项指标以供参考。
3.2.2Classify(分类预测)
该部分实现数据挖掘中的分类与预测功能,提供了各种主要的分类预测算法供使用者选择。下面是界面各部分的介绍:
Classifier
在choose一栏中选择需要的分类算法,同样地方法,每当选择一个算法,这个算法便在choose
左边的文本框中进行显示,单击他会出
现一个菜单,其中包含了一些参数的设定和more以及capabilities选项,欠着用来获取那些需要设定参数的具体信息,后者用来获取算法适合的属性数据类型,这一点是相似的,因此在对数据进行处理是也应该注意数据的属性类型,单击choose在下拉菜单中选择Filter按键可以进行数据类型的选择从而过滤掉不能使用的算法。。
Test option
提供四种测试模式:
1. Using training set.根据分类器在用来训练的实例上的预测效果来评价它。
2. Supplied test set. 从文件载入的一组实例,根据分类器在这组实例上的预测效果来评价它。点击 Set…按钮将打开一个对话框来选择用来测试的文件。
3. Cross-validation.使用交叉验证来评价分类器,所用的折数填在Folds 文本框中。
4. Percentage split.从数据集中按一定百分比取出部分数据放在一边作测试用,根据分类器这些实例上预测效果来评价它。取出的数据量由% 一栏中的值决定。
当一切准备就绪时,点击start按键开始分类过程,完成后Result list中会显示结果列表,并且Classifier output中会显示出结果。右击Result list中的结果,可以看见多个选项,选择Visualize tree,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit to screen”,可以把这个树看清楚些。先运行一个结果解
释其中一些内容,如图所示:
第一行的Correctly Classified Instances表示当前参与分类的实例中被正确分类的实例数目,第二行Incorrectly Classified Instances表示未被正确分类的实例数目。
关于Confusion Matrix,解释如下:
相关推荐:
- [资格考试]石油钻采专业设备项目可行性研究报告编
- [资格考试]2012-2013学年度第二学期麻风病防治知
- [资格考试]道路勘测设计 绪论
- [资格考试]控烟戒烟知识培训资料
- [资格考试]建设工程安全生产管理(三类人员安全员
- [资格考试]photoshop制作茶叶包装盒步骤平面效果
- [资格考试]授课进度计划表封面(09-10下施工)
- [资格考试]麦肯锡卓越工作方法读后感
- [资格考试]2007年广西区农村信用社招聘考试试题
- [资格考试]软件实施工程师笔试题
- [资格考试]2014年初三数学复习专练第一章 数与式(
- [资格考试]中国糯玉米汁饮料市场发展概况及投资战
- [资格考试]塑钢门窗安装((专项方案)15)
- [资格考试]初中数学答题卡模板2
- [资格考试]2015-2020年中国效率手册行业市场调查
- [资格考试]华北电力大学学习实践活动领导小组办公
- [资格考试]溃疡性结肠炎研究的新进展
- [资格考试]人教版高中语文1—5册(必修)背诵篇目名
- [资格考试]ISO9001-2018质量管理体系最新版标准
- [资格考试]论文之希尔顿酒店集团进入中国的战略研
- 全国中小学生转学申请表
- 《奇迹暖暖》17-支2文学少女小满(9)公
- 2019-2020学年八年级地理下册 第六章
- 2005年高考试题——英语(天津卷)
- 无纺布耐磨测试方法及标准
- 建筑工程施工劳动力安排计划
- (目录)中国中央空调行业市场深度调研分
- 中国期货价格期限结构模型实证分析
- AutoCAD 2016基础教程第2章 AutoCAD基
- 2014-2015学年西城初三期末数学试题及
- 机械加工工艺基础(完整版)
- 归因理论在管理中的应用[1]0
- 突破瓶颈 实现医院可持续发展
- 2014年南京师范大学商学院决策学招生目
- 现浇箱梁支架预压报告
- Excel_2010函数图表入门与实战
- 人教版新课标初中数学 13.1 轴对称 (
- Visual Basic 6.0程序设计教程电子教案
- 2010北京助理工程师考试复习《建筑施工
- 国外5大医疗互联网模式分析




