Skip to content

jiangix01/Data-Mining

Repository files navigation

马的疝病分析

1. 问题描述

疝病是描述马胃肠痛的术语,这种病不一定源自马的胃肠问题,其他问题也可能引发马疝病。所给数据集是医院检测的一些指标。

2. 数据说明

数据集分为两部分:训练集和测试集。训练集有300个样例,测试集有68个样例。每条记录有28个属性,代表医院检测到的28个指标。经过统计发现,其中有21个标称属性,7个数值属性。

3. 数据分析要求

3.1 数据可视化和摘要

数据摘要
  • 对标称属性,给出每个可能取值的频数,
  • 数值属性,给出最大、最小、均值、中位数、四分位数及缺失值的个数。
数据的可视化

针对数值属性,

  • 绘制直方图,如mxPH,用qq图检验其分布是否为正态分布。
  • 绘制盒图,对离群值进行识别

3.2 数据缺失的处理

数据集中有30%的值是缺失的,因此需要先处理数据中的缺失值。

分别使用下列四种策略对缺失值进行处理:

  • 将缺失部分剔除
  • 用最高频率值来填补缺失值
  • 通过属性的相关关系来填补缺失值
  • 通过数据对象之间的相似性来填补缺失值

处理后,可视化地对比新旧数据集。

About

Data Mining

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages