疝病是描述马胃肠痛的术语,这种病不一定源自马的胃肠问题,其他问题也可能引发马疝病。所给数据集是医院检测的一些指标。
数据集分为两部分:训练集和测试集。训练集有300个样例,测试集有68个样例。每条记录有28个属性,代表医院检测到的28个指标。经过统计发现,其中有21个标称属性,7个数值属性。
- 对标称属性,给出每个可能取值的频数,
- 数值属性,给出最大、最小、均值、中位数、四分位数及缺失值的个数。
针对数值属性,
- 绘制直方图,如mxPH,用qq图检验其分布是否为正态分布。
- 绘制盒图,对离群值进行识别
数据集中有30%的值是缺失的,因此需要先处理数据中的缺失值。
分别使用下列四种策略对缺失值进行处理:
- 将缺失部分剔除
- 用最高频率值来填补缺失值
- 通过属性的相关关系来填补缺失值
- 通过数据对象之间的相似性来填补缺失值
处理后,可视化地对比新旧数据集。