机器学习笔记:1R规则

这学期在学机器学习,参照之前看到机器学习自学指南,以《数据挖掘:实用机器学习技术》这本书来入门。书里介绍了几个算法,第一个就是1R规则。

1R规则

1R规则是1 Rule规则的缩写,它能产生一层决策树,用一个规则集的形式来表示,只在某个特地属性上进行测试。这种规则的特点:简单廉价,效果好。

算法

1R规则的算法如下:

建立一个对单个属性进行测试的规则,并产生不同的分支。每一个分支对应一个不同的属性值,分支的类就是训练的数据在这个分支出现最多的类。——这是书中的话。

按我的理解就是:为数据里的属性(比如天气数据中的阴晴类别)的每一个取值(比如阴天、晴朗)建立一个分支,统计这个分支里,哪种结论出现得比较多,就将这个这个分支与这个结论对应起来,得到一个与这个属性相关的规则,并将例外(这个分支里结论出现得不多的)作为误差进行统计。

从所有属性里得到规则后,取出误差最小的规则,就得到所需的规则了。

如何使用

得到了这个规则,对新的数据进行分类时,只需要查看规则对应的属性,并根据属性的取值对应的结论,就得到对新的数据进行预测的结论。

分析

这个规则虽然很简单,但是却出人意料的高效和准确,只比经典的决策树归纳方案产生的决策树低几个百分点。大概是因为真实生活中的数据的结构相当基本,往往只需要一个属性(自变量)就能够准确地判断出一个数据的所属类别吧。

其他

这篇文章是小黄鸭分类的第一篇,目标是通过用自己的话来向初学者(就像我)解释相关知识内容,顺便检验自己对知识的掌握能力。欢迎提问和指正。

分类名叫小黄鸭的原因?

有一个故事,故事中程序大师随身携带一只小黄鸭,在调试代码的时候会在桌上放上这只小黄鸭,然后详细地向鸭子解释每行代码。以此来检验自己的程序是否存在Bug,也算一种换位思考吧。详细来源参照维基百科小黄鸭调试法

That's all, But not ALL.