眼爆科技

人工智能之C4.5算法

时间:2018-06-16 09:00  编辑:眼爆科技

前言:人工智能机器学习有关算法内容,请参见公众号“科技优化生活”之前相关文章。人工智能之机器学习主要有三大类:1)分类;2)回归;3)聚类。今天我们重点探讨一下C4.5算法。

上篇文章介绍Quinlan(悉尼大学)提出了ID3算法[参见人工智能(41)],但是由于ID3算法在实际应用中存在一些问题,于是Quinlan又提出了ID3的改进算法-C4.5算法

C4.5算法是由Quinlan提出并开发的用于产生决策树[参见人工智能(23)]的算法。该算法是对Quinlan之前开发的ID3算法一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。ID3算法使用的是信息熵的变化值,而C4.5算法使用的是信息增益率。在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting),如果不考虑这些结点可能会更好。对非离散数据能处理,并对不完整数据进行处理。

C4.5算法概念

C4.5算法由Quinlan在ID3算法基础上提出的,用来构造决策树。C4.5算法是用于生成决策树的一种经典算法。它是一系列用在机器学习和数据挖掘分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

C4.5算法改进

C4.5算法是ID3算法的一种延伸和优化,C4.5算法对ID3算法主要做的改进是:1)通过信息增益选择分裂属性

  • 共5页:
  • 上一页
  • 1
  • 2
  • 3
  • 4
  • 5
  • 下一页




  • 上一篇:AI出海:盘点走向国际的中国人工智能企业 下一篇:人工智能之K-Means算法