欢迎您光临本公司官方网站!
全国服务热线:13713845237

行业新闻

主页 > 行业信息 > 行业新闻 >

6. 决策树的优缺点

2020-10-14 16:08来源:本站 作者:admin点击:

  计划树模子_盘算推算机软件及运用_IT/盘算推算机_专业原料•••。计划树(分类与回归伎俩) 1. 计划树模子 (1) 界说:分类计划树是一种形容对实例举行分类的树形机合 (2) 构成: 节点 内部节点:吐露一个特色或者属性 叶节点:吐露一个类 有向边 (3) 分类过

  计划树(分类与回归伎俩) 1•. 计划树模子 (1) 界说:分类计划树是一种形容对实例举行分类的树形机合 (2) 构成: 节点 内部节点:吐露一个特色或者属性 叶节点•:吐露一个类 有向边 (3) 分类进程 ? 从根节点起先,对实例的某一特色举行测试(特色选用) •? 依照测试结果,讲实例分派到其子节点(每一个子节点对应着该特色的一个取 值) ? 递归的对实例举行测试并分派,直到叶节点 ? 将实例分派到叶节点的类中(计划树天生) ? 为避免过拟合举行剪枝处罚(计划树剪枝) (4) 计划树练习: 练习的实质:从操练数据蚁合概括出一组分类原则,正在练习时,愚弄操练数据•,依照 亏损函数最幼化的规定扶植计划树模子. 计划树的修建•: ? 修建根节点,将悉数操练集都放正在根节点,拔取一个最优特色 ? 遵守这一特色将操练数据集决裂为子集 ••? 倘使这些子集不妨被无误分类,修建叶节点 ? 倘使尚有子集不行被无误分类 ? 对这些子集拔取新的最优特色,一连对其举行决裂,修建新的节点 2•. 特色拔取 特色拔取正在于选用对操练数据拥有分类才干的特色,法例平通常音信增益或则信 息增益比. ? 熵(entropy)[吐露随机变量不确定性的胸宇] 熵越大随机变量的不确定性就越大 要求熵:H(Y/X)吐露正在已知随机变量 X 的要求下随机变量 Y 得不确定性. ? 音信增益[吐露得知特色 X 的音信从而获得类 Y 的音信的不确定性裁汰的程 度]•,特色 A 对付操练数据集 D 的音信增益为 g(D,A)=H(D)-H(D/A) 拔取伎俩: 对操练数据集(子集)D,盘算推算每个特色的音信增益,比力巨细,拔取音信增益最 大的特色 参数•: 全体算法: 输入:操练数据集 D 与特色 A 全体盘算推算例子:统计练习伎俩P62 注:音信增益值的巨细是相对付操练数据集而言的,并没有绝对旨趣 ? 音信增益比: 3. 计划树的天生[只斟酌限度最优] ? ID3 算法 重心:正在计划树的各个节点上运用音信增益法例拔取特色,递归的修建计划树 全体伎俩: 从根节点起先•,对节点盘算推算悉数可以的特色的音信增益,拔取音信增益最大的 特色行为节点的特色,由该特色的分别取值扶植子节点 再对子节点递归的运用上述伎俩,修建计划树 直到悉数特色的音信增益很幼或者没有特色能够拔取为止 算法: ? C4.5(用音信增益比来选用特色) 算法: 4. 计划树的剪枝(治理过拟合题目) 通过极幼化计划树整个的亏损函数或价格函数来告终 参数: 为叶节点 t 上的体味熵 公式; 计划树练习的亏损函数界说为: C(T)吐露模子对操练数据的预测偏差,(模子与操练数据的拟合度)/T/吐露模子的繁复度 5. CART 算法(二叉树•,内部节点只可依照属性举行二分) CART 为分类与回归树,内部节点特色的取值只要•”是’与’否’ 对回归树用平方偏差最幼化法例,对分类树用基尼指数最幼化法例,举行特色选用 •? 回归树[对应着特色空间的一个划分以及正在划分单位的输出值] 算法: ? 分类树 基尼指数:[基尼指数值越大,样本的不确定性就越大] 算法: ? 熵与基尼指数的差异 Gini 指数的盘算推算不需求对数运算,越发高效; Gini 指数更方向于毗连属性,熵更方向于离散属性。 6. 计划树的优过失•,合键治理题目 计划树合键用来举行分类题主意处罚(能够治理回归题目),合键好处是拥有可读性,分类速率 速. 好处: ? 计划树易于剖析和告终. 人们正在通过注脚后都有才干去剖析计划树所表达的旨趣。 ? 对付计划树, 数据的打定往往是简略或者是不需要的 . 其他的本领往往哀求先把数据 通常化,比方去掉多余的或者空缺的属性。 ? ? ? ? 不妨同时处罚数据型和旧例型属性••。其他的本领往往哀求数据属性的简单。 正在相对短的时刻内不妨对大型数据源做出可行且效率优越的结果。 对缺失值不敏锐 能够处罚不对联特色数据 ? 服从高,计划树只需求一次修建,再三行使,每一次预测的最大盘算推算次数不突出计划 树的深度。 过失: 1)对毗连性的字段比力难预测。 2)对有时刻次第的数据,需求许多预处罚的使命。 3)当种别太多时,差池可以就会减少的比力速••。 4)通常的算法分类的功夫,只是依照一个字段来分类•。 正在处罚特色合系性比力强的数据时呈现得不是太好 合适要求•: 倘使不夸大的注脚度,尽量避免单棵计划树,用集成树模子 正在集成数模子中,优先推举办使 xgboost 正在中幼数据集上,优先拔取集成树模子。大数据集上推举神经搜集 正在需求模子注脚度的项目上,优先行使树模子 正在项目时刻较短的项目上••,倘使数据质地低(洪量缺失值、噪音等),优先行使集成树模子 正在硬件要求有限及机械练习学问有限的条件下,优先拔取树模子 毗连值的处罚与缺失值的处罚[西瓜书 P83]

火狐体育客户端