2024年10月信息增益率越大越好吗(怎样分析数据的相关性)
⑴信息增益率越大越好吗(怎样分析数据的相关性
⑵怎样分析数据的相关性
⑶在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。一、离散与离散变量之间的相关性、卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。(假设,多个变量之间不相关(根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值及自由度df=(C-)(R-)(查卡方表,求p值卡方值越大,P值越小,变量相关的可能性越大,当P《=.,否定原假设,认为变量相关。、信息增益和信息增益率在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。信息熵,就是一个随机变量的不确定性程度。条件熵,就是在一个条件下,随机变量的不确定性。(信息增益:熵-条件熵在一个条件下,信息不确定性减少的程度。Gain(Y,X)=H(Y)-H(Y|X)信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。(信息增益率假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)二、连续与连续变量之间的相关性、协方差协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为。Cov(X,Y)=E{}当cov(X,Y)》时,表明X与Y正相关;当cov(X,Y)《时,表明X与Y负相关;当cov(X,Y)=时,表明X与Y不相关。协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。、线性相关系数也叫Pearson相关系数,主要衡量两个变量线性相关的程度。r=cov(X,Y)/(D(X)D(Y))相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-和之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。三、连续与离散变量之间的相关性、连续变量离散化将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。、箱形图使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。
⑷决策树(DecisionTree
⑸??决策树(DecisionTree是一种基本的分类与回归方法,其模型呈树状结构,在分类问题中,表示基于特征对实例进行分类的过程。本质上,决策树模型就是一个定义在特征空间与类空间上的条件概率分布。决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的修剪。
⑹??分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点(node和有向边(directededge组成。节点有两种类型:内部节点(internalnode和叶节点(leafnode。内部节点表示一个特征或属性,叶节点表示一个类。
⑺??利用决策树进行分类,从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点;这时,每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶节点。最后将实例分到叶节点的类中。
⑻??决策树是给定特征条件下类的条件概率分布,这一条件概率分布定义在特征区间的一个划分(partiton上。将特征空间划分为互不相交的单元(cell或区域(region,并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应划分中的一个单元,决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量,Y为表示类的随机变量,那么这个条件概率分布可以表示成P(Y|X)。X取值于给定划分下单元的集合,Y取值于类的集合,各叶节点(单元上的条件概率往往偏向于某一个类,即属于某一类的概率较大,决策树分类时将该节点的实例分到条件概率大的那一类去。也就以为着决策树学习的过程其实也就是由数据集估计条件概率模型的过程,这些基于特征区间划分的类的条件概率模型由无穷多个,在进行选择时,不仅要考虑模型的拟合能力还要考虑其泛化能力。
⑼??为了使模型兼顾模型的拟合和泛化能力,决策树学习使用正则化的极大似然函数来作为损失函数,以最小化损失函数为目标,寻找最优的模型。显然从所有可能的决策树中选取最优决策树是NP完全问题,所以在实际中通常采用启发式的方法,近似求解这一最优化问题:通过递归的选择最优特征,根据该特征对训练数据进行划分直到使得各个子数据集有一个最好的分类,最终生成特征树。当然,这样得到的决策树实际上是次最优(sub-optimal的。进一步的,由于决策树的算法特性,为了防止模型过拟合,需要对已生成的决策树自下而上进行剪枝,将树变得更简单,提升模型的泛化能力。具体来说,就是去掉过于细分的叶节点,使其退回到父节点,甚至更高的节点,然后将父节点或更高的节点改为新的叶节点。如果数据集的特征较多,也可以在进行决策树学习之前,对数据集进行特征筛选。
⑽??由于决策树是一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型,决策树的生成对应模型的局部选择,决策树的剪枝对应着模型的全局选择。
⑾??熵(Entropy的概念最早起源于物理学,最初物理学家用这个概念度量一个热力学系统的无序程度。在年,克劳德·艾尔伍德·香农将热力学的熵,引入到信息论,因此它又被称为香农熵。在信息论中,熵是对不确定性的量度,在一条信息的熵越高则能传输越多的信息,反之,则意味着传输的信息越少。
⑿??如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为,编码,而且两个结果彼此之间相互独立。若进行n次独立实验,则熵为n,因为可以用长度为n的比特流表示。但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。
⒀??另一个稍微复杂的例子是假设一个随机变量X,取三种可能值,概率分别为,那么编码平均比特长度是:。其熵为。因此《u》熵实际是对随机变量的比特量和顺次发生概率相乘再总和的《/u》数学期望。
⒁??依据玻尔兹曼H定理,香农把随机变量X的熵定义为:
⒂??其中是随机变量X的信息量,当随机变量取自有限样本时,熵可以表示为:
⒃??同理可以定义条件熵:??很容易看出,条件熵(conditionalentropy就是X给定条件下Y的条件概率分布的熵对X的数学期望。当熵和条件熵中的概率有极大似然估计得到时,所对应的熵和条件熵分别称为检验熵(empiricalentropy和经验条件熵(empiricalconditionalentropy.
⒄??熵越大,随机变量的不确定性就越大,从定义可以验证:??当底数时,熵的单位是;当时,熵的单位是;而当时,熵的单位是.
⒅??如英语有个字母,假如每个字母在文章中出现的次数平均的话,每个字母的信息量为:
⒆??同理常用汉字有个,假设每个汉字在文章中出现的次数平均的话,每个汉字的信息量为:??事实上每个字母和汉字在文章中出现的次数并不平均,少见字母和罕见汉字具有相对较高的信息量,显然,由期望的定义,熵是整个消息系统的平均消息量。
⒇??熵可以用来表示数据集的不确定性,熵越大,则数据集的不确定性越大。因此使用划分前后数据集熵的差值量度使用当前特征对于数据集进行划分的效果(类似于深度学习的代价函数。对于待划分的数据集,其划分前的数据集的熵是一定的,但是划分之后的熵是不定的,越小说明使用此特征划分得到的子集的不确定性越小(也就是纯度越高。因此越大,说明使用当前特征划分数据集时,纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的数据子集,这一点可以参考优化算法中的梯度下降算法,每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理:在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集。
⒈??显然这种划分方式是存在弊端的,按信息增益准则的划分方式,当数据集的某个特征B取值较多时,依此特征进行划分更容易得到纯度更高的数据子集,使得偏小,信息增益会偏大,最终导致信息增益偏向取值较多的特征。
⒉??设是个数据样本的集合,假定类别属性具有个不同的值:,设是类中的样本数。对于一个给定样本,它的信息熵为:??其中,是任意样本属于的概率,一般可以用估计。
⒊??设一个属性A具有个不同的值,利用属性A将集合划分为个子集,其中包含了集合中属性取值的样本。若选择属性A为测试属性,则这些子集就是从集合的节点生长出来的新的叶节点。设是子集中类别为的样本数,则根据属性A划分样本的信息熵为:
⒋??其中,是子集中类别为的样本的概率。最后,用属性A划分样本子集后所得的信息增益(Gain)为:
⒌??即,《u》属性A的信息增益=划分前数据的熵-按属性A划分后数据子集的熵《/u》。信息增益(informationgain又称为互信息(matualinformation表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。信息增益显然越小,的值越大,说明选择测试属性A对于分类提供的信息越多,选择A之后对分类的不确定程度越小。
⒍??经典算法ID使用的信息增益特征选择准则会使得划分更偏相遇取值更多的特征,为了避免这种情况。ID的提出者J.RossQuinlan提出了C.,它在ID的基础上将特征选择准则由信息增益改为了信息增益率。在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大(类似于正则化。这个惩罚参数就是分裂信息度量的倒数。
⒎??不同于ID和C.,CART使用基尼不纯度来作为特征选择准则。基尼不纯度也叫基尼指数,表示在样本集合中一个随机选中的样本被分错的概率则《u》基尼指数(基尼不纯度=样本被选中的概率*样本被分错的概率《/u》。Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。
⒏样本集合的基尼指数:样本集合有m个类别,表示第个类别的样本数量,则的Gini指数为:基于某个特征划分样本集合S之后的基尼指数:??CART是一个二叉树,也就是当使用某个特征划分样本集合后,得到两个集合:a.等于给定的特征值的样本集合;b.不等于给定特征值的样本集合。实质上是对拥有多个取值的特征的二值处理。
⒐对于上述的每一种划分,都可以计算出基于划分特=某个特征值将样本集合划分为两个子集的纯度:因而对于一个具有多个取值(超过个的特征,需要计算以每个取值为划分点,对样本集合划分后子集的纯度(表示特征的可能取值)然后从所有的划分可能中找出Gini指数最小的划分,这个划分的划分点,就是使用特征对样本集合进行划分的最佳划分点。
⒑决策树--信息增益,信息增益比,Geni指数的理解
⒒【机器学习】深入理解--信息熵(InformationEntropy
⒓统计学习方法(李航
⒔??为了便于理解,利用以下数据集分别使用三种方法进行分类:
⒕??在进行具体分析之前,考虑到收入是数值类型,要使用决策树算法,需要先对该属性进行离散化。??在机器学习算法中,一些分类算法(ID、Apriori等要求数据是分类属性形式,因此在处理分类问题时经常需要将一些连续属性变换为分类属性。一般来说,连续属性的离散化都是通过在数据集的值域内设定若干个离散的划分点,将值域划分为若干区间,然后用不同的符号或整数数值代表落在每个子区间中的数据值。所以,离散化最核心的两个问题是:如何确定分类数以及如何将连续属性映射到这些分类值。常用的离散化方法有等宽法,等频法以及一维聚类法等。
⒖在实际使用时往往使用Pandas的cut()函数实现等宽离散化:
⒗??可以看到与手工计算的离散化结果相同,需要注意的是,《u》等宽法对于离群点比较敏感,倾向于不均匀地把属性值分布到各个区间,导致某些区间数据较多,某些区间数据很少,这显然不利用决策模型的建立。《/u》
⒘使用四个分位数作为边界点,对区间进行划分:
⒙《u》等频率离散化虽然避免了等宽离散化的数据分布不均匀的问题,却可能将相同的数据值分到不同的区间以满足每个区间具有相同数量的属性取值的要求。《/u》
⒚使用一维聚类的离散化方法后得到数据集为:
⒛??在本次实例中选择使用基于聚类的离散化方法后得到的数据集进行指标计算。为了预测客户能否偿还债务,使用A(拥有房产、B(婚姻情况、C(年收入等属性来进行数据集的划分最终构建决策树。
显然,由B属性取值’已婚’划分得到的子数据集属于同一个叶节点,无法再进行分类。接下来,对由B属性取值’单身’划分得到的子数据集再进行最优特征选择:
计算数据集总的信息熵,其中个数据中,能否偿还债务为’是’数据有,’否’数据有,则总的信息熵:
对于A(拥有房产)属性,其属性值有’是’和’否’两种。其中,在A为’是’的前提下,能否偿还债务为’是’的有、’否’的有;在A为’否’的前提下,能否偿还债务为’是’的有、为’否’的有,则A属性的信息熵为:
对于B(婚姻情况属性,由于已被确定,在这个数据子集信息熵为
对于C(年收入属性,其属性值有’中等输入’、’低收入’两种。在C为’中等收入’的前提下,能否偿还作为为’是’的有,为’否’的有;在C为’低收入’的前提下,能否偿还作为为’是’的有,为’否’的有;则C属性的信息熵为:
最后分别计算两个属性的信息增益值:信息增益值相同,说明以两个属性对数据子集进行划分后决策树的纯度上升是相同的,此时任选其一成为叶节点即可。同理,对数据子集进行最优特征选择,发现信息熵为:整理得到最终的决策树:
C.算法继承了ID算法的优点,并在以下几方面对ID算法进行了改进:)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;)在树构造过程中进行剪枝;)能够完成对连续属性的离散化处理;)能够对不完整数据进行处理。C.算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C.只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。具体算法步骤如下;创建节点N如果训练集为空,在返回节点N标记为Failure如果训练集中的所有记录都属于同一个类别,则以该类别标记节点N如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通的类;foreach候选属性attribute_listif候选属性是连续的then对该属性进行离散化选择候选属性attribute_list中具有最高信息增益率的属性D标记节点N为属性Dforeach属性D的一致值d由节点N长出一个条件为D=d的分支设s是训练集中D=d的训练样本的集合ifs为空加上一个树叶,标记为训练集中最普通的类else加上一个有C.(R-{D},C,s返回的点背景:分类与回归树(CART——ClassificationAndRegressionTree))是一种非常有趣并且十分有效的非参数分类和回归方法。它通过构建二叉树达到预测目的。分类与回归树CART模型最早由Breiman等人提出,已经在统计领域和数据挖掘技术中普遍使用。它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。由CART模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,且数据越复杂、变量越多,算法的优越性就越显著。模型的关键是预测准则的构建,准确的。定义:分类和回归首先利用已知的多变量数据构建预测准则,进而根据其它变量值对一个变量进行预测。在分类中,人们往往先对某一客体进行各种测量,然后利用一定的分类准则确定该客体归属那一类。例如,给定某一化石的鉴定特征,预测该化石属那一科、那一属,甚至那一种。另外一个例子是,已知某一地区的地质和物化探信息,预测该区是否有矿。回归则与分类不同,它被用来预测客体的某一数值,而不是客体的归类。例如,给定某一地区的矿产资源特征,预测该区的资源量。
决策树如果数据集不够多,会导致分类准确率低吗
日中等,低),会写代码有两个属性(会,不会),最终分类结果有两类(见,不见)。
信息增益准则为什么对可取值数目较多的属性有所偏好
从公式出发,信息增益是整个数据集的经验熵与特征A对整个数据集的经验条件熵的差值,信息增益越大即经验条件熵越小,那什么情况下的属性会有极小的的经验条件熵呢?举个极端的例子,如果将身份证号作为一个属性,那么,其实每个人的身份证号都是不相同的,也就是说,有多少个人,就有多少种取值,如果用身份证号这个属性去划分原数据集,那么,原数据集中有多少个样本,就会被划分为多少个子集,这样的话,会导致信息增益公式的第二项整体为,虽然这种划分毫无意义,但是从信息增益准则来讲,这就是最好的划分属性。其实从概念来讲,就一句话,信息增益表示由于特征A而使得数据集的分类不确定性减少的程度,信息增益大的特征具有更强的分类能力。
信息熵、条件熵、信息增益、信息增益率
信息熵.信息熵提出背景??我们生活在一个信息爆炸的时代,从信息学的角度来说,人类进步的本质就是不断的打破信息的不对称性。我们讨厌不确定性,我们一生都在试图将所有的不确定性变成我们可能预测可能掌控的东西。.什么是信息熵??在信息学中,对于接收者来说,发送者发送的信息是不确定的,所以对于接收者来说,他会接受到的信息是随机的,这里就引入了熵的概念。统计学中说熵的概念是一个系统可能存在的状态的个数的对数。虽然对于接收者来说,他可能接收的信息的个数是随机的,但是总是在一个范围内,他可能接收的信息的个数的对数就是信息熵。.信息熵的公式??为了计算熵,我们需要计算所有类别所有肯能值所包含的期望值,事物的不确定越大,信息熵越大。??,其中m代表将事物分类的概率为k种,代表了将事物分类为k类型的概率。.信息熵使用场景??cart剪枝,一般有两种,利用基尼系数或信息熵。.信息熵存在的问题??从信息熵的公式我们可以看到,信息越确定,信息熵越小。在生活场景中,像id之类的特征通过信息熵公式计算得到的信息熵很高,但是实际上这个特征对我们判断决策所起的作用很小,比如身份证号、手机号等信息。?二、条件熵.条件熵提出背景??我们知道有的特征携带的熵很多,但是这个特征又真正对我要决策的事情有多大的重要性呢,这时候我们很容易想到条件概率,这时候我们引出了条件熵这个概念。.什么是条件熵??条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。.条件熵的公式???随机变量X给定的条件下随机变量Y的条件熵公式如下:??????其中,三、信息增益.信息增益提出背景??拿我们生活的场景来举个栗子,比如闺蜜电话约我去逛街,提到我们逛街完了吃火锅,那天刚好下雪,然后我恰巧还来例假了,我这时候有两种决策,去或者不去。这里我们将上面场景中的信息概括下就是,买物品(买衣服?买包包?买鞋子?买花?买居家用品?)、吃饭(吃火锅?吃串串?吃小吃?吃披萨?、天气(下雨?下雪?晴天?阴天?;例假(是?否?,聊天,那么这么多特征中,哪些是决定我去或者不去的重要因素呢?如果单从信息熵的角度来看,那么哪个特征的属性越多,它的信息熵越大,重要性越大,事实却不是如此。对我来说,去的理由也许买物品不重要,吃什么也不重要,而我好长时间没有见到她了,想她了是真的,所以“聊天”这个特征决定我会做出赴约这个决策。串起来就是“在聊天这个特征条件下极大的增加了我做出赴约决策的确定性“。.什么是信息增益???信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。.信息增益公式?????这里D是决策,A是条件特征.信息增益的使用场景??信息处理中,ID算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。.信息增益存在的问题??从信息增益公式我们可以看到,前面唯一id特征信息熵的问题还是没有解决掉。那么有没有什么方法可以平衡id特征信息熵过大的问题,我们很容易想到将特征id自身的信息熵作为分母去平衡整个的计算结果,这时候就有人提出了信息增益率这个概念。四、信息增益率.信息增益率提出背景??信息增益率,其表示节点的信息与节点分裂信息度量的比值,增益率通常作为属性选择的方法之一.什么是信息增益率?信息增益率,其表示节点的信息与节点分裂信息度量的比值,增益率通常作为属性选择的方法之一.信息增益率公式上图为盗图,解释的比较清楚,这里就不重复说了。.信息增益率使用场景???C.算法就使用了信息增益率作为剪枝条件。五、参考文献????
【理论篇】决策树算法-信息增益率、GINI系数
ID决策树算法在特征选择时存在什么问题呢?
我们来举个例子:数据集A存在一个非常稀疏的特征ID列,我们知道ID是唯一不重复的,种类自然就会非常庞大。
这个时候,如果我们使用ID去切分数据集,那切分到最后,每个样本都会被分配到单独的样子结点上,每个样子结点的数据只有一样,不确定性为,熵值也为。
那这样是不是就说名ID这个特征非常好呢?根据ID就能预测标签?当然不是,实际上ID这个特征毫无意义。
小鱼这里拿ID举例,只是个极端的例子。但足以说明,对于类似ID这样数据种类非常多,分布非常稀疏的特征来说,ID决策树算法通过信息增益来选取结点特征是远远不够的。
为了解决ID决策树算法的问题,我们引入了信息增益率,计算信息增益时,考虑特征分布的自身熵。
C.决策树算法使用信息增益率来衡量特征节点的分类能力。所谓信息增益率就是在信息增益的基础上除以该特征自身的熵值计算而来。
为什么要除以特征自身的熵值呢?我们举个例子:还是刚才的ID特征,ID特征切分完数据后的熵值为,原始数据集的熵值为G,特征ID的熵值为-n*(/n)*log(/n)=-log(/n)其中n为数据集样本的个数。因此,特征ID的熵G是一个非常庞大的数值。
使用ID节点切分数据集之后,得到的信息增益为:G-=G,信息增益非常大,分类效果堪称完美。但如果使用信息增益率去衡量,则:(G-)/G,其中G一定是远远大于G的,因为很显然标签的混乱层度远低于ID列的混乱层度。
因此,我们求得的信息增益率就是一个非常小的值了,这个时候就可以发现ID这个特征分类效果非常差。也因此C.算法很好地解决了ID算法对稀疏特征衡量的不足。
GINI系数和熵的衡量标准类似,只是计算方式不同。GINI系数的公式为:
当概率P为或者时,此时没有不确定性。其中概率为时,GINI系数为,概率为时,GINI系数也为。
分类树:输出具体的类别回归树:输出确定的数值构建方法主要有三种:
预剪枝(Pre-Pruning后剪枝(Post-Pruning
卡方检验和相关性检验
卡方检验:统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为,表明理论值完全符合。
相关性检验:变量之间的相关的程度用相关系数r表征。当r大于给定显著性水平a和一定自由度f下的相关系数临界值T“a、时,表示变量之间在统计上存在相关关系。否则,则不存在相关关系。
随机样本数据;卡方检验的理论频数不能太小。两个独立样本比较可以分以下种情况:所有的理论数T≥并且总样本量n≥,用Pearson卡方进行检验。
如果理论数T<但T≥,并且n≥,用连续性校正的卡方进行检验。如果有理论数T<或n<,则用Fisher’s检验。
上述是适用于四格表。R×C表卡方检验应用条件:R×C表中理论数小于的格子不能超过/;不能有小于的理论数。
百度百科——相关性检验
-决策树节点划分时的特征选择依据
依据不同的决策树算法,在划分子节点时进行特征选择的依据有信息增益、信息增益比(又称信息增益率、基尼系数三种。依次阐述如下:.什么是信息熵?如果没有学过信息论等与信息理论相关的书,初看信息熵是会有点懵逼的。在机器学习领域,信息熵的定义如下:信息熵是度量样本集合纯度的一种最常用的指标,假设样本集合D的样本数一共有D个,一共有K类(标签,其中第k类样本所占的比例为pk,则该样本集的信息熵为:有两点可以加强理解:①信息熵是一个与类别标签相关,而与特征无关的量;②其实际反映的就是这个样本集中不同类别的样本的占比情况,也就是前面所说的纯度。如何直观的理解信息熵?可以从熵的最初概念出发,熵是表示体系混乱程度的度量,熵越大自然纯度就越小。吊诡的地方在哪里呢?在于前面的信息二字,信息熵越大到底代表信息量越大还是信息量越小?如果我们把信息量理解的直观一点,两者是反着的,信息熵越大,能给我们利用的信息就越少。举个简单的栗子,样本集D有个人。如果是个好人个坏人,信息熵就会大于个好人个坏人的情况。为什么呢?因为:的比例确实带不来任何信息,假设我们现在就只有这么个样本集,然后来一个新样本,我们判断这个新样本是个好人还是坏人?:的样本集告诉我们,有.的概率是好人.的概率是坏人,也就是跟随机抛硬币一样,无论我们最后给新样本定什么标签,都有%的错误率。但假设我们的样本集是:,其它什么特征都不用,我们可以判断,这个新样本%的概率是好人,%的概率是坏人,所以我们应该无脑的把所有人都判断为好人,这样我们预计只有%的错误率。这就是信息熵发挥的作用,样本类别越均衡,就是纯度越小,信息熵越大,可用的信息就越少。.信息增益前面扯了这么多废话把信息熵弄明白,信息增益就简单多了。如果我们按照某个特征的取值,把原始样本集划分为若干个子集,然后用某种方式求一下这些子集的信息熵“之和”,我们希望什么,我们希望划分后的信息熵要减小得尽可能的多,这个信息熵的减小量,就是信息增益。第一个问题:划分后的子集信息熵之和怎么算?按照信息熵定义,每个子集都能算一个信息熵出来,简单求个和吗?那肯定不行,毕竟还有个样本量的问题,把样本量考虑进去,就相当于给每个子集的信息熵配一个权重,这个权重就是这个子集的样本数占样本总数的比例,然后加权求个和,这就是划分子集后的信息熵求法。用原始的信息熵减去上面这个划分后的信息熵,就是信息增益咯。再说一遍,信息增益就是信息熵的减小量。补充点废话:信息增益大意味着什么?意味着划分后的样本集们普遍的信息熵较小,也就是纯度较大,纯度较大意味着什么,意味着划分后的各个子集有可能这个子集全是好人,那个子集全是坏人,这不正是我们想要的吗,我们要的恰恰就就是根据特征来有效判断人的好坏,所以选信息增益大的特征进行样本划分也就是理所当然的了。使用信息增益来划分节点的决策树算法叫ID算法.信息增益比(率信息增益有什么问题?假设我们有两个特征可供选择,性别与年龄,其中性别的取值只有男和女两种,而年龄的取值有、、、...、、几十个。这会带来什么问题呢?定性想一下,特征取值越多,划分后的各个子集就会越小,而越小的子集其分布就越有可能偏。还是按前面的栗子来说,个人按性别划分成个男人个女人,而这两个子集里有分别都有好人和坏人,信息增益可能justsoso,但如果按年龄分,假设个人恰好是个不同的年龄,那划分后每个子集里要么是一个好人要么是一个坏人,纯度杠杠的,信息增益杠杠的。但这是否代表年龄真的是个更好用得特征?并不是,这是因为我们的样本集终究是有限个样本构成的,当特征取值很多时,子集越小,越小就越有可能出现统计学意义上的偏差,从而使其信息增益看起来大。废话了这么多,想说明什么问题呢?就是“依据信息增益划分子集”这个标准会偏爱可取值数多的特征,而这个特征在刻画样本时不一定强。为了平衡这一点,我们要设法对信息增益做个类似归一化的操作,让不同特征间能有可比性。归一化肯定要考虑特征取值数了,但直接把信息增益除以特征取值数就太简单粗暴了,因此我们再定义一个指标,这个指标称之为特征的固有值,整体上与特征的可取值数会正相关,定义如下:使用特征a的信息增益除以特征a的固有值,就是信息增益比了,使用信息增益比来划分节点的决策树算法叫C.算法。前面说过,信息增益会偏爱取值数较多的特征,那么信息增益比是不是一视同仁了呢?没有,信息增益比会偏爱取值数较少的特征(捂脸哭。所以最机智的做法应该是设法结合两者。.基尼系数其实决策树的节点划分这个事儿吧,搞这么多指标出来自然有它的理由,但这些指标说来说去呢,为的都是一件事儿,那就是我们要找到最有用的特征来划分节点。那什么是最有用呢?就是能最有效的区分样本的类别。不管什么指标,本质上度量的都是这个事儿。基尼系数自然也是如此了,基尼系数反映了从样本集中随机抽取两个样本,其类别标记不一致的概率,原始样本集的基尼系数这么算:为毛说基尼系数反映了随机选取的两个样本类别不一致的概率呢?pk是不同类别的样本所占的比例,因此它们的和为,一堆介于~之间的pk的平方和,什么时候最小?当所有的pk相等的时候平方和最小,这个可以用初中数学知识证明。而当每个类别所占的比例都一样的时候,随机抽取的两个样本不一样的概率最大。比如,在个好人个坏人里随机抽俩人,这俩人一个是好人一个是坏人的概率还是蛮大的,但如果在个好人个坏人里抽俩人,这俩人就有更大概率是两个好人。因此基尼系数度量的也是纯度,由于前面有个-,基尼系数越大,意味着纯度越小(也意味着信息熵越大。理解了基尼系数和信息熵反应的本质是一样的之后,这事就好说了,信息增益是信息熵的减小量,对比想一下这儿就是用划分后基尼系数减小量咯?差不多,但不完全一样,这里是直接用了划分后基尼系数,哪个特征最小就用哪个。为毛呢?因为划分前大家都是一个基尼系数啊,划分后基尼系数最小,可不就是划分后基尼系数减小量最大嘛,所以是一回事。从这个角度来说,前面用信息增益最大也没必要,直接用划分后信息熵最小的那个就行了,效果是一样一样的。使用基尼系数划分特征的决策树算法叫CART算法。CART的全称是classifyandregressiontree(分类和回归树,回归树是什么玩意,以后再说了。以上就是决策树节点划分时特征选择所用的三个指标。