1.介绍

在本教程中,我们将分析相关现象的含义到机器学习算法中,例如分类算法。

所遵循的讨论适用于一般的模式识别问题。

2. Interlude:correlazione和因果关系

相关性没有表示因果关系.例如,风力的增加会导致风电场中叶片速度的增加,从而导致发电量的增加,但叶片速度的增加并不会导致风力的增加。然而,这两种现象的联系在于我们可以从另一种现象的数值来预测另一种现象的数值。

下图说明了另一个例子的另一个角度:

从认识论的观点来看,这两个概念在逻辑上是截然不同的:相关性是对称的(变量一个相关变量B意味着变量B与变量相关联一个),而因果不对称,正如我们在刚才所做的那样。

相关性是我们可以从统计观点分析的概念。鉴于机器学习中大多数方法的统计性质,因此,通常是有道理的,讲述相关性但不具有因果关系。

在我们的教程中有很好的讨论相关系数实际代表的是什么

关联现象并不影响分类器的结构和工作方式。然而,它们对个人预测有负面影响,这可能会影响最终结果的质量。

正如我们将看到的,原因在于使用算法分析问题时出现的一些通用约束。在这些限制中,最重要的是可用数据集的大小。

3.相关性和共线性

相关性和共线性是不同的现象,但它们有接触点,所以我们将它们作为相关性的例子。

如果一个变量的增加与另一变量的增加有关,则相关性可以是正的,或者如果一个变量的增加与其他变量的减小有关。

3.1。相关性

在统计学中,相关性是衡量两个随机变量之间的依赖程度(如我们所见,不一定是因果关系)。一般来说,相关这个词意味着一种线性关系。

相关性可以是一种积极的现象,因为它可以使预测一个变量知道另一个变量的值成为可能。

相关性是相依性的同义词,所以两个独立的随机变量从统计学的角度来看是不相关的。

有几种相关度量,称为相关系数(通常用\ rho.要么r).最常见的是Pearson相关系数,它衡量两个变量之间的线性依赖程度。即使这两个变量之间的数学关系遵循非线性函数,这种线性关系也是有意义的

是其他相关系数,对非线性关系也敏感,例如Spearman的等级相关性相互信息

3.2.相关系数

Pearson产品时刻相关系数(PPMCC)也称为Pearson的相关系数或简单相关系数,是拟合原始数据的最小二乘质量的量度.在数学上,它是协方差之间的比率,\ sigma.,两个变量及其标准偏差\ sigma(x)\ sigma(y)

\ [\ rho_ {XY} = \压裂{\ Sigma_ {XY}}{\σ(X) \σ(Y)} = \压裂{\ mathrm左{E} \ [(X - \ mu_ {X}) (Y - \ mu_ {Y})正确\]}{\σ(X) \σ(Y)} = \压裂{\ mathrm {E} \左(XY \右)- \ mathrm {E} [X] \ mathrm {E} [Y]}{\√6 {\ mathrm {E} [X ^ {2}] - \ mathrm {E} [X] ^{2}} \√6 {\ mathrm {E} [Y ^ {2}] - \ mathrm {E} [Y] ^ {2}}} \]

在哪里,用于数据集N记录和手段\亩

\ [\ sigma_ {xy} = \ frac {1} {n} \ sum_ {i = 1} ^ {n}(x_ {i}  -  \ mu_ {x})(y_ {i}  -  \ mu_ {y})\]

没有参考手段,我们可以以等同的方式表达:

\ [\ mathbf {\ sigma} _ {xy} = \ frac {1} {2n ^ {2}} \ sum_ {i} ^ {n} \ sum_ {j = i} ^ {n}(x_ {i}-x_ {j})(y_ {i} -y_ {j})= \ frac {1} {n ^ {2}} \ sum_ {i} ^ {n} \ sum_ {j> i} ^ {n}(x_ {i} -x____ {j})(y_ {i} -y_ {j})\]

3.3.共线性

在统计数据中,共线(也是多型性度)是一种现象,其中可以具有大量准确度的其他回归模型中的一个预测变量。

至少在样本数据集内,多色性不降低模型的预测功率或可靠性;它只影响关于个体预测因子的计算.也就是说,具有共线预测器的多变量回归模型可以指示整个预测器的束如何预测结果变量,但它可能不会对任何单独的预测器或预测器之间的冗余提供有效的结果。金宝搏官网188be

没有多元素性通常是指没有完美的多色性,这是预测器之间的精确(非随机)线性关系

对于一般线性模型:

\ [y = beta \ mathbf {x} + \ epsilon \]

重组此表达式的矩阵形式,我们可以编写统计预测因素:

\ [\ hat {\ beta} = \ left(\ mathbf {x} ^ {\ mathrm {t}} \ mathbf {x}右)^ { -  1} \ mathbf {x} ^ {\ mathrm {t}} y \]

但是,在共同性的情况下,我们无法计算逆。因此,这种预测值不存在.值得理解为什么。

3.4。联合性问题

我们将注意力集中在方形矩阵上,这是我们唯一可以计算逆的矩阵。产品\ mathbf {X} ^ {\ mathrm {T}} \ mathbf {X}是一个方形矩阵。

方矩阵的等级是线性独立的行或列的数量。全级矩阵具有许多线性独立的行或列等于矩阵的行数或列,否则,它被称为rank缺陷,在这种情况下,对于矩阵\ mathbf {a}N \ N), 我们有\mathbf {rank} (\mathbf {A}

对于非平方矩阵,等级是行和列之间的最小值。通常,如果所有列(特征)是独立的,则数据集的输入矩阵将是全级别的。

在存在共同性(完美的多色性)中,我们具有,因此,数据矩阵缺乏。

代数建立的两个基本结果:

  1. 排名(\ mathbf{一})=排名(\ mathbf{一}^ {T} \ mathbf{一})=排名(\ mathbf {} \ mathbf{一}^ {\ mathrm {T}})
  2. \ det(\ mathbf {a})= 0如果\ mathbf {a}是rank-deficient

在我们的预测因素的情况下,如果是通用非方形矩阵\ mathbf {X}来自数据集的结果是缺陷的,因此方矩阵\ mathbf {X} ^ {\ mathrm {T}} \ mathbf {X}是污垢缺陷,它的决定因素是空的。

对于一个2 \ times 2矩阵,逆可以根据表达式计算:

\ [\ mathbf{{一}}= \离开(\开始{数组}{cc} & b \ \ c & d \结束数组{}\)\]

\ [\ mathbf {a} ^ { -  1} = \ frac {1} {ad-bc} \ left(\ begin {array} {cc} d&-b \\ -c&a \ neat {array} \对)\]

ad-bc = \ det(\ mathbf {a}).从该结果和两个以前的属性下面,在相对性的情况下,不存在线性预测器。该结果是概括的任何顺序的矩阵。

多重共线性是数据矩阵的特征,而不是基础统计模型

4.维度的诅咒

数据集中的记录数量决定了我们在统计模型中可以处理的最大特征数量。在某些情况下,可能需要应用一些预处理技术,将数据集转换为更能保证获得良好结果的等效数据集

让我们以一个排印字符识别系统为例,该系统的目的是从一系列图像开始,实现最佳分类。

第一步是识别一些特征(特征提取),即我们可以链接到每个图像所属的分类器预测的类别的一些输入参数。

我们可以直观地同意增加特征的数量可以提高分类器的性能.在这种情况下,我们正在做的正在增加进入系统的信息,这原则上导致具有更高分辨率的模式的可能性,从而改善输入和输出之间的映射。

这种情况表明,例如通过用图像的单个像素识别我们系统的每个输入的特征的数量,获得数千次或数万的输入维度。

然而,经验实践表明,增加超出某个限制的特征的数量恶化了分类器的性能。让我们看看为什么。

4.1.一个例子

我们把每个变量分成一定数量的区间。这将整个输入空间分成几个单元格,如下图所示:

数据集的每个实例对应于一个小区中的一个点,以及输出变量的值y

给出了输入空间中的新点,我们可以确定相应的y的值,方法是计算数据集中与给定点属于同一单元格的所有点,并求其平均值y

增加细分的数量增加了系统的分辨率,以指数增加细胞数量.如果每个输入变量被分成米输入和输入的维度是D,则单元格总数等于m ^ {d}

当我们增加时,我们的分类器的质量会变得更糟D超出某个限制,因为我们到达在没有数据集没有代表点的细胞内部的情况。这种像差被称为“维度的诅咒”,在这种情况下,唯一的解决方案是增加数据集中的记录数量或减少特征的数量。

然而,对于通常由一系列测量给出数据集的实际问题,在构建分类器时记录的数量是固定的。在实践中,数据集的大小条件可以在我们的系统中“解决”的最大特征数量

相关性和共线性,虽然不是全局影响分类器性能的现象,但从实用的角度来看是负面因素。在这些情况下,我们有冗余的数据,这可能导致我们的分类器必须处理一些超出数据集固有解析能力的特性。

因此,该规则是以受控和可重复的方式执行数据集的预处理,以获得包含大多数原始信息的最少的特征,其中数据的方差是该信息量的量度

这正是主成分分析的确实是什么。

5.主成分分析(PCA)

输入矩阵的相关性和共线性被认为是像差.它们引入了可以引导的冗余信息,正如我们在前一节图像的极端情况下看到的,以使数据量不足以在输入空间的所有区域中具有足够的分辨率的情况。

让我们把讨论过的问题形式化。我们称之为\ mathbf {X}我们数据集的输入矩阵,由D(列)和特性N行(数据集的记录)。在输入相关性的情况下,我们有以下问题:

  1. 在构建分类器的过程中,我们需要识别输入和输出之间的映射所取决于的功能。通常没有模型,所以功能的选择是部分任意的,并且通常在数据集中相关联
  2. 在这种情况下,\ mathbf {X}如果不是所有组件都是线性的,则可以是缺乏的
  3. 拥有高方差的功能是一件好事,因为它们将更具信息丰富,更重要
  4. 具有高度相关的特征或高协议生,这是一件坏事,因为它们可以彼此推断出来的信息很小,因此将它们保持在一起是多余的。在这种情况下,可以对可用数据数量提供的功能的功能过多

我们想要的是:

  1. 改造原件\ mathbf {X}将矩阵输入到新的全级别\ mathbf {x}'矩阵,如果可能的话。这解决了与相关性和共同性有关的大多数问题
  2. 确定允许以受控方式减小输入大小的标准,从而消除对输入和输出之间的映射不是必需的信息

PCA解决了这些问题。它是一种旋转和对新的线性独立轴上的原始数据的投影,相同的数量与特征的数量相等。结果是在理想的情况下,一个新的全排名数据矩阵。该新矩阵变为新数据集,比原始数据集小,其中特征数量保留了原始数据的任意信息

下图展示了原始轴的旋转和投影(x, y)转换成一组新的正交轴PCA1和PCA2:

关于PCA的详细介绍可以在我们的教程中找到PCA:主成分分析

六,结论

在本教程中,我们分析了相关性现象在预测方法中通常是如何有害的。

数据集的固定大小条件我们可以包含到算法中的最大功能量。在相关效果的情况下,数据包含冗余信息。在这种情况下,我们可以以受控方式减少数据集的大小,消除了一些冗余信息。

主要成分分析是用于此目的的方法之一,并形成机器学习中每个技术人员的强制知识技术的一部分。

评论在本文上关闭!