爱收集资源网

国家重点实验室组织发布的模式识别学科发展报告

网络整理 2023-09-26 18:00

本文来自模式识别国家重点实验室组织发布的模式识别学科发展报告,已得到模式识别国家重点实验室授权发布。全文大纲

本文选出以下13项理论技巧或任务作为过去历史上模式识别领域基础理论技巧的重要成就:

1.贝叶斯决策与恐怕:统计决策的基础理论。

2.概率密度恐怕:一类重要的无监督学习方法,统计模式识别的重要基础,模式剖析的重要工具。

3.分类器设计:模式辨识系统实现中最重要的任务,有多种模型设计和学习方法,这里主要介绍监督学习。

4.降维:一类重要的无监督学习方法,模式剖析的重要工具。

5.特征提取与学习:模式的特点表示对模式分类的性能有决定性影响,如何从数据提取特点、选择特点或学习特点表示是一个重要的研究方向。

6.人工神经网络与深度学习:人工神经网络是一类重要的模式剖析和辨识方式,发展到深度神经网路产生了目前最成功的深度学习系列方式和研究方向。

7.核技巧与支持向量机:以支持向量机为主的核技巧在20世纪90年代成为模式识别的一个主流方向,至今仍在模式识别研究和应用中发挥重要作用。

8.复句结构模式辨识:基于复句或结构剖析的模式识别方式仍然以来是与统计模式识别并列的一个重要分支。

9.概率图模型:概率图模型是一类重要的模式结构剖析或结构化预测方式,因为其区别于其他结构模式识别方式的独特性,对其单独介绍。

10.集成学习:集成学习通过融合多个学习器来提高性能, 在20世纪80年代以来已有大量研究和应用,形成了系统的理论和系列方式。

11.半监督学习:半监督学习是20世纪90年代以来发展上去的一类可同时借助标记样本和无标记样本的分类器学习方法,至今仍有大量研究。

12.迁移学习:迁移学习借助不同领域或不同分布特点的样本数据来优化分类器模型,受到了广泛注重,发展了一系列模型和技巧。

13.多任务学习:多任务学习借助多个分类或建模任务(包括降维、回归、数据构建等)的相关性,同时学习多个任务,可提高每位任务的泛化性能,得到了广泛注重和应用。

本次分享前六项,以下为正文部份,全文共计一万余字,建议保存收藏阅读~

喜欢我们分享的文章可以点个赞,给我们更新的动力~^-^

引言

模式识别是对感知的模式信息(图像、视频、声音等)进行剖析,对其中的物体对象或行为进行判断和解释的过程。从方法论的角度,模式辨识方式可进一步分为统计模式识别、句法/结构模式识别、神经网路方式等。在技术上,模式识别方式包括模式(或讯号)预处理、模式分割、特征提取或表示、模式剖析、模式分类等几个主要的步骤。

在统计模式识别(Statistic Pattern Recognition)中,每个模式被描述为一个特点向量,对应高维空间中的一个随机样本点。统计模式识别的基本原理是类内样本在模式空间中互相接近,形成“数据簇”(聚类),类间样本互相远离。统计模式识别的基本任务是对模式进行分类。统计模式识别方式包括统计决策理论和判断剖析技巧。统计决策理论借助样本的统计信息来进行决策。贝叶斯决策依据样本的后验机率进行分类,是统计决策理论的基本技巧。判别剖析方式借助已知类别的样本完善判断模型,并对未知类别样本进行分类。

基于复句或结构剖析的模式识别方式仍然以来是与统计模式识别并列的一个重要分支。句法模式识别(Syntactic Pattern Recognition)是借助模式的结构基元信息,以形式语言理论为基础来进行结构模式描述和辨识的技巧。结构模式识别(Structural Pattern Recognition)是一类通过结构特点来描述和判断一个模式对象的方式。句法模式识别常常与结构模式识别在用词上互换,合称复句结构模式辨识,或者单称复句模式辨识或结构模式识别。句法结构模式辨识方式能反映模式的结构特点,通常具有较好的泛化能力。

20世纪80年代以来,人工神经网络得到快速发展和大量应用。神经网路可看作是一类统计模式辨识方式,其中间层的输出可视为模式特点表示,输出层则给出分类判定。近来年,随着深度学习方法(深度神经网路设计和学习算法)的发展,模式识别领域迎来了一个全新的发展时期。深度学习方法借助大规模样本训练深度神经网路,相比传统模式辨识方式,在好多模式识别问题上都显著提高了辨识性能。

分类器设计是统计模式识别的重要研究内容。分类器设计的学习方法分为无监督学习、有监督学习、半监督学习和强化学习等。无监督学习是在样本没有类别标记的条件下对数据进行模式剖析或统计学习,如机率密度恐怕、聚类等。监督学习是借助标记样本训练得到一个最优模型(如调整参数促使模型对训练样本的分类性能最优),并借助该模型对未知样本进行判断。半监督学习是监督学习与无监督学习相结合的一种学习方法,使用大量的未标记样本和少量的标记样本来进行模式剖析或分类器设计。强化学习是智能系统从环境到行为映射的一种学习方法,优化行为策略以使奖励讯号(强化讯号,通过赏罚取代监督)的累积值最大化。

回顾20世纪50年代以来模式识别领域的发展,一些基础理论和技巧形成了历史性的重要影响,它们或奠定了模式识别的理论基础,或在模式辨识系统中广泛应用,或拿来做模式剖析的工具。我们选出以下13项理论技巧或任务作为过去历史上模式识别领域基础理论技巧的重要成就,它们是:

1.贝叶斯决策与恐怕:统计决策的基础理论。

人工神经网络和支持向量机优点_人工神经网络优缺点_人工神经网络模型有哪些

2.概率密度恐怕:一类重要的无监督学习方法,统计模式识别的重要基础,模式剖析的重要工具。

3.分类器设计:模式辨识系统实现中最重要的任务,有多种模型设计和学习方法,这里主要介绍监督学习。

4.降维:一类重要的无监督学习方法,模式剖析的重要工具。

5.特征提取与学习:模式的特点表示对模式分类的性能有决定性影响,如何从数据提取特点、选择特点或学习特点表示是一个重要的研究方向。

6.人工神经网络与深度学习:人工神经网络是一类重要的模式剖析和辨识方式,发展到深度神经网路产生了目前最成功的深度学习系列方式和研究方向。

7.核技巧与支持向量机:以支持向量机为主的核技巧在20世纪90年代成为模式识别的一个主流方向,至今仍在模式识别研究和应用中发挥重要作用。

8.复句结构模式辨识:基于复句或结构剖析的模式识别方式仍然以来是与统计模式识别并列的一个重要分支。

9.概率图模型:概率图模型是一类重要的模式结构剖析或结构化预测方式,因为其区别于其他结构模式识别方式的独特性,对其单独介绍。

10.集成学习:集成学习通过融合多个学习器来提高性能, 在20世纪80年代以来已有大量研究和应用,形成了系统的理论和系列方式。

11.半监督学习:半监督学习是20世纪90年代以来发展上去的一类可同时借助标记样本和无标记样本的分类器学习方法,至今仍有大量研究。

12.迁移学习:迁移学习借助不同领域或不同分布特点的样本数据来优化分类器模型,受到了广泛注重,发展了一系列模型和技巧。

13.多任务学习:多任务学习借助多个分类或建模任务(包括降维、回归、数据构建等)的相关性,同时学习多个任务,可提高每位任务的泛化性能,得到了广泛注重和应用。1. 贝叶斯决策与恐怕

贝叶斯决策是统计决策理论的基本技巧。理论上,在给定类条件概率密度函数和类先验机率条件下,贝叶斯决策是最小分类错误率和最小风险一致最优的决策。对于模式分类任务而言,贝叶斯决策与恐怕的核心任务是借助统计学中的贝叶斯定理来恐怕类后验机率密度函数,采用期望效用最大化和类别错判损失最小化等准则建立分类判别函数,确定样本的最优类别标记。

作为规范性理论,在类条件概率密度函数和类先验机率等经验知识条件下,最小错误率贝叶斯决策和最小风险贝叶斯决策的理论与技巧已较健全。在这一理论框架下,贝叶斯决策所建立的分类器在统计上是最优的。在最小错误率贝叶斯决策和最小风险贝叶斯决策准则的基础上,模式分类方式得到充分的发展,建立起了基于训练样本直接建立分类器的方式体系。在技术上,针对不同的类条件概率密度函数,可构造不同的分类器。比如,常见的近来邻分类器、线性分类器、二次判别函数等均可在类条件概率密度函数为正态分布的情形下通过最小错误率贝叶斯决策来获得。在此基础上,人们发展了带拒识决策、Neyman-Pearson决策方式、ROC曲线性能评估、连续类条件概率密度下的分类决策、离散机率模型下的统计决策、两类分类错误率恐怕、正态分布类条件概率密度的分类错误率恐怕、高维独立随机变量分类错误率恐怕、贝叶斯恐怕、贝叶斯学习、K近邻分类器的错误率界、决策树模型、朴素贝叶斯模型等基本理论与技巧。在此基础上,发展了非参数贝叶斯估计方式,如Dirichlet过程、高斯过程、核机率密度恐怕等。Dirichlet过程和高斯过程通过随机过程来表示不确定性,利用先验知识来增加对参数的显示约束,一定程度地避开了过拟合,提升了贝叶斯恐怕的数据自适应能力。

在贝叶斯决策中,类条件概率密度函数被假设是已知的。由于模式分类任务一般是面向给定样本集的,其类条件概率密度函数常常是未知的。因此,对类条件概率密度函数进行恐怕则成为贝叶斯决策过程中的一个核心环节。这一任务与概率密度函数恐怕紧密相关。在方法论上,最大残差恐怕被广泛地应用于确定型参数的类条件概率密度函数恐怕情形,而贝叶斯恐怕则被应用于随机型参数的类条件概率密度函数恐怕情形。贝叶斯学习具有灵活的适应性,既可以自然地处理以动态方式出现的样本,也可以处理以分布式形式存在的多个数据集。对于常见的共轭模型(如:类条件概率密度函数为正态分布,先验分布也是正态分布),贝叶斯后验分布可以很容易地得到估算。对于愈发常见的非共轭模型,已经发展了性能良好的变分推测和蒙特卡洛取样算法,建立了较为建立的贝叶斯恐怕的方式体系。

在贝叶斯恐怕的框架内,建立了较为建立的概率图模型参数估计与结构学习的理论与技巧体系,发展了马尔可夫模型参数估计方式、隐马尔可夫模型参数估计方式、动态贝叶斯网络参数估计方式。贝叶斯深度学习将贝叶斯学习的思想与神经网路的训练相结合,一方面,通过反向传播的变分推算或蒙特卡洛算法,对神经网路的参数进行贝叶斯建模,估计其机率分布信息;另一方面,利用神经网路的非线性函数学习能力,丰富贝叶斯模型中变量之间的变换,实现复杂数据的贝叶斯建模和学习。贝叶斯深度学习在无监督表示学习、数据生成、半监督学习、深度神经网络训练、网络结构搜索等中得到广泛应用。另外,基于贝叶斯学习和核函数方式发展了关联向量机方式,一定程度上克服了精典支持向量机中支持向量过多且其分类性能易受正则化参数影响的缺点。

最近几年,以贝叶斯决策与恐怕为基础,贝叶斯隐变量学习模型、代价敏感学习、代价缺位学习、信息论模式辨识、鲁棒分类器设计、正则化方式、贝叶斯统计推论、变分贝叶斯学习等得到了充分的发展,拓展了贝叶斯决策与恐怕的应用范围,进一步发展了贝叶斯决策的方式体系。

以贝叶斯决策与恐怕所产生的理论与技巧为基础,形成了较为完备的模式分类的概念体系和分类性能评价方式。在当前的模式识别理论与技巧体系中,诸多判别式模型和生成式模型均可以用贝叶斯决策的思想进行解释。在技术上,贝叶斯决策与恐怕对分类器设计、概率密度恐怕、参数学习、特征提取、特征选择等方式体系的产生形成了直接影响。另外,贝叶斯决策与恐怕还是一种重要的学习策略,对统计模式识别和结构模式识别中的学习与推论问题的求解提供了重要的方法论。贝叶斯决策与恐怕的理论与技巧在医学图象分类、计算机视觉、自然语言处理、语音识别、遥感图像处理等任务中得到广泛应用。

2. 概率密度恐怕

概率密度恐怕是贝叶斯决策的基础。给定一个观测样本集,概率密度恐怕的基本任务是采用某种规则恐怕出生成这种样本的概率密度函数。观测样本的分布能代表样本的真实分布,且观测样本足够充分。概率密度恐怕的基本思路是若一个样本在观测中出现则觉得在该样本所处的区域其机率密度较大而离观测样本较远的区域其机率密度较小。

概率密度恐怕方式主要包含参数估计和非参数估计。参数估计方式假设概率密度函数的方式已知,所含参数未知。参数法进一步分为频度派和贝叶斯两大类学派。频率派觉得待恐怕的概率密度函数的参数是客观存在的,样本是随机的;而贝叶斯派假设待估参数是随机的,但样本是固定的。频率派的代表方式为最大似然恐怕,贝叶斯派的代表性方法则包含贝叶斯恐怕和贝叶斯学习。针对样本的类别是否已知,参数法又可分为有监督和无监督的恐怕方式。有监督的恐怕假设每类样本的类别标签已知,无监督的恐怕假设每类样本的类别标签未知。在每类样本独立同分布的假设下,这两类方式主要借助最大残差恐怕的技术路线来实现。无监督的恐怕一般须要同时对观测变量和隐变量进行恐怕,因此在最大残差恐怕的框架下,该类方式大多采用期望最大化方式来具体实现。在此基础上,人们发展出概率图模型参数估计、混合高斯模型概率函数恐怕、Poly-tree模型参数估计、Copula 密度函数恐怕、隐狄利克莱分配(Latent Dirichlet Allocation)模型恐怕、受限玻尔滋曼机参数估计等方式。

在对样本分布没有充分了解因而无法给出其概率密度函数的情形下,以及在样本分布复杂因而无法采用简单的概率密度函数对其进行描述的情形下,需要采用非参数恐怕技巧。非参数估计方式不对概率密度函数的方式作任何假设,而是直接采用样本来恐怕出整个函数。非参数方法主要包含Parzen窗方式和K近邻恐怕。Parzen窗方式和K近邻恐怕方式的偏差界已从理论上得到了有效的剖析和充分的研究。方窗、高斯窗、超球窗等窗函数在Parzen窗方式中得到广泛应用。在此基础上,人们发展出核密度恐怕方式,并在密度函数的平滑性、核函数尾部效应、核函数及其带宽选择、密度恐怕的统计迫近剖析等理论方面进行了广泛研究。核密度估计方式涉及到核函数的选择和带宽的选择。常用的核函数包含多项式核函数、高斯核函数、Epanechnikov核、径向基函数,等等。在此基础上,人们发展出一类静态核、动态核、正交级数密度恐怕等方式。核函数的带宽决定着密度恐怕的精度和泛化性能。因此,带宽的选择得到了广泛研究,主要包含最小二乘法交叉验证、有偏交叉验证、似然交叉验证、赤池信息准则(Akaike Information Criterion)、置信区间交叉、平均积分平方最小准则、有偏渐近平均积分平方最小准则、局部平均积分平方最小准则、数据树带宽选择等方式。

因其在模式分类中的普遍性和重要性,概率密度函数恐怕仍然得到广泛的关注。针对不同的问题描述方式,人们发展了一些改进方式,比如互信息匹配自适应机率密度恐怕方式、非参数回归、可变带宽核密度恐怕、多尺度核密度估计、基于场论的密度恐怕、人工神经网络密度恐怕、压缩密度恐怕、交叉熵恐怕、密度微分、密度比列恐怕、高维鉴定特点选择、半参数密度恐怕、原型密度凸组合、在线期望最大化、增量密度恐怕、密度恐怕并行算法,等等。这些方式从学习准则、数学优化方式等不同的技术角度丰富了机率密度恐怕的方式体系。但是,对于小样本高维空间的密度恐怕方式,依然没有得到充分的研究。

概率密度恐怕是统计模式识别中的一个基本问题,是数据聚类和分类器设计等多种模式分类算法的基础。随着模式识别技巧的发展,概率密度参数恐怕的思想在深度信念网路、深层玻尔滋曼机、变分自编码机、生成对抗网路等深度生成模型中得到应用。与此任务关联的蒙特卡罗取样方式、马尔可夫蒙特卡罗和贝叶斯参数推测、高斯过程、Dirichlet过程等均得到了并行发展。概率密度恐怕在图象分割、视频背景运动恐怕、目标跟踪、图像插值等计算机视觉任务和盲信号分离、语音辨识等任务中具有广泛的应用。

3. 分类器设计

模式辨识过程通常包括以下几个步骤:信号预处理、模式分割、特征提取、分类器构造、上下文后处理,而分类器构造是其中的主要任务和核心研究内容。分类器构造是在训练样本集合上进行机器学习和优化(如使同一类样本的抒发波动最小或使不同类别样本的分类偏差最小)的过程。

最精典的分类器是贝叶斯决策模型,在每位类的先验概率以及条件机率密度基础上,通过贝叶斯公式估算出后验机率进行模式分类。当条件机率密度的函数方式符合数据的实际分布时,贝叶斯分类器是理论上最优的分类器。多数分类器可以看成是贝叶斯分类器的特例方式,如K近邻分类器,线性判别函数,二次判别函数等。此外人工神经网络和支持向量机优点,绝大多数分类器的设计方式均可从贝叶斯决策的角度进行剖析和解释。

在技术上,分类器设计方式可以从两个角度进行界定。第一是从模式表示的角度进行界定,可以分为统计方式、结构方式、以及混和统计-结构方式。统计方式以多元统计理论为基础,将模式表示成特点矢量之后再进行分类,具体的方式有参数方式(如基于高斯分布假定的贝叶斯分类器)、非参数方法(如Parzen窗,k-NN等)、半参数方式(如高斯混合模型)、神经网络模型、逻辑回归、决策树、支持向量机与核技巧、集成学习方法(如 AdaBoost)、子空间辨识方式和基于稀疏表示的分类方式等。而结构方式则以方式语言为物理基础,将模式表示成例如串、图、树、基元等结构化的数据方式之后再进行分类,具体的方式包括复句剖析、结构剖析、串匹配、图匹配、树匹配、结构化预测等。

第二是从模式学习的角度可分为生成模型、判别模型、以及混和生成-判别模型。模式分类可以在机率密度恐怕的基础上估算后验机率,也可以不需要机率密度而直接近似恐怕后验机率或鉴定函数(直接界定特点空间)。通过恐怕概率密度之后进行模式界定的分类器被称为生成模型(Generative Model),如高斯密度分类器、Bayes网路等;直接学习分辨函数或则后验机率进行特点空间界定的分类器被称为判断模型(Discriminative Model),如神经网路、支持向量机等。结合两者的优点,混合生成-判别学习的方式通常是先对每一类模式构建一个生成模型(概率密度模型或结构模型),然后用辨别学习准则对生成模型的参数进行优化,如生成对抗网路。在判断分类器设计中,决策树是一类重要的分类方式。在结构上,决策树是关于属性(特征)分类能力判断的树形结构,其每位叶子结点代表一种类别。经典的决策树方式包含ID3、C4.5和C5.0等技巧。决策树方式提高了分类器面向由不同类型特点所描述的模式的分类能力。

除了构造分类决策模型之外,分类器设计还与距离度量学习相关。距离度量学习致力学习一个显式或隐式的、区别于欧氏距离测度的样本间距离函数,使样本集呈现出更好的判断特点,主要包含马氏距离、闵氏距离、Hausdorff距离、KL距离、推土距离(Earth Mover's Distance)、切距离(Tangent Distance)等。目前深度测度学习得到广泛研究,根据损失函数不同,有对比损失(contrastive loss)、中心损失、三元组损失、代理损失等方式。另外,在分类器设计中,人们还发展了代价敏感学习、类不均衡样本学习、多标签学习、弱标签学习等方式,用于改善各类实际问题中分类器的性能。代价敏感学习考虑在分类中不同分类错误造成不同惩罚力度时怎样训练分类器,代价敏感学习方法主要包含代价敏感决策树、代价敏感支持向量机、代价敏感神经网路、代价敏感加权集成分类器、代价敏感条件马尔可夫网络、最优决策阀值、样本加权等方式。类不均衡样本学习考虑怎样解决训练样本各种占比极其不平衡的问题,主要包含样本采样法、样本生成方式、原型降维法、自举法、代价敏感法、核方法与主动学习方法等。多标签学习考虑样本具有多个类别标签的情形,人们从分类任务变换和算法自适应的角度发展出了分类器链、标签排序、随机K标签、多标签近邻分类器、多标签决策树、排序支持向量机、多标签条件随机场等方式。弱标签学习考虑样本标签存在标明量小、未标明量大、标注不精确等情形下的分类问题,主要包含小(零)样本学习、半监督字典学习、伪标签监督学习、教师中学生网路半监督学习、弱监督学习等方式。此外,多类分类器集成方式也得到了广泛发展。

分类器设计形成了广泛的影响,如从支持向量机引申下来的核技巧在机器学习领域成为将线性模型非线性化的主要技术手段,从神经网路模型进一步扩充下来的深度学习成为人工智能领域的核心算法,从结构模式识别发展下来的一系列模型成为结构化预测的主流工具等。在具体的应用中,分类器构造也被广泛的应用在例如文字辨识、人脸辨识、语音识别、图像分类等具体问题上并取得了优异性能。

4. 聚类

聚类是模式辨识的基本问题,并与机率密度恐怕密切相关。数据聚类的任务是依照数据的特点和模式剖析的特定任务在样本类别标签未知的条件下将数据集界定为不同的聚合泛型(簇),使属于每一聚合泛型中的样本具有相仿的模式,不同聚合类之间的模式彼此不相像。

聚类的目的是对数据进行描述。依据描述方法的不同,聚类方式包含界定法、层次法、密度法、网格法、模型法等。划分法使用类原型描述聚类子类(簇),依据类原型将数据集界定为不同的聚合泛型(簇)。代表性的K均值算法和K中心值算法的类原型都是点原型。不同的是人工神经网络和支持向量机优点,K均值算法的类原型是虚拟样本点,并可从高斯混和概率密度函数恐怕的角度加以解释。K中心点算法的类原型是数据集中实际样本点。K均值算法和K中心值算法的样本隶属度均是非0即1。随后,人们发展了模糊K均值算法,假定各样本以一定的模糊隶属度属于多个不同的簇,拓展了聚类算法的应用范围。层次法基于给定的簇间距离准则,采用合并或分裂的方法对数据集进行层次聚合或层次分解,包含汇聚层次降维和分裂层次降维两种技术路线,代表性的方式为BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法。密度法的基本原理是聚合泛型中的每一个数据点在其局部邻域内需包含一定数目的其它数据点。在技术上,只要毗邻区域内的数据点密度超过阀值,密度法则继续进行子集聚合。因此,理论上讲密度法可以发觉任意形状的泛型。经典的密度法包含DBSCAN (Density—Based Spatial Clustering of Application with Noise)算法和OPTICS (Ordering Points to Identify the Clustering Structure)算法。

网格法将样本所在的空间量化为有限数量的多码率网格单元,代表性的方式包含STING(统计信息网格方式,Statistical Information Grid)算法、CLIQUE(Clustering in QUEst)算法、小波聚类算法。模型法为每一个聚合泛型假设一个生成模型或描述描述,并在样本集找寻满足该模型的数据子集。模型可以为概率密度函数或则其它特定描述。在假设样本的总体分布符合基于混合高斯模型的条件下,可以直接导入K均值算法。在以上精典算法的基础上,人们发展了多种变种聚类算法,包含模糊聚类法、迭代自组织数据分析法、传递闭包法、布尔矩阵法、直接降维法、相关性分析降维、基于统计的降维方式、基于分裂合并的降维数量自适应算法,等等。另外,因其与K均值聚类算法所具有的显存联系,非负矩阵分解方式也应用于数据降维之中。

大多数降维方式假设聚合泛型中的数据呈拟球状分布,但现实应用中的众多数据分布在多个流形上或任意形状上。两类呈拟球状分布的数据可以用一个超平面来做界定边界,通常称为线性可分数据,否则称为非线性可分数据。为了解决非线性可分数据的降维问题,人们发展出了谱聚类算法。谱聚类算法将数据集中的每位数据点视为图的顶点,数据点对的相似度视为相应顶点所连边的权重,并将数据聚类任务描述为一个图界定问题。代表性的谱降维方式包含归一化切割、比例切割方式、多路谱降维方式。随后,在图拉普拉斯构造的基础上,人们发展出多个变种谱降维方式,比如亲合性传播降维、结构化谱降维、进化谱降维等方式。另一种解决非线性可分数据的算法是同时采用密度和距离信息的密度峰值快速聚类算法。其基本思路是:对任意一个样本点,通过查找密度上比该样本点邻域密度更高同时相对较远的样本点作为该样本点的中心点,从而发觉具有任意形状的降维分布。

为了解决高维数据的降维问题,通过摒弃高维数据中大量无关的属性,或者通过抽取高维空间中较低维特点抒发空间来进行降维,人们发展出了子空间聚类算法。子空间聚类方式主要包含K平面算法、K子空间算法、生成多项式空间降维、概率主成份剖析、凝聚的有损压缩、图划分子空间降维、低秩子空间聚类、鲁棒子空间降维、贝叶斯非参子空间降维、不变子空间降维、信息论子空间聚类、稀疏子空间聚类等。

技术上,支持向量机方式也应用于降维之中,比如,最大间隔切平面最小结构化风险降维方式。另外,在神经网络模型方面,早期的知名方式包含自组织映射网路模型。随着深度学习方法的发展,基于深度学习的嵌入降维、深度课程学习降维等方式促进了大规模数据降维和深度无监督学习方法的发展。

面对不同的任务形态和数据特点,在现有聚类算法的基础上人们从多方面发展了数据降维方式,比如,大规模数据降维、集成降维、流数据降维和多视图降维。大规模数据降维主要包括并行降维、大数据降维等方式。集成降维主要包括因子图集成降维、局部加权集成降维等方式。动态流数据降维主要包括基于支持向量的流数据降维、多视图流数据降维等方式。针对多视图降维问题,主要从如下几个角度举办了算法研究工作:权衡视图内降维质量与视图间降维一致性、对视图和特点同时进行自适应加权、保证视图间的一致性和互补性、刻画多视图数据样本的非线性关系、构建反映类结构特点的完整空间抒发等。多视图降维主要包括基于相似性的多视图降维、多视图子空间聚类、视图与特点自适应加权多视图降维、协同正则化多视图降维、信念传播多视图降维、基于图学习的多视图降维等方式。

聚类是统计模式识别中的精典问题,是实现模式分类的基本技术技巧。因其在模式分类中的重要性和基础性,聚类仍然遭到学术界和工业界的广泛关注。但是,聚类算法对数据规模的可伸缩性、不同数据类型的处理能力、对任意分布和任意形状簇的自适应性、对初始参数的鲁棒性、噪声鲁棒性、高维数据的自适应性、合理类别数的手动确定等问题始终没有得到充分的解决。对这种挑战性问题的研究持续推进着模式分类技术的发展。聚类方式在图象处理与剖析、计算机视觉、自然语言处理、数据科学等领域中具有非常广泛的应用。

5. 特征提取与学习

特征提取与学习是模式识别的重要环节。原始取样数据一般为意义不明晰且高度冗余的数值链表或矩阵,同时一般还参杂着大量的噪音和干扰讯号。因此,特征提取与学习是根据数据的本征属性和应用需求,从原始取样数据中提取有用的信息,并对这种信息进行合理编码,尽最大可能地产生完备、紧致、区分性好的特点抒发。

一个广泛采用的方式是特点选择。特征选择是从给定的特点集合中选择出用于模型建立的相关特点子集的过程,是一个重要的数据预处理过程和特点提取过程,可以有效减少维数灾难问题。特征选择通常采用启发式或随机搜索的策略来增加时间复杂度。总的来说,传统的特点选择过程通常包括形成过程、评价函数、停止准则和验证过程四个基本步骤。产生过程是一个搜索策略,产生用于评价的特点子集,包括:前向搜索、后向搜索、双向搜索等。评价函数用于评价测试中候选子集与上一次最佳候选子集之间的优劣。停止准则决定什么时候停止搜索子集过程。验证过程检测候选子集在验证集上是否合法有效。基于稀疏学习的方式也被广泛应用在特点选择问题中,通过将分类器的训练和L1、L2、以及L21范数的正则化相结合,可以得到不同程度的特点稀疏性,从而实现特点选择。

特征学习的方式主要包含四类。其一是以子空间剖析为代表的线性方式,包括:主成分分析法(PCA),线性分辨分析法(LDA),典型相关分析法(CCA),独立成分分析法(ICA)等,从不同的侧面对数据所处的子空间进行建模,如PCA针对最佳构建子空间,LDA针对最佳类别可分子空间,CCA针对两组变量的最佳相关子空间,ICA针对从混和数据中恢复出独立子空间等。其二是通过核技巧的手段将上述线性子空间模型非线性化,主要代表性模型有:核主成分剖析(KPCA)、核线性分辨剖析(KLDA)、核独立成分剖析(KICA)等,其主要思想是通过某一未知的映射函数将数据投射到高维空间再进行相应的线性建模,而核函数描述了高维空间中数据的内积,最终的特点提取函数以核函数的方式进行描述。其三是对数据的流形结构进行描画的流形学习方式,传统的机器学习方法中,数据点和数据点之间的距离和映射函数都是定义在欧式空间中的,然而在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的测度无法用于真实世界的非线性数据,从而须要对数据的分布引入新的假定。流形学习假定所处理的数据点分布在嵌入于外维欧式空间的一个潜在的流形体上,或者说那些数据点可以构成这样一个潜在的流形体,代表性工作包括等测度映射ISOMAP, 局部线性嵌入LLE等。其四是以深度学习为代表的端到端特点学习方法,对大量的原始数据通过特定的网路结构以及训练技巧,学习出有意义的特点表示,用于后续的分类、回归等其它任务。由于深度神经网路具备强悍的非线性函数拟合能力,结合具体任务的目标损失函数,可以以数据驱动的形式学习到愈发具备判断力的特点表示。此外,现实世界中大量数据是以张量方式存在的,对传统算法的张量化扩充也是一个重要的研究内容,如2DPCA,2DLDA等研究造成了学术界的广泛关注。

特征提取与学习是模式识别中的一个基本任务,是实现模式描述、模式非线性变换与语义表示、分类器设计、距离度量学习的重要基础,也是解决维数灾难的重要手段。一些新的研究方向,如流形学习、稀疏学习与数据压缩、基于学习的排序、深度学习等与特点提取与学习紧密相关。小样本条件下的特点提取以及在端到端框架下的表示学习均是当前的研究热点。特征提取与学习在图象辨识、图像匹配、医学影像剖析、生物特点辨识、Web 文档处理、信息检索、自然语言处理、基因剖析、药物确诊等领域具有广泛的应用。

6. 人工神经网络与深度学习

人工神经网络是一种模仿昆虫神经网路行为特点,进行分布式并行信息处理的物理模型,通过调整内部大量节点之间互相联接的关系,从而达到处理信息的目的。人工神经网络本质是通过网路的变换和动力学行为得到一种并行分布式的信息处理功能,并在不同程度和层次上模仿人脑神经系统的信息处理功能。它是涉及神经科学、思维科学、人工智能、计算机科学等多个领域的交叉学科,其具体的发展包含两个阶段:浅层网路与深度学习。

1943年,心理学家W.S. McCulloch和数理逻辑学家W. Pitts构建了神经网路和物理模型,并称之为机器感知模型。机器感知模型给出了神经元的形式化物理描述和网路结构方式,展示了单个神经元具有执行逻辑运算的功能,从而开创了人工神经网络研究时代。1949年,心理学家提出了突触联系硬度可变的构想,从而将参数学习引入至人工神经网络。1959年感知器及此后多层感知器的提出,将人工神经网络的研究引入到一个新的高潮。

传统的神经网路模型大部分均为浅层网路,如多层感知机、径向基函数网路、多项式网路、自组织映射等。在这种模型中,神经元处理单元可表示不同的对象,例如特点、字母、概念,或者一些有意义的具象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部世界的讯号与数据;输出单元实现系统处理结果的输出;隐单元是处在输入和输出单元之间,不能由系统外部观察的单元。神经元间的联接残差反映了单元间的联接硬度,信息的表示和处理彰显在网路处理单元的联接关系中。由于初期估算能力的局限性以及网路设计的缺陷,大部分模型的层数都比较浅(如3层、5层等),当层数加深时,误差反向传播算法BP会出现梯度消失现象,从而未能有效训练。同时,早期的人工神经网络还存在过拟合、局部最优化等问题。

面向时间序列数据处理,人们构建了循环神经网路(Recurrent Neural Network, RNN)。循环神经网路在序列的演化方向(和反方向)各结点按链式形式并进行递归。循环神经网路具有记忆性、参数共享而且图灵完备,在序列非线性特点学习方面具有优势。长短期记忆(LSTM,Long Short-Term Memory)网络是一种时间循环神经网路,旨在解决循环神经网路中存在的长时依赖问题和训练过程中可能碰到的梯度消失或爆燃问题。实践上,长短期记忆网路在多数任务上表现出赶超隐马尔科夫模型的性能。另外,作为循环神经网路的扩充,递归神经网络(Recursive Neural Network)也得到了发展和应用。递归神经网络是具有树形阶级结构且网络结点按其联接次序对输入信息进行递归的人工神经网络,目前已成为深度学习中的重要方式。

面向图象数据剖析,人们构建了卷积神经网络(Convolutional Neural Network, CNN)。卷积神经网络受生物视觉系统启发,在人工神经网络中引入局部联接和残差共享策略,大幅度削减模型参数,提高训练效率。同时,卷积神经网络引入多频域核和池化(Pooling)策略,不仅减轻了神经网路的过拟合问题,还提高了神经网路的表示能力。卷积神经网络除了在图象辨识等计算机视觉任务中取得巨大成功,还被用于语音识别和自然语言理解,是深度学习的重要方式之一。

近年来,随着估算能力提高和大数据涌现,神经网路的发展趋势是显得越来越深,形成了新的研究方向“深度学习”,包括:深度信念网路、卷积神经网络、递归神经网络等,在图象、声音和文本等诸多感知任务和以象棋博弈为代表的认知任务上均取得了突破性的性能提高。其中一个代表性的改进是借助ReLU激活函数代替了传统的Sigmoid激活函数,使得深度网路得以有效训练,另外一个代表性改进是方差网路通过引入跳跃式的联接(Skip Connection)有效减轻了梯度消失的问题,使得网路层数大大降低。在其他策略例如更好的初始化如Xavier、更好的归一化如Batch Normalization、更好的网路结构如ResNet, DenseNet, GoogleNet, NAS等、以及更好的优化算法如Adam等的共同努力下,深度学习在明显扩充网路深度的同时也大大提高了模型的整体性能。

深度学习的概念由Hinton等人于2006年即将提出。2013年4月,《麻省理工学院技术评论》杂志将深度学习列为2013年十大突破性技术之首。深度学习指出的是一种基于对数据进行表征学习的方式,其目标是寻求更好的表示方式并创建更好的模型来从大规模未标记数据中学习这种表示方式。深度学习也可以理解为传统神经网路的拓展,至今已被应用于计算机视觉、语音识别、自然语言处理、与生物信息学等领域并获取了极好的疗效,甚至在个别辨识任务上达到或赶超人类所表现出的能力。除了在算法模型方面的进展,深度学习的成功还有两个重要诱因:海量训练数据积累以及 GPU 计算所提供的强悍而高效的并行估算。现在主流的深度学习平台(如Caffe, Tensorflow, pyTorch)都支持GPU的训练。

欢迎你们在评论区交流与我交流~共同学习和成长^-^

人工神经网络和支持向量机