非监督学习方法

时间:2021-01-02 12:49:29 学习方法 我要投稿

非监督学习方法大全

  篇一:非监督学习法

非监督学习方法大全

  非监督学习法

  本章重点

  1. 什么叫非监督学习方法,什么叫有监督学习方法?

  2. 非监督学习方法主要的用途

  3. 非监督学习方法的两种基本处理方法:按分布密集程度划分,与按相似度聚类划分

  4. 按分布密度程度划分的基本方法

  5. 动态聚类方法与分级聚类方法的概念

  6. 典型的动态聚类方法C-均值算法与ISODATA算法

  7. 使用非欧氏距离计算相似度的动态聚类方法

  8. 分级聚类方法

  本章课前思考题

  1. 如果给机器一维数据,机器能自动地找出其中存在的规律吗?

  2. 有人把非监督学习方法叫无教师的学习,而把第二章、第三章讨论的内容成为有监督学习,又称有教师的学习,你知道谁是教师吗?教师的作用体现在哪里?

  3. 机器能总结数据中存在的哪些规律呢?

  4. 机器能总结天气变化的规律,给出天气预报吗?

  5. 机器能炒股吗?

  6. 非监督学习方法与数据有关系吗?

  知识树

  5.1 引 言

  以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的,这些样本称为训练样本。在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督的学习方法。然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本,因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学习方法。对一个具体问题来说有监督与无监督的作法是不相同的。

  人们日常生活中经常要观察事物与分析事物,从中寻找其规律性,这就是非监督学习方法要解决的问题。例如人们见到图5.1的道路图时,会发现中间有一条带与图中其它区域不同,见到图5.3会发现在这个二维空间中有数据显现出聚成两类的现象。这就是事物(对我们来说就是数据集)自身体现出的一些规律性,非监督学习方法就是寻找数据集中体现出来的规律性。从中我们可以强调非监督学习与有监督学习方法的以下几种不同点:

  1. 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习没有训练集这一说,只有一组数据,在该组数据集内寻找规律。

  2. 有监督学习方法的目的就是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号为目的。例如图

  5.1道路图像,有监督学习方法的目的是找到“道路”,而非监督学习方法则只是将中间一条带状区域区分开来,本质上讲与“道路”这个标号没有关系。

  3. 非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广泛。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。

  4. 用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此用K-L变换找主分量不属于非监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于非监督学习方法。 以上四点是对非监督学习方法的定义,及与有监督学习方法的区别。

  例如图5.1表示对一幅道路图像按路面与非路面分类可用两种不同做法,其中左图是在图像中路面区与非路面中各找一个窗口,将其中每个象素分别作为这两类的训练样本集,用这两个样本集在特征空间的分布参数进行设计。而无监督学习方法则不同,它不预先选择样本类别的样本集,而是将整幅图的像素都作为待分类样本集,通过它们在特征空间中表现出来的聚类现象,把不同类别划分开。

  图5.1的有监督学习中,样本集分布呈现交迭情况,而无监督学习方法由于没有类别样本指导,无法确定它们的交迭情况,只能按分布的聚类情况进行划分。在类似于该例的实际应用问题中,预先选定不同类别的样本往往不可能,如时间不允许,或无法用人工干予等因素。另外在某些有监督学习方法中,也往往需要

  利用聚类方法将样本按其分布划分成若干子类等。聚类方法就是无监督学习方法的一个内容,它是经常应用的一门技术。

  图 5.1 无监督学习方法可以分成两大类,一类为基于概率密度函数估计的直接方法,指设法找到各类别在特征空间的分布参数再进行分类。另一类称为基于样本间相似性度量的间接聚类方法,其原理是设法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。下面分别讨论这两种方法。

  最常用的基于概率密度估计的直接方法的例子是直方图方法。例如我们统计一所学校中学生身高分布就往往可采用直方图方法,把身高划分成一段段,如1米到1米75算一段,然后对每一段统计身高在此范围内的学生数,得到直方图。如果这个学校的男女学生数目相近,则我们就会发现该直方图会体现出有两个分布高峰。那么找到两高峰中的谷点,就会将学生划分成两类。

  因此,使用概率统计方法的关键是能找出各个峰值区,这就是5.2节中的主要内容。另一种方法则在5.3节中再进一步讨论。5.2 单峰子类的分离方法

  对于样本在某一种度量中的分布统计,一般称为直方图统计,在样本数量很大时,又可作为概率统计的估计。由于这种方法基于将样本投影到某个坐标轴上,因而称为投影方法。 使用投影方法有两个组成部分,一个是如何设计合适的坐标系统, 另一是如何设计直方图。

  如果对于各类别的类条件概率分布一无所知,我们只按待分类样本在特征空间的自然聚集进行划分。如图5.2所示的一维特征空间中,样本在整个特征空间中呈现出两个分布高峰,如果从分布的谷点将此特征空间划分为两个区,则对应每个区域,样本分布就只有一个峰值,这些区域被称为单峰区域,而每个单峰区域则被看作不同的决策域。落在同一单峰区域的待分类样本就被划分成同一类,称为单峰子类。下面讨论一些单峰子类的划分算法。

  图 5.2

  5.2.1 投影法

  投影法的原理很简单,拿图5.3显示的一个二维空间为例。在该分类问题中,两个类别分别在其特征空间中形成两个聚类,图中用两个区域的轮廓勾出这两类样本聚类的区域。对人来说一旦画出这两类的空间分布,可以很容易地判断出这两类在特征空间聚集的区域,但是对计算机来说,要识别出这两类的分布情况,直接从二维的图形来说是很困难的,更不用说在高维特征空间直接对样本的分布作出判断了。一个办法是如果将样本对某个方向的轴作投影,或换句话说只取这些样本的某一分量的统计值来看,样本的分布往往显现出高峰与低谷,找到低谷,将峰值分别划分在不同的区域中,每个区域只有一个高峰,并把聚在同一高峰下的样本划分为一类,这是计算机容易做到的。对于样本在某一种度量中的分布统计,一般称为直方图统计,在样本数量很大时,又可作为概率统计的估计。由于这种方法基于将样本投影到某个坐标轴上,因而称为投影方法。

  图 5.3

  使用投影方法有两个组成部分,一个是如何设计合适的坐标系统,另一是如何设计直方图。在样本属性完全不知的情况下,如何选择坐标系统,是比较困难的,因为这时还没有一个准则函数来表征这样一个坐标系统的性质。一种启发式的办法是使待分类的样本在某个坐标轴方向具有最大的分散性,这可以采用上一章讨论过的K-L变换方法。具体说来是用混合样本协方差矩阵作为K-L变换的产生矩阵,找到其特征值,并按大小排序,对应最大特征值的特征向量对此混合样本来说,离散程度最大,预期能发现明显的峰值,但是这种方法并不能保证分出各个聚类,例如图5.4所示情况,其两个特征向量 都只呈现单峰状态,无法用此法将他们分开。

  图 5.4

  投影法的具体算法分以下几个步骤:

  步骤1: 计算样本协方差矩阵具有最大特征值的特征向量Uj,把数据投影

  到Uj轴上。

  步骤2: 用直方图方法求数据的边缘概率密度函数。

  步骤3: 在直方图的峰值间求最小值,在这些最小点作垂直于Uj的各个超平面把数据划分为若干个聚类。

  步骤4: 如果在这个轴上没有这样的最小值,则用下一个最大特征值对应的特征向量重复以上过程。

  步骤5: 对每个得到的子集(聚类)重复上述过程,直到每个集不能再分(为单峰)为止。

  5.2.2 基于对称集性质的单峰子集分离法

  不要求

  在一个多维空间中给单峰区域下严格的定义是困难的。譬如一个单峰区域的数据集用Γ表示,峰值在处形成,则可写在

  (5-1)

  但是仅满足(5-1)式的区域并不能保证是单峰区。另一方面,如果考虑数据Γ,其中任何一对点y1和y2之间的距离用

  式的性质外,还具有以下性质: 表示,该数据集Γ除了具备(5-1)

  篇二:有监督学习(supervised learning)和无监督学习(unsupervised learning)

  有监督学习(supervised learning)和无监督学习(unsupervised learning) 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊,等等。我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是房子,哪些是鸟。监督学习里典型的例子就是KNN、SVM。无监督学习(也有人叫非监督学习,反正都差不多)则是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

  那么,什么时候应该采用监督学习,什么时候应该采用非监督学习呢?我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案。一种非常简单的回答就是从定义入手,如果我们在分类的过程中有训练样本(training data),则可以考虑用监督学习的方法;如果没有训练样本,则不可能用监督学习的方法。但是事实上,我们在针对一个现实问题进行解答的过程中,即使我们没有现成的训练样本,我们也能够凭借自己的双眼,从待分类的数据中人工标注一些样本,并把他们作为训练样本,这样的话就可以把条件改善,用监督学习的方法来做。当然不得不说的是有时候数据表达的会非常隐蔽,也就是说我们手头的信息不是抽象的形式,而是具体的一大堆数字,这样我们很难凭借人本身对它们简单地进行分类。这个说的好像有点不大明白,举个例子说就是在bag-of-words模型的时候,我们利用k-means的方法聚类从而对数据投影,这时候用k-means就是因为我们当前到手的只有一大堆数据,而且是很高维的,当我们想把他们分为50个类的时候,我们已经无力将每个数据标记说这个数应该是哪个类,那个数又应该是哪个类了。所以说遇到这种情况也只有无监督学习能够帮助我们了。那么这么说来,能不能再深入地问下去,如果有训练样本(或者说如果我们可以获得到一些训练数据的话),监督学习就会比无监督学习更合适呢?(照我们单纯地想,有高人教总比自己领悟来的准,来的快吧!)我觉得一般来说,是这样的,但是这要具体看看训练数据的获取。本人在最近课题的研究中,手动标注了大量的训练样本(当然这些样本基本准确了),而且把样本画在特征空间中发现线性可分性非常好,只是在分类面附近总有一些混淆的数据样本,从而用线性分类器进行分类之后这样样本会被误判。然而,如果用混合高斯模型(GMM)来分的话,这些易混淆的点被正确分类的更多了。对这个现象的一个解释,就是不管是训练样本,还是待聚类的数据,并不是所有数据都是相互独立同分布的。换句话说,数据与数据的分布之间存在联系。在我阅读监督学习的大量材料中,大家都没有对训练数据的这一假设(独立同分布)进行说明,直到我阅读到一本书的提示后才恍然大悟。对于不同的场景,正负样本的分布如果会存在偏移(可能是大的偏移,也可能偏移比较小),这样的话用监督学习的效果可能就不如用非监督学习了。

  篇三:监督学习算法基础知识整理

  第三章 监督学习算法

  监督学习又称为分类(Classification)或者归纳学习(Inductive Learning)。几乎适用于所有领域,包括文本和网页处理。给出一个数据集D,机器学习的目标就是产生一个联系属性值集合A和类标集合C的分类/预测函数(Classification/Prediction Function),这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型(Classification Model)、预测模型(Prediction Model)。这个分类模型可以是任何形式的,例如决策树、规则集、贝叶斯模型或者一个超平面。

  在监督学习(Supervised Learning)中,已经有数据给出了类标;与这一方式相对的是无监督学习(Unsupervised Learning),在这种方式中,所有的类属性都是未知的,算法需要根据数据集的特征自动产生类属性。其中算法中用于进行学习的数据集叫做训练数据集,当使用学习算法用训练数据集学习得到一个模型以后,我们使用测试数据集来评测这个模型的精准度。

  机器学习的最基本假设:训练数据的分布应该与测试数据的分布一致。

  训练算法:训练算法就是给定一组样本,我们计算这些参数的方法。本节简要介绍以下几种常用的机器学习算法,比如决策树,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,最大熵等。

  3.1 两类感知器

  见课本

  3.2 多类感知器

  见课本

  3.3 决策树算法

  决策树学习算法是分类算法中最广泛应用的一种技术,这种算法的分类精度与其他算法相比具有相当的竞争力,并且十分高效。

  决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象属性,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值(类别)。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。

  如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。

  决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集

  是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。

  1. 树以代表训练样本的单个结点开始。

  2. 如果样本都在同一个类.则该结点成为树叶,并用该类标记。

  3. 否则,算法选择最有分类能力的属性作为决策树的当前结点。

  4. 根据当前决策结点属性取值的不同,将训练样本数据集分为若干子集,每个取值形成一个分枝。

  5. 针对上一步得到的一个子集,重复进行先前步骤,形成每个划分样本上的决策树。

  6. 递归划分步骤仅当下列条件之一成立时停止:

  (a) 给定结点的所有样本属于同一类。

  (b) 没有剩余属性可以用来进一步划分样本。以样本组中个数最多的类别作为类别标记。

  决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的'分枝剪除。由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:

  1. 生成最少数目的叶子节点;

  2. 生成的每个叶子节点的深度最小;

  3. 生成的决策树叶子节点最少且每个叶子节点的深度最小。

  例如,对于表3-1所示的贷款申请的数据集,可以学习到一种决策树结构,表示为图3-1。

  表3-1 贷款申请数据

  根据数据集建立的一种决策树结构如下:

  图3-1 对应与表3-1的决策树

  树中包含了决策点和叶子节点,决策点包含针对数据实例某个属性的一些测试,而一个叶子节点则代表了一个类标。

  一棵决策树的构建过程是不断的分隔训练数据,以使得最终分隔所得到的各个子集尽可能的纯。一个纯的子集中的数据实例类标全部一致。决策树的建立并不是唯一的,在实际中,我们希望得到一棵尽量小且准确的决策树。

  决策树的典型算法有ID3,C4.5,CART(分类与回归树)等。依次得到改进。相对于其它算法,决策树易于理解和实现,人们在通过解释后都有能力去理解决策树所表达的意义。决策树可以同时处理不同类型的属性, 并且在相对短的时间

  内能够对大型数据源做出可行且效果良好的结果。

  3.4 贝叶斯分类算法

  贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。

  ▲准备知识

  条件概率:设A, B是两个事件,且Pr(A)?0称Pr(B|A)?

  发生的条件事件B发生的条件概率。

  乘法公式: 设Pr(A)?0 则有Pr(AB)?Pr(B|A)Pr(A)

  全概率公式:设随机事件A1,A2,...,An以及 B满足:(1) A1,A2,…,An两两互不相容;(2)?An?S或者B??An;(3) Pr(A)?0(n=1,2,…),则有

  n?1n?1??Pr(AB)为在条件A下Pr(A)

  Pr(B)??Pr(An)Pr(B|An),称为全概率公式。

  n?1?

  全概率公式的应用:把事件B看作是某一个过程的结果,把A1,A2,…,An看作该过程的若干个原因,根据历史资料,每个原因发生的概率已知(即Pr(Ai)已知),且每一个原因对结果的影响已知(即Pr(B|Ai)已知)则可用全概率公式计算结果发生的概率,即求Pr(B)。

  贝叶斯公式:设随机事件A1,A2,…,An以及B满足:(1) A1,A2,…,An两两互不相容;(2)

  PrA(nB)?PrB()???An?1?n?S或者B??An;(3) Pr(A)?0(n=1,2,…),则n?1PrA(nB|?)PBr(An|

  (?PrB

  n?1A|jA)P)nr(,称为贝叶斯公式。 )PAr)j(

  贝叶斯公式的使用:把事件B看作某一过程的结果,把A1,A2,…,An看作该过程的若干原因,根据历史资料,每一原因发生的概率已知(即Pr(An)已知),如果已知事件B已经发生,要求此时是由第i个原因引起的概率,用贝叶斯公式(即求Pr(Ai|B))。

  ▲朴素贝叶斯(Naive Bayes,NB)算法

  在贝叶斯分类中,在数据集合D中,令A1,A2,…,An为用离散值表示的属性

  集合,设C具有|C|个不同值的类别属性,即c1,c2,…,c|c|,我们设所有的属性都是条件独立于类别,给定一个测试样例d,观察到属性值a1到a|A|,其中ai是Ai可能的一个取值,那么预测值就是类别cj,使得Pr(C=cj | A=a1,…,A|A|=a|A|)最大。cj被称为最大后验概率假设。

  根据贝叶斯公式,有 Pr(C?cj)?Pr(Ai?ai|C?cj)|A|

  Pr(A1?a1,...,A|A|?a|A||C?cj)??Pr(C?c)?Pr(A?a|C?c)kiik

  k?1i?1|C|i?1|A|

  因为分母对每一个训练类别都是一样的,所以如果仅仅需要总体上最可能的类别为所有测试样例做预测,那么只需要上式的分子部分即可。通过下式来判断最有可能的类别:

  c?argmaxPr(C?cj)?Pr(Ai?ai|C?cj)

  cji?1|A|

  例如,假设我们有图4-1中的训练数据,有两个属性A和B,还有类别C,对于一个测试样例:A=m B=q 求

  C=?

  图4-1 训练数据

  计算如下:

  对于类别为t的概率

  1222Pr(C?t)?Pr(Aj?aj|C?t)?Pr(C?t)?Pr(A?m|C?t)?Pr(B?q|C?t)????25525j?12

  类似的,对于类别为f的概率 1121Pr(C?f)?Pr(Aj?aj|C?f)???? 25525j?12

  因此C=t的可能性较大,因此将此种情况下的类别判断为t。

  朴素贝叶斯分类将每篇文档看作一“袋子”的词,需要做以下假设,这也是

  篇四:融合无监督和监督学习策略生成的多分类决策树

  第25卷第4期小型微型计算机系统 Vol.25 No.4 融合无监督和监督学习策略生成的多分类决策树

  邱德红,陈传波

  (华中科技大学 计算机科学与技术学院,湖北 武汉430074)

  摘 要:提出了一种融合无监督和监督两 种学习策略生成多分类决策树的方法 .它首先利用无监督聚类方法能够发现待分类样本之间的内在联系和规律的特点 ,确定出最为符合多类样本分布特征的决策树的树型 ,继而利用监督学习支持向量机的方法对样本进行准确的分类 .通过采用核函数和不对称的 L agrangian系数限制条件 ,支持向量机很好的解决了样本特征空间上的线性不可分性和决策树型确定过程中出现的训练样本不对称性的影响 .该方法具有较高的计算效率和准确性 ,在实验中取得了比较好的结果.

  关 键 词:多分类决策树;无监督聚类;支持向量机

  中图分类号:TP391.41 文献辨识码:A 文章编号:1000-1200(2004)04-0555-05

  Construction of Multi-classification Decision Tree Combining

  Unsupervised and Supervised Learning Strategy

  QIU De-hong,CHENChuan-bo

  (School of Comouter Science and Technology Huazhong University of Science and Technology,Wuhan 430074,china)

  Abstract:In this paper,a new method which combines unsupervised and supervised learning steategy is put forward to construct the multi-classification decision tree,It firstly uses the unsupervised clustering to determine the structure of the multi-classification decision tree,whose each node has a binary branch.The unsupervised clustering is able to find out the relationship between the mulit-classes,therefore the decision tree’s structure determined by it is the best one that fits to the distribution of mulit-classes in feature space.Then,a supervised learning method,i.e.support vector machine,is used to classify the two groups of samples of each node of the decision tree.Most cases the multi-classes cannot be classified by a linear hyperplane,kernel functions are therefore introduced into to solve it.Simultaneously,unsymmetrical constrains of Lagrangian coefficients are set to overcome the negative influences of unbalanced train samples. These efforts guarantee the efficiency and accuracy of the multi-classification decision tree.Satisfying results were obtained in experiment.

  Key words:multi-classification decision tree; unsupervised cluster support vector machine

  1 引 言

  多分类问题是一个比较常见的问题,机器学习理论和方法

  的研究在解决二分类问题上取得了比较满意的结果

  [3][1,2] 无监督学习和监督学习是机器学习方法研究的二大策略.无监督学习方法如无监督聚类(UC)[8,9]是从样本的特征向量出.多分发,研究通过某种算法特征比较相似的样本聚集在一起,从而达到区分具有不同特征的样本的目的.无监督聚类的优点是可

  以发现样本中隐含的共性和规律,但是由于没有专家知识的监

  督,分类的准确性有限.监督学习方法是通过对已知类别的训

  练样本的学习,实现对未知样本的分类判断.支持向量机

  (SVM)[1,2]类问题虽然也有研究,但在理论构架和现实方法上还有相当大的困难.目前解决多分类问题主要运用多分类决策数,决策树上的每一个节点对应一个二分类器,实际上是利用二分类方法解决多分类问题.生成类分类决策树的方法有(1)‘一对其余’,决策树上N个节点对应的二分类器只判断是某一类还是

  其余类;(2)‘一对一’,决策树上N(N-1)/2个节点对应的二

  分类器只能对类中的两类作出是否判断;(3)‘一半对一半’,

  即决策树的节点对应的二分类器将节点上的类二等分(允许一

  类别在两个节点上出现),直至叶节点.决策树上节点的数目为,

  其中为大于或等于log2(N)最小整数.这三类方法生成的决策

  树虽然具有不同的计算效率和分类效果,但各自在应用中取得

  了比较好的结果[4~7]是一种主要用于二分类的准确率比较高的监督学习方法,其基础是统计学习理论中的结构风险最小化原则.它在许多领域得到了很好的应用[10~12]. 本文提出一种将无监督聚类和监督学习的支持向量机方法结合起来生成多分类决策树的方法.它的基本思想如下:待方法的多类样本可以看成是某一宏观层面之上的刺激机制激励下,或者是在某个进程中产生的.该宏观层面之下刺激机制的差异,或者是进程中的不同阶段导致不同类的出现。差异小.

  收稿日期:2002-08-05 作者简介:邱德红,博士,主要研究方向为机器学习和生物测定学;陈传波,教授博士生导师,主要研究方向为图像处理和计算机网络应用。E-mail:qiudh.wh.hb.cn

  的刺激机制,或者相邻进程阶段产生的类别之间的特征较为接

  近,反之则分散.因而,多类之间虽然具有向异性,但他们在

  特征空间的分布上有内在规律.如果决策树的树形结构能够体

  现多类之间的内在规律,就可能在计算效率和准确性上获得较

  好的均衡,从而提高决策树的性能.本文介绍的方法的目的是

  通过无监督聚类确定反映多类之间分布规律的决策树的树型,

  继而利用监督学习支持向量机方法的准确率高的特点对分布

  接近的类别进行详细分区,使多分类决策树具有较高的计算效

  率和准确率.

  2 多分类决策树的树型确定

  一个N(N≥3)类的多分类问题可以描述为:给定组训练样

  本:(x1,y1),…(xl1,yl1),(x1,y2),…(xl2,y2),……(x1,yN),…

  (xlN,ydN),L=l1+l2+…+lN为N类训练样本的总数目,xi∈R,

  i=1,…,L是d维空间上的特征向量,yn∈

  {1,2,…,N},n=1,…,N是N类标号.多分类问题即函数F:Rd

  →{1,2,…,N}确定待分类向量x的类别标号y.多分类问题

  可以通过由二分类器为节点构成的决策树来解决.由于待分类

  的N类样本通常是其形成的刺激机制在某个宏观层面之下的

  差异,或者是同一进程的不同阶段形成的,刺激机制差异的大

  小和进程阶段相隔时间的久远导致N类样本在特征空间上分

  布有一定的规律.如图1所示的N=6的多分类问题,左下三类

  (○、□、△)和右上三类(+、×、*)之间的刺激机制相差较远,

  而左下三类(○、□、△)之间、右上三类(+、×、*)之间的刺

  激机制相差较小.如果多分类决策树型能够反映出类样本之间

  的分布规律,继而实施轻重有别的详细区分,必将能获得比较

  优秀的性能,为此设计以下利用无监督聚类确定决策树型的方

  法.

  图 1

  多类样本的特征向量在特征空间上的分布

  Fig.1 Distribution of multi-classes samples on

  the feature space

  第1步:计算N类训练样本共L个特征向量中的任何两个特征

  向量,比如xr,xs之间的Minkowski距离

  dd1/p

  r,s={?|x,r,s=1,…,m+1,且r≠s,p=2

  sj?xrj|}

  j?1

  第2步: 将N类训练样本共L个特征向量编号为1,…,L

  号叶节点,从1号叶节点开始在C2

  L个距离之中找到最小距离,

  将对应的两个叶节点(比如为xr,xs,)做个连接,形成一个二叉树枝.将此连接‘看成’为一个新叶节点,编号为L+1.该新叶节点到其余某个叶节点xk,k≠r,s(即xr,xs,之外的节点)之间的距离定义为已经连接的两个叶节点(xr,xs)与该节点之间的最小距离,即dL+1,k=min(dr,k,ds,k) . 第3步:按照第2步同样的规则,在新生成的叶节点和其余叶节点之中继续生成一个新的二叉连接,重复 直到生成最后一个二叉连接而成为一棵聚类树.如图2所示的一棵聚类树,它对应于图1中的60个样本. 图2 无监督聚类生成的聚类树 Fig.2 Decision tree produced by unsupervised clustering 第4步:将第3步中最后生成的一个二叉连接的左右两个分枝连接的最底层的叶节点(即1,…,L叶节点)对应的特征向量划分到的左右两个集合SR,SL中.依次检查待分类的1,…,N类样本的特征向量, 如果第n类的Ln个特征向量被聚类到左右两个集合SR、SL中,数目分别为lnR和lnL(lnR+lnL=ln)则依下情况处理: ·如果lnR大于或等于lnL,且集合SL中特征向量的个数大于lnL,则将集合SL中对应的lnL个特征向量移至集合SR ·如果lnR大于或等于lnL,但集合SL中特征向量的个数等于lnL,则将集合SR中对应的lnR个特征向量移至集合SL ·如果lnL大于lnR ,且集合SR中特征向量的个数大于lnR,则将集合SR中对应的lnR个特征向量移至集合SL ·如果lnL大于lnR ,但集合SR中特征向量的个数等于lnR,则将集合SL中对应的lnL个特征向量移至集合SR 至此可以确定决策树上的一个二叉节点,它的训练样本是非空的左右两个集合SR、SL,将集合SL中的特征向量的标签设定为-1,集合SR中的特征向量的标签设定为+1.它们将用于训练支持向量机来生成该节点对应的二分类器. 第5步:分别将左右两个集合SR、SL中包含的特征向量看成一个新的分类问题,重复第1步到第4步,直到左右两个集合SR、SL中均只包含N类训练样本中的某一类样本.从而确定出完整的N分类决策树的树型.图1所示的N=6的分类问题对应的决策树型如图3所示. 无监督聚类方法确定决策树树型与‘一对其余’,‘一对一’和‘一半对一半’确定决策树树型方法上是不一样.后三者对于所有N 的多分类问题采用的决策树型均是固定的,

  而这

  里介绍的方法将依据N 类样本之间的联系和分布规律生成相

  应的决策树型.决策树型本身在一定的程度上反映了N 类样本

  之间的差异大小,可以一定程度的降低二分类的难度.以此为

  基础的N 分类问题的计算效率将随决策树型有所变化.如果假

  设这些方法均采用同样的二分类方法,二分类器的计算复杂度

  可大致描述为??cn?,其中为系数, n 为训练样本数,λ

  ≈为复杂度指数.则对于N 类、样本总数为L的多分类

  图3 无监督聚类生成的决策树型

  Fig.3The structure of decision tree produced

  byunsupervised clustering

  问题,‘一对其余’生成的决策树的计算复杂度为NL?;

  ‘一对一’生成的决策树的计算复杂度为

  0.5cN(N?1)(li?lj)?li和lj为对应两类的训练样

  本的数目;‘一半对一半’生成的决策树的计算复杂度约为c

  ( 2k-1)(l?)2 ,其中k为大于或等于log2(N)的最小整数,训练

  样本数l′逐步递减.无监督聚类生成的决策树的节点数小于

  ‘一半对一半’和‘一对一’生成的决策树,其节点的训练样

  本数小于‘一对其余’的生成方法,递减速度大于‘一半对一

  半’的生成方法.综合来说,无监督聚类生成的决策树具有比较

  高的计算效率.

  3 支持向量机二分类器

  无监督聚类生成的决策树上的每个二叉节点对应于一个

  二分类器.无监督聚类分类的准确率有限,这里采用准确率高

  的支持向量机来生成决策树上每个二叉节点对应的二分类器,

  它的训练样本分别是该二叉节点连接的左右两个集合SR、SL

  中的样本,它们可以统一表示为:(xd

  i,yi),xi,∈R,yi∈{+1,-1}

  ,训练样本数为l.支持向量机是一种建立在统计学习理论基

  础上的机器学习方法他采用学习理论的结构风险最小原则【1,2】

  .其学习目的是在所有分割超平面中1确定最优超平面

  H:wx+b=0,该平面到两类之间的间隔最大,且满足一下约束条

  件:

  1http:www.ics.uci.edu/^mlearn/MLR Repository,html

  w?xi?b??1ifyi??1 w?xi?b??1 ifyi??1??w,b??2两类之间的间隔为w,因此, 确定最优分割超平面即为求( w ,b)使得??w??1w2最小,它等效2求解二次优化问题,即求Lagrangian系数α使目标函数W (α)最大: iW?a??i?a1li?(1) ,j?12??i?jyiyj?xi?xj? i?1满足条件αi≥0(i=1,2,…,l)和?l?iyi?0.然后可求i?1得(w,b)为; lW???x1iyii,b?????x??x?? i?12X+和x-分别是两类向量的支持向量,与它们对应的αi>0,其余的αi=0,支持向量机学习确定的分类器为: f?x??sign???x?b??sign?l?????iyi?xi?x??b?i?1?无监督聚类确定的分类决策树的二叉节点对应的训练样本往往不具有线性的可分性.此时可以引入适当的核函数K (xi,xj)=φ(xi)·φ(xj),将将原空间中的向量映射到另一特征内积空间中去进行分类.此时目标函数(1)相应修正为: iW?a???a1li???i?jyiyjK?xi?xj?(2) i,j?12i?1满足约束条件: 引入核函数K?xi,xj?后新特征向量x的分类器法则如下: f?x??sign?l????x??b?iyiK?xi??i?1? 核函数K(xi ,xj)需要满足Mercer定理【2】,经常采用的核函数有多项式函数:K(x,y)=(x·y+1)d,高斯径向基函数?x2K?x,y??exp??y?????2?2??和多层感知器函数:K?x,y??tanh?k?x?y???? 训练样本中如果存在不可分的样本(噪音),就需要适度对待训练误差.此时,如果过份地强调减小训练误差可以导致二分类器的性能恶化.因为这样生成的二分类器可能过于倾向训练样本的个性特征,而没有体现出训练样本整体共性,不利于对未知样本的判断.这时候需要采用柔性边界,它依然可以通过求解最大目标函数(2)得到,然而需要将约束条件αi>0改为0≤αi≤C. C可以协调训练误差和分类器的综合能力,其物

  第25卷第4期小型微型计算机系统 Vol.25 No.4 理的解释可以看成是与参数Ti对应的训练样本对分类边界的

  作用力大小的变化范围.无监督聚类生成的决策树型时经常会

  出现的左右两个集合SR、SL中的样本数目的不均衡,数目少的一

  边对分类边界确定的作用合力的大小往往有限,因而对分类边

  界的确定影响力弱.为此我们对数目不等的两类样本确定不对

  称的作用力变化范围,即使0≤Ti+ ≤C+,0≤Ti≤C-,C+和C-与训

  练样本数目相关,以此来消除训练样本数目不均衡性的影响. 决策树型确定之后,采用监督学习支持向量机的方法来生成决策树中二叉节点对应的二分类器,采用的是径向基核函数和非对称的Lagrangian系数限制条件.调节径向基的宽度和系数限制条件,可以得到对应决策树上每个二叉节点的性能很好的二分类器.之后用5类共74个心脏病变样本的特征向量进行了测试,测试结果列在表1之中.在表1中还给出了几个其它研究人 表1 采用不同方法对Clev eland心脏病变

  数据的处理结果

  Table 1 Expermental results of cleveland

  heartdisease datausing different classifer

  方法

  UC+SVM

  UC+SVM

  INC-NET

  Na?ve Bayes

  k-NN,VDM

  GOT/SVM 准确率 93.2% 85.1% 90.0% 82.8%±1.3% 82.6% 82.5% 说明 本文方法,如果只区分病变和非病变 本文方法,区分所有类别 病变和非病变分类,文献[13] 病变和非病变分类,文献[14] 病变和非病变分类,文献[15] 树型边界分类病变和非病变,文献[16] 4 实验结果 我们采用Cleveland心脏病变数据来检验上文介绍的融合无监督聚类和监督学习支持向量机生成的多分类决策树的效果.Cleveland心脏病变数据在一个知名的有关机器学习研究的网站1 上公布,成为许多分类方法的检验数据.这组数据包含有303个样本,每个样本的特征向量的维数为13.其中有6个样本的特征向量不完整,这里将它们从样本中剔出,因而可使用的样本数据为297个.样本的特征向量被分为5类,其中心脏没有病变的正常情况的样本数目为160个,标号为0.其余的样本为心脏有病变的特征样本,标号依此为1、2、3和

  4,对应的样本数目分别为54、35、35和13,标号递增表示心

  脏病变的程度越发厉害.我们对于每一类样本,选择其中的四

  分之三为训练样本,数目共为223个,其余的四分之一用来验

  证,数目共为74个.

  利用第二节介绍的无监督聚类方法,首先从224个训练样本

  确定决策树的树型,结果如图4所示.为了平衡样本特征向量各

  个特征值对决策树型的影响程度,对所有样本的特征向量的每

  项特征值进行了正规处理,即进行了以下运算:员采用不同的研究方法对Cleveland心脏病变数据的分类结果,更多的有关该组数据的处理结果可以参阅文献[17]或网站.这些结果准确率均在85.1%之下,居多方法只区分样本特征向量是病变还是非病变,是二分类的研究结果.从表1的数据比较可以看出,本文提出的决策树型确定和决策树节点的二分类器的生成方法一定程度的提高了分类效果. 25 结 论 综合利用多种学习策略来解决多分类问题是一种比较好

  的指导思想,它可以提高解决问题的效率和结果.本文利用无

  监督聚类学习策略和监督学习支持向量机的方法来生成多分

  类决策树,在实验中获得了比较好的效果.该方法不仅能够针

  对待处理的多分类问题多类之间的内在联系和分布特点,生成

  相应的决策树型,具有灵活解决问题的能力,而且采用了准确

  率高的支持向量机对不易区分的类别进行分类,弥补了无监督

  聚类分类准确率低的缺陷,实现了策略之间的优势互补.该方

  法在解决多分类问题上体现了问题产生的刺激机制和人们区

  分多种类别时先易后难的思维习惯,实现了比较高的计算效率

  和分类效果. ?????min???,表示所有样本特征向量的同max??min?一项特征值构成的列向量.从图4可见,无监督聚类方法确定的决策树型明确地反映出Cleveland心脏病变数据中几类样本之间的关系,如正常的样本向量(0)与病变样本向量首先被区分开来,严重病变的样本向量(3、4)将与轻度病变(1、2)的样本向量区分开来,最后区分比较难以区分的两类样本.无监督聚类方法生成的决策树型不仅很好的体现了心脏病变这一进程中不同阶段的特点,而且符合人们区分事物先易后难的习惯.

  2References: 1. Vapnik V. The nature of statistical learning theory[M].NewYork: Springer-Verlag,1995. 2. Vapnik V. Statistical learning theory[M]. John Wiley &Sons,New York ,1998. 3. Weston J and Watkins . M ulti-class support vector machines

  [R] .Technical Report CSD-T R-98-04, Royal Holloway,

  University of London, Department of Computer 图4 无监督聚方法生成的Cleveland心脏病变诊断决策树型

  Fig .4 The structure of decisiontree of clev eland heart

  disease data produced by unsupervised clustering Science,EBIOL 1998. Available on http://www. clrc.

  1http://www.phys.uni.torun.pl/kmk/projects/datasets.html

  篇五:监督分类是需要学习训练的分类方法

  监督分类是需要学习训练的分类方法,如最大似然分类,人工神经网络分类,即是需要事先为每类地物在遥感图像上采集样本数据,之后通过学习训练过程才来分类;非监督分类不需要人工采集地物样本点数据,多是通过聚类的方法来自动分类,主要有isodata,k均值等.总体来说,监督分类的效果要优于非监督分类.

  遥感影像的分类方法按照是否有先验类别可以分为监督分类和非监督分类,这两种分类法有着本质的区别但也存在一定的联系.

  监督分类的主要方法

  最大似然判别法.也称为贝叶斯(Bayes)分类,是基于图像统计的监督分类法,也是典型的和应用最广的监督分类方法.它建立在Bayes准则的基础上,偏重于集群分布的统计特性,分类原理是假定训练样本数据在光谱空间的分布是服从高斯正态分布规律的,做出样本的概率密度等值线,确定分类,然后通过计算标本(像元)属于各组(类)的概率,将标本归属于概率最大的一组.用最大似然法分类,具体分为三步:首先确定各类的训练样本,再根据训练样本计算各类的统计特征值,建立分类判别函数,最后逐点扫描影像各像元,将像元特征向量代入判别函数,求出其属于各类的概率,将待判断像元归属于最大判别函数值的一组.Bayes判别分类是建立在Bayes决策规则基础上的模式识别,它的分类错误最小精度最高,是一种最好的分类方法.但是传统的人工采样方法由于工作量大,效率低,加上人为误差的干扰,使得分类结果的精度较差.利用GIS数据来辅助Bayes分类,可以提高分类精度,再通过建立知识库,以知识来指导分类的进行,可以减少分类错误的发生[1],这正是Bayes分类的发展趋势和提高其分类精度的有效途径.

  神经元网络分类法.是最近发展起来的一种具有人工智能的分类方法,包括BP神经网络、Kohonen神经网络、径向基神经网络、模糊神经网络、小波神经网络等各种神经网络分类法.BP神经网络模型(前馈网络

  型)是神经网络的重要模型之一,也是目前应用最广的神经网络模型,它由输入层、隐含层、输出层三部分组成,所采取的学习过程由正向传播过程和反向传播过程组成.传统的BP网络模型把一组样本的输入/输出问题作为一个非线性优化问题,它虽然比一般统计方法要好,但是却存在学习速度慢,不易收敛,效率不高的缺点.采用动量法和学习率自适应调整的策略,可以提高学习效率并增加算法的可靠性[3].

  模糊分类法.由于现实世界中众多的自然或半自然现象很难明确划分种类,反映在遥感影像上,也存在一些混合像素问题,并有大量的同谱异物或者同物异谱现象发生,使得像元的类别难以明确确定.模糊分类方法忽略了监督分类的训练过程所存在的模糊性,沿用传统的方法,假定训练样本由一组可明确定义、归类,并且具有代表性的目标(像素)构成.监督分类中的模糊分类可以利用神经元网络所具有的良好学习归纳机制、抗差能力和易于扩展成为动态系统等特点,设计一个基于神经元网络技术的模糊分类法来实现.模糊神经网络模型由ART发展到ARTMAP再到FasART、简化的FasART模型[4],使得模糊神经网络的监督分类功能不断完善、分类精确度不断增加.

  最小距离分类法和Fisher判别分类法.它们都是基于图像统计的常用的监督分类法,偏重于几何位置.最小距离分类法的原则是各像元点划归到距离它最近距离的类别中心所在的类,Fisher判别分类采用Fisher准则即“组间最大距离”的原则,要求组间距离最大而组内的离散性最小,也就是组间均值差异最大而组内离差平方和最小.用这两种分类法进行分类,其分类精度取决于对已知地物类别的了解和训练统计的精度,也与训练样本数量有关.针对最小距离分类法受模式散布影响、分类精度不高的缺点,人们提出了一种自适应的最小距离分类法,在训练过程中,将各类样本集合自适应地分解为子集树,定义待分类点到子集树的距离作为分类依据[2],这种方法有效地提高了最小距离法的分类正确率和分类速度,效率较高.Fisher判别分类也可以通过增加样本数量进行严密的统计分类来增加分类精度。

  非监督分类的主要方法

  动态聚类.它是按某些原则选择一些代表点作为聚类的核心,然后将其余待分点按某种方法(判据准则)分到各类中去,完成初始分类,之后再重新计算各聚类中心,把各点按初始分类判据重新分到各类,完成第一次迭代.然后修改聚类中心进行下一次迭代,对上次分类结果进行修改,如此反复直到满意为止.动态聚类的方法是目前非监督分类中比较先进、也较为常用的方法.典型的聚类过程包括以下几步:选定初始集群中心;用一判据准则进行分类;循环式的检查和修改;输出分类结果.聚类的方法主要有基于最邻近规则的试探法、K-means均值算法、迭代自组织的数据分析法(ISODATA)等.其中比较成熟的是K-means和ISODATA算法,它们较之其他分类方法的优点是把分析判别的统计聚类算法和简单多光谱分类融合在一起,使聚类更准确、客观.但这些传统的建立在统计方法之上的分类法存在着一定的缺点:很难确定初始化条件;很难确定全局最优分类中心和类别个数;很难融合地学专家知识.基于尺度空间的分层聚类方法(SSHC)是一种以热力学非线性动力机制为理论基础的新型聚类算法[10],它与传统聚类算法相比最大的优点是其样本空间可服从自由分布,可获取最优聚类中心点及类别,可在

  聚类过程中融合后验知识,有更多的灵活性和实用性.

  模糊聚类法.模糊分类根据是否需要先验知识也可以分为监督分类和非监督分类.事实上,由于遥感影像的复杂性和不精确性等特点,预先很难获得所有有代表性样本的各类别的精确含量,因此很多情况下用纯粹的监督方法作模糊分类并不现实.模糊聚类属于非监督分类的一种,它根据样本间的统计量的相似程度作为模糊隶属度,在无预知类别的前提下对数据集中各点作含量划分.模糊聚类算法有多种,如基于模糊等价关系的模糊聚类分析法、基于最大模糊支撑树的模糊聚类分析法等

  [11],最典型的模糊聚类法是模糊迭代自组织的数据分析法———Fussy-ISODATA.但纯粹的非监督分类对影像一无所知的情况下进行所得到的结果往往与实际特征存在一定的差异,因此聚类结果的精度并不一定能够满足实际应用的要求,还需要地学知识的辅助,也就是部分监督的Fussy-ISODATA聚类.

  系统聚类.这种方法是将影像中每个像元各自看作一类,计算各类间均值的相关系数矩阵,从中选择最相关的两类进行合并形成新类,并重新计算各新类间的相关系数矩阵,再将最相关的两类合并,这样继续下去,按照逐步结合的方法进行类与类之间的合并.直到各个新类间的相关系数小于某个给定的阈值为止.

  分裂法.又称等混合距离分类法,它与系统聚类的方法相反,在开始时将所有像元看成一类,求出各变量的均值和均方差,按照一定公式计算分裂后两类的中心,再算出各像元到这两类中心的聚类,将像元归并到距离最近的那一类去,形成两个新类.然后再对各个新类进行分类,只要有一个波段的均方差大于规定的阈值,新类就要分裂.

  遥感影像的监督分类是在已知类别的训练场地上提取各类别训练样本,通过选择特征变量、确定判别函数或判别式把影像中的各个像元点划归到各个给定类的分类.它的基本思想是:首先根据类别的先验知识确定判别函数和相应的判别准则,利用一定数量的已知类别样本的观测值确定判别函数中的待定参数,然后将未知类别的样本的观测值代入判别函数,再根据判别准则对该样本的所属类别做出判定.遥感影像的非监督分类也称为聚类,它是事先无法知道类别的先验知识,在没有类别先验知识的情况下将所有样本划分为若干类别的方法.它的基本思想是事先不知道类别的先验知识,仅根据地物的光谱特征的相关性或相似性来进行分类,再根据实地调查数据比较后确定其类别属性.

  遥感影像的监督分类和非监督分类方法,是影像分类的最基本、最概括的两种方法.传统的监督分类和非监督分类方法虽然各有优势,但是也都存在一定的不足.新方法、新理论、新技术的引入,为遥感影像分类提供了广阔的前景,监督分类与非监督分类的混合使用更是大大的提高了分类的精度.

  计算机技术对影像分类的促进与发展.计算机技术的引进,解决了影像分类中海量数据的计算与管理问题;计算机技术支持下的GIS用来辅助影像分类,主要通过四种模式进行[12]:GIS数据作为影像分析的训练样本和先验信息;利用GIS技术对研究区域场景和影像分层分析;GIS建立面向对象的影像分类;提取和挖掘GIS中的知识进行专家分析.这些模式促进了GIS与遥感的结合,提高了影像分类精确性和准确性,使得影像分类迈入了新的天地.

  数学方法的引入和模型研究的进展为影像分类注入了新的活力.不同的数学方法被引用到模型研究上来,为模型研究的发展提供了广阔的天地,相应地,在遥感影像分类中也产生了大量不同形式的分类模型.如径向基函数(RBF)与粗糙理论结合的基于粗糙理论的RBF网络模型应用于遥感分类[5],对于提供分类精度、增加收敛性都有很好的作用;而基于RBF映射理论的神经网络模型更是融合了参数化统计分布模型和非参数化线性感知器映射模型的优点,不仅学习速度快,而且有高度复杂的映射能力[6].又如模糊数学理论应用于影像分类产生模糊聚类,对影像中混合像元的分类有很好的效果;模糊理论与各种模型结合,更使得影像分类方法的不断完善,分类精度不断提高.

  人工智能技术对影像分类的促进.专家分类系统被用于影像分类中,利用地学知识和专家系统来辅助遥感影像分类

  [12],大大提高了影像分类和信息提取的精度.人工神经网络由大量神经元相互连接构成网络结构,通过模拟人脑神经系统的结构和功能应用于影像分类,具有一定的智能推理能力.同时,它还引入了动量法和学习自适率调整的策略,并与地学知识集成,很好的解决了专一的BP神经网络法分类的缺点和不足,提高了分类效率和分类精度.

  监督分类与非监督分类的结合.由于遥感数据的数据量大、类别多以及同物异谱和同谱异物现象的存在,用单一的分类方法对影像进行分类其精确度往往不能满足应用目的要求.用监督分类与非监督分类相结合的方法来对影像进行分类,却常常可以到达需要的目的.利用这种方法分类时首先用监督分类法如多层神经网络的BP算法将遥感图像概略地划分为几个大类,再用非监督分类法如K-Means聚类和ISODATA聚类对第一步已分出的各个大类进行细分,直到满足要求为止[13].监督分类与非监督分类的结合的复合分类方法,改变了传统的单一的分类方法对影像进行分类的弊端,弥补了其不足,为影像分类开辟了广阔的前景.

【非监督学习方法大全】相关文章:

非诚勿扰经典台词大全11-23

亚伟速录学习方法大全08-09

奥数学习方法大全11-10

超强的韩语学习方法大全09-10

小提琴学习方法大全10-04

高中英语学习方法大全08-04

英语口语学习方法技巧大全08-19

韩语初学者学习方法大全11-13

监督与被监督医学心理研究论文06-25

2017年自学考试学习方法大全10-16