浅谈机器的学习方法
篇一:机器学习的方法
【摘 要】本文以什么是机器学习、机器学习的发展历史和机器学习的主要策略这一线索,对机器学习进行系统性的描述。接着,着重介绍了流形学习、李群机器学习和核机器学习三种新型的机器学习方法,为更好的研究机器学习提供了新的思路。
【关键词】机器学习;人工智能;李群机器学习;核机器学习;流形学习
计算机视觉是指用计算机实现人的视觉功能,希望能根据感知到的图像( 视频) 对实际的目标和场景内容做出有意义的判断如何能正确识别目标和行为非常关键,其中一个最基本的和最核心的问题是对图像的有效表达 如果所选的表达特征能够有效地反映目标和行为的本质,那么对于理解图像就会取得事半功倍的效果 正因为如此,关于机器学习的发展历史 特征的构建和选取一直得到广泛关注 近些年来人们已构建出许多特征,并且得到了广泛的应用,例如等等 设计特征是一种利用人类的智慧和先验知识,并且将这些知识应用到目标和行为识别技术中的很好的方式 但是,如果能通过无监督的方式让机器自动地从样本中学习到表征这些样本的更加本质的特征则会使得人们更好地用计算机来实现人的视觉功能,因此也是近些年人们关注的一个热点方向 深度学习( deeplearning) 的目的就是通过逐层的构建一个多层的网络来使得机器能自动地学习到反映隐含在数据内部的关系,从而使得学习到的特征更具有推广性和表达力本文旨在向读者介绍深度学习的原理及它在目标和行为识别中的最新动态,希望吸引更多的研究者进行讨论,并在这一新兴的具有潜力的视觉领域做出更好的成果 首先对深度学习的动机历史以及应用进行了概括说明; 主要介绍了基于限制玻尔 兹曼机的深度学习架构和基于自编码器的深度学习架构,以及深度学习
近些年的进展,主要讨论了去噪自编码器( denoisingautoencoder),卷积限制玻尔兹曼机,三元因子玻尔兹曼机( 3-way factorizedBoltzmannmachine),以及神经自回归分布估计器( NADE) 等一些新的深度学习单元; 对目前深度学习在计算机视觉中的一些应用以及取得的成果进 行介绍; 最后,对深度学习与神经网络的关系,深度学习的本质等问题加以讨论,提出目前深度学习理论方面需要解决的主要问题
1机器学习的发展历程
机器学习的发展大致可以分为四个阶段.
第一阶段:20世纪50年代中叶至60年代中叶这个时期是机器学习研究的热烈时代 研究对象是没有知识的学习,目标是各自组织和适应系统此阶段有两个代表,一是1957年Rosenblatt提出了感知机算法,这是第一个具有重要学术意义的机器学习的算法 二是50年代末,Samuel编写了跳棋程序,利用启发式搜索技术,可以从经验和棋谱中进行学习,不断调整棋盘评价函数,提高棋艺.
第二阶段:20世纪60年代中叶至70年代中叶,机器学习的冷静时期本阶段是模拟人类的学习过程,采用逻辑结构或图结构作为内部描述 代表有:1969年Minsky与Papert出版的对机器学习研究有深远影响的著作<感知机>一书.
第三阶段:20世纪70年代中叶至80年代中叶,称为复兴时期在这个时期,人们从学习单一概念延伸至学习的多个概念,探索不同的学习策略和各种学习方法在此阶段中,研究
者已经将机器学习系统与现实应用相结合,完成相应的学习过程,取得了很大的成功1980年,在美国召开的第一届机器学习国际研讨会,标志着机器学习在全世界范围内的全面兴起.
第四阶段:1986年至今 由于作为机器学习科学基础之一的神经科学研究的重新兴起,机器学习也进一步受到了人们的重视另一方面,对实验研究和应用研究得到前所未有的重视.
2.1 机械学习
机械学习是一种最基本的学习策略,把环境提供的信息简单存储起来,不经过任何推理,“死记硬背”式的学习。适合于一些环境相对稳定,输入输出模式相对固定的系统中,例如医生给病人看病。
2.2 传授学习
传授学习又叫做指导式学习或示教学习。传授学习的学习过程可以简单地描述如下:(1)请求:先向指导者请求提出建议;(2)解释:接受建议并将其转化为内部表示形式;(3)操作化:将解释后的建议转化为具体的知识;(4)归并:将得到的新知识归并到知识库中;(5)评价:对新知识进行评价,常用方法有,检查新知识与知识库里的知识是否矛盾,或者使 用新知识执行某些任务,观察其执行情况。
2.3 演绎学习
演绎学习以演绎推理为基础。演绎推理是一种有一般到个别的推理方法,其核心是三段论。例如,1动物都会死亡;2狗是一种动物;3狗会死亡。只要对给定的知识进行演绎的保真推理,就能得出一个正确的新结论,然后把有价值的结论存储起来。
2.4 归纳学习
归纳学习以归纳推理为基础。从某个概念的一系列正例和反例中归纳出一个一般的概念描述。归纳学习可分为有导师学习和无导师学习。有导师学习,又称示例学习。给学习系统提供正例和反例,学习系统通过归纳算法求解出一个总的概念描述。无导师学习,又称观察与发现学习。通过由环境提供的观察来进行学习,而且这些观察是未经过知道者分类的例子。
2.5 类比学习
类比学习是一种利用相似性来认识新事物的学习方式,其基础是类比推理。可以看作是演绎学习和归纳学习的组合学习形式。
学习过程:
(1)联想搜索匹配:提取特征值,搜索和它相似的已知事物;
(2)检验相似程度:判断相似程度,相似程度达到一定阈
值,则说明匹配成功;
(3)修正变换求解:即类比映射,把对已知事物的有关知
识进行适当的调整或变换,以求出新事物的解;
(4)更新知识库:求出新事物的解以后,将新事物及其解
并入知识库。
3 机器学习方法
3.1 流形学习
现实世界中的数据,例如语音信号、数字图像或功能性磁共振图像等,通常都是高维数据,为了正确地了解这些数据,我们就需要对其进行降维,降维的目的就是要找出隐藏在高维数据中的低维结构。流形学习是一种新的数据降维方法,能揭示数据的内在变化规律,其目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个有效的低维表示。2000年以来,流形学习在包括数据挖掘、机器学习、计算机视觉等多个研究领域得到了广泛的应用。
3.2 李群机器学习
李群机器学习(Lie Group Machine Learning,LML)作为机器学习领域的一种新的学习方法,一方面继承流形学习的优点,另一方面借用李群的思想,形成了具有创新特色的学习范式.自2004年提出至今,已引起加拿大、爱尔兰、芬兰、意大利、美国等国内外同行的广泛关注。李群结构是目前学术界公认的对学习问题研究很有用的一套理论工具。从数据分析的角度来说,用机器学习进行数据分析(数据挖掘),其目的就是揭示这些数据具有的规律,从而帮助用户提供解释的依据。李群一方面具有好的数学结构,另一方面物理学家广泛使用李群方法来处理物理学中复杂数据的启发。因此,引进李群理论对机器学习是一种可以探索的新思路。
3.3 核机器学习
20世纪90年代初随着统计学习理论的完善和线性超平面函数集容量控制方法的发现,提出了著名的支撑矢量机方法(SVMs)。随后,以支撑矢量机为核心算法的核机器(KM)方法和Fisher判断分析(FDA)方法得到了机器学习、模式识别、网络搜索引擎技术、计算机视觉等等领域的广泛关注。核机器方法以统计学习理论为基础,巧妙利用了Mercer核技巧,使其获得了良好的推广能力、强大的非线性处理能力、灵活的相似性测度定义和简洁的模型表示,是目前在特征提取、模式识别、数据发掘领域公认的具有最佳性能的方法之一。
4.1基于限制玻尔兹曼机的深度学习架构
玻尔兹曼机( Boltzmannmachine)本质上是一种能量模型 能量模型是指对于参数空间( configurationspace) 中每一种情况均有一个标量形式的能量与之对应 能量函数就是从参数空间到能量的映射函数,人们希望通过学习使得能量函数有符合要求的性质 从结构上来说,玻尔兹曼机是双层无向全连通图,如图3所示 为了方便起见,这里仅讨论观测变量和隐变量均是0 1变量的情况
玻尔兹曼机的能量函数为E( x,h) =-b'x-c'h-h'Wx-x'Ux-h'Vh ( 1)式中,x表示可见层,h表示隐层,b {0,1}K,c{0,1}D分别表示可见层和隐层单元的偏置( offset) , KD分别表示可见层和隐层单元的数目 WUV分别表示观测层和隐层之间,观测层变量之间,隐层变量之间的连接权重矩阵在实际中,由于计算样本概率密度时归一化因子的存在,需要使用马尔可夫蒙特卡洛方法( MCMC)来对玻尔兹曼机进行优化 但是MCMC方法收敛速度很慢,因此人们提出限制玻尔兹曼机和对比散度方法来解决这一问题.
4.2限制玻尔兹曼机
限制玻尔兹曼机是对全连通的玻尔兹曼机进行简化,其限制条件是在给定可见层或者隐层中的其中一层后,另一层的单元彼此独立,即式( 1) 中U和V矩阵中的元素均等于0 层间单元独立的条件是构成高效的训练限制玻尔兹曼机的方法的条件之 一,而RBM也因此成为深度置信网络( DBN)的构成单元 限制玻尔兹曼机的图模型如图4所示 可见,层内单元之间没有连接关系,层间单元是全连接关系
将式( 1) 中层间连接矩阵U,V置零,得到限制玻尔兹曼机的能量函数E( x,h) =-b'x-c'h-h'Wx 由于限制玻尔兹曼机取消了层内单元之间的连接,所以可以将其条件概率分布进行分解,这样就简化了模型优化过程中的运算 但是在其优化过程中仍然需要基于MCMC方法的吉布斯采样,训练过程仍然十分漫长,因此人们提出对比散度方法来加快模型优化. 对比散度( contrastivedivergence) 是Hinton在2006年提出来的快速地训练限制玻尔兹曼机的方法,该方法在实践中得到广泛的应用 对比散度主要是将对数似然函数梯度的求解进行了两个近似:
(1) 使用从条件分布中得到的样本来近似替代计算梯度时的平均求和这是因为在进行随机梯度下降法进行参数优化时已经有平均的效果,而如果每次计算都进行均值求和则这些效果会相互抵消,而且会造成很大的计算时间的浪费
(2) 在进行吉布斯采样( Gibbs sampling) 时只采用一步,即仅仅进行一次吉布斯采样这种一次吉布斯采样方法会使得采样得到的样本分布与真实分布存在一定的误差 但是实践发现,如果仅作一次迭代的话,就已经能得到令人满意的结果将限制玻尔兹曼机逐层叠加,就构成了深度置信网络( DBN) 在深度置信网络中底层的输出作为上一层的输入,每层是一个限制
玻尔兹曼机,使用对比散度的方法单独训练 为了达到更好的识别效果,往往还要对深度置信网络每层的参数进行微调使用限制玻尔兹曼机构建成深度网络,在一些公开的数据集上取得了非常好的效果.
5机器学习系统的模型及其特征
5.1 机器学习系统的模型
(1) 外部环境是以某种形式表达的信息或知识的集合,是知识和信息的来源,执行的对象和任务 外部环境像系统提高信息的质量是影响学习系统设计的首要因素。(2)学习是将外部环境提供的信息,加工成为有效信息的过程,它也是学习系统的核心,包括采集信息接受监督指导学习推理修改知识库等其他功能。(3)知识库是影响学习系统设计的第二大因素,根据知识的不同,选择不同的表达方式,兼顾表达能力强易于推理易于修改知识库和知识表示易于扩展等几方面,均是知识库在表达上需要符合的要求。(4)执行是利用知识库完成某种任务,并进行识别论证决策判定,将获得的信息进行反馈,以修正和完善下一步的学习。
5.2 机器学习系统的重要特征
机器学习系统通常具有如下重要特征:(1)目的性系统知道学习什么,学习的行为具有高度的目的性。(2)结构性系统能修改和完善知识结构和组织形式。(3)有效性系统学习到的知识具有适应和符合实践的能力,能够对系统性能的改善起到正面的作用。(4)开放性系统在与环境进行信息交互的过程中,能使自身不断进化。
6.机器学习策略
对于环境提供信息,机器要运用一定的学习策略转换为知识,并存储在知识库中,为下一步的执行作保证根据策略使用推理的多少和难易程度,学习策略可以分为四类: 1机械学习
这种学习策略,无需任何推理过程或计算转换过程,可以直接将环境提供的信息进行存储该学习系统主要考虑三个方面:第一:存储组织的形式利于检索在采用机械学习的系统中,主要采用的是索引存储的方式,在这种情况下,只有检索一个项目比重新分析计算更加快捷,这种学习策略才具有一定的意义 采用适当的存储组织形式,最大限度地提高检索效率,缩短检索时间,是机械学习要解决的重大问题第二:环境稳定存储信息适用性高因为系统不需要对信息做过多的加工,学习部分没有推理的过程,这对于环境的依赖程度就大大提高要求环境具有高度的稳定性系统的学习是通过事先编好的程序获得,是建立在这次获得的知识适用于下次的情况的假设上的,如果环境变化的过于频繁,每次存的知识都不能适用,这种策略也就失去其意义第三:权衡存储和计算之间的关系学习的目的是改进系统的效率,如果检索比重新计算来的慢,那么就降低了系统的执行力 机械学习也就失去了意义。
2归纳学习
归纳推理是由环境提供足够多的实例或反例,应用归纳的方法,得出一般性的规律或对于概念的一般性的描述这是一个从个别到一般的过程归纳学习可以获得新的概念,创立新的规则,发现新的理论 其原理是在大量观察的基础上通过假设形成一个科学理论 按其有无教师的指导,可以分为示例学习及观察与发现学习示例学习,又称为概念获取 确定概念的一
篇二:机器学习方法及应用研究
摘要:本文介绍了机器博弈技术,给出了提升计算机的智能程度是研究机器博弈技术的重点。设计了五子棋游戏算法,由于算法设计决定了计算机的智能程度,该算法没有用到机器学习,计算机不具有智能。分析了卡斯帕罗夫和“深蓝”的不同特点,给出了“深蓝”战胜世界冠军的启示,只有利用机器学习技术开发的具备学习能力的计算机才具有智能。
关键词:机器博弈,机器学习,智能0、引言
很早人类就有制造机器人的幻想,例如黄帝的“指南车”,诸葛亮的“木牛流马”。《三国演义》中诸葛亮发明的运输工具称为“木牛流马”,解决了川山山区军粮运输的难题。根据文献,诸葛亮最具有实物性质的智慧结晶就是“木牛流马”。
机器博弈既可以是计算机与计算机之间的博弈,也可以是计算机与人类之间的博弈。诸如战争、竞技、下棋、打牌等一类竞争性智能活动称为博弈[1]。 1、“深蓝”战胜世界冠军
1997年5月,美国IBM公司的“深蓝”超级计算机首次击败国际象棋男子世界冠军卡斯帕罗夫。表1给出了卡斯帕罗夫和“深蓝”具有的不同特点。
学习是人类获取知识的重要途径和自然智能的重要标志,机器学习则是机器获取知识的重要途径和人工智能的重要标志[2]。“深蓝”之所以能击败卡斯帕罗夫,最主
______________________
作者简介:马健喆,男,(1995,11-),山西太原人,本科,主要研究方向为信息处理。
要的原因是“深蓝”具有较强的学习能力和推理能力。
表1卡斯帕罗夫和“深蓝”的不同特点
学习过程与推理过程密切相关。按照学习中使用推理的多少,机器学习所采用的策略总体上可以分为机械学习、示教学习、示例学习和类比学习。学习中所用的推理越多,系统的能力越强[3,4]。 2、五子棋游戏的设计
设计五子棋游戏,实现简单的五子棋游戏;插入一个下载的棋盘图片作为自己的棋盘;插入一段音乐实现背景音乐的播放;当有输赢出现时弹出一个显示战况的对话框;在菜单栏上添加一个战况的标题,当单击时弹出显示当时战况的对话框。
五子棋棋局与围棋相同,棋子分为黑、白两种颜色,棋盘为19?19,在棋盘线交叉点上放置棋子。计算机与人对局,各执一种颜色的棋子,轮流下一子,先将横、竖或斜线的5个或5个以上同色棋子连成不间断的一排者为胜。现代五子棋棋盘已标准化为15?15的方格棋盘。
本文采用MFC对话框构建五子棋棋盘,直接截取五子棋棋盘图片作为对话框背景;采用MFC按钮控件作为五子棋游戏“悔棋”、“音乐”、“战况”、“重新开始”的选项按键;实现五子棋人机对战,人通过鼠标点击下子;设计五子棋游戏算法实现计算机的下子点的选择。
图1给出了五子棋游戏算法的程序流程图,具体步骤如下:
图1五子棋游戏算法的程序流程图
(1)对局双方各执一种颜色的棋子;
(2)空棋盘开局;
(3)玩家(黑方)首先落子,接着计算机(白方)作出决策,落子,交替下子,每次只能下一子;
(4)棋子下在棋盘的空白点上,棋子下定后,不得向其它点移动,不得从棋盘上拿掉或拿起另落别处;
(5)黑方的第一枚棋子可下在棋盘任意交叉点上;
(6)轮流下子是双方的权利;
(7)连五取胜。在对弈过程中若某一方出现“成五”(“五连”和“多连”的总称),则判定为胜。若棋盘下满还没有胜方,则为平局。
该五子棋游戏算法没有用到机器学习,计算机不具有智能。图2、图3分别给出了利用MFC实现五子棋游戏程序的运行结果。本文设计实现的五子棋游戏可以根据个人爱好设计界面,人机交互方便、简单。
图2 五子棋游戏程序的运行结果
图3 五子棋游戏程序的运行结果
算法设计决定了计算机的智能程度,可用于五子棋计算的算法包括博弈树、负极大值算法、???算法、置换表技术、哈希表技术、历史启发等。怎样综合使用各种算法,提升计算机的智能程度是研究机器博弈技术的重点。 3、结论
机器学习是计算机获取智能的途径,本文设计了五子棋游戏算法,实现了五子棋游戏。下一步工作将机器学习方法引入到五子棋游戏的设计,提高计算机的学习能力和推理能力。
篇三:基于机器学习的文本分类方法
基于机器学习算法的文本分类方法综述
摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。
1. 引言
随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求
[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。
本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。
2.文本自动分类概述
文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。
2.1 文本表述
至今,计算机还不能像人类那样阅读完文章之后,根据自身的理解能力对文章的内容产生一定的认识。要使计算机能够高效率、高性能地处理自然文本,就需要有一个文本表示的过程,文本表示是将非结构化的文本文档表示为机器易于处理的形式的过程。文本表示通常包括文本预处理和文本模型表示等步骤,其中文本预处理为建立文本表示模型做必要的准备工作。具体的文本标识方法有很多种模型,如布尔模型、布尔模型性、向量空间模型等。词包(Bag of Words)表示法是目前文本分类的标准模式。把文本看成是段落的集合,或者是句子的集合,也可以看成是单或字母的集合,而单词是组成文本的一个基本单位,研究者通常把一个文本当作是一系列单词的集合来表示,即所谓的词包表示法,它通过特征处理和统计学习算法的基础上获得对文本语义内容及类别信息的估计与预测。实际应用中空间向量模型(vector Space Modal, VSM)是常见的文本表示模型。在这种表示方式中,每篇文档表示成形如d=的向量,其中ti表示词条项,wi表示ti在文档d中的权值。如图
2所示是向量空间模型。向量空间模型已经在信息检索、文本分类等应用中取得了成功。除VSM外,还有基于概率分布、基于二维视图等模型。这些非VSM的表示方法需要通过理论以及应用实践上的进一步验证。
2.2 特征提取
特征提取是在初始全特征集基础上提取出一个特征子集的过程,能够起到降低向量空间维数、简化计算、防止过拟合作用。首先根据特征提取算法对特征的重要性进行评估,然后进行重要度排序,最后根据提取阈值或提取比率完成提取。提取后的特征集将用于之后的训练和分类过程。常用特征提取算法有文档频数(Document Frequency)、信息增益(information Gain)、期望交叉熵(expected cross entropy)、互信息(Mutual Information)、χ2统计等。
3.基于机器学习的文本分类方法
3.1 基于朴素贝叶斯法的文本分类
朴素贝叶斯方法是最早用于文本分类的分类器算法,是一种统计学分类方法,它基于贝叶斯决策论并且基于此项独立的假设,几不同属性对分类结果的影响是独立的。假设d为待分类文档的表示向量,它属于文档类别集合C={c1,c2,c3,…,cn}中某一类。根据贝叶斯公式有:
n
P d = P cj P(d|cj)
j=1
P cj|d =P cj P(d|cj)P(d)…,n
其中P cj 表示类别cj在样本集中的比重,P(d|cj)由概率密度函数计算得出。分类时,P cj|d 值最大情况对应的类别cmax为待分类文档类别。基于上述假设的概率分类器一般称为贝叶斯分类器。贝叶斯分类器容易理解,计算简单而且比较实用,其分类效果基本能满足要求,但其关于词项独立性的假设受到了质疑。
3.2 基于决策树法的文本分类
决策树学习是应用最广泛的归纳推理算法之一,它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性且能够学习析取表达式。决策树着眼于从一组无次序无规则的事例中推理出决策树表示形式的分类规则,它通过把实例从根结点排序到某个叶子结点来分类实例,叶子结点即为实例所属的分类。在构造分类模型时,树上的每个结点指定了对实例属性集测试后选择出的属性,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的时候,就是从树的结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动,之后在新的'结点上重复这个过程直到叶子结点,即获得分类。
一般来说,决策树算法主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集,完成决策树的建立过程;第二,决策树的剪枝问题,即利用检验样本集对形成的决策树进行优化处理。决策树的构建是一种自上而下、分而治之的归纳过程,本质是贪心算法。各种算法建树的基本过程相似,是一个递归的过程。
设数据样本集为S,算法框架如下:
(1) 如果数据样本集S中所有样本都属于同一类或者满足其他终止准则,则S不再划分,
形成叶节点:
(2) 否则,根据某种策略选择一个属性,按照属性的各个取值,对S进行划分,得到n个子样本集,记为Si,再对每个Si迭代执行步骤(1)。
经过n次递归,最后生成决策树。从根到叶节点的一条路径对应着一条规则,整棵决策树就对应着一组析取表达式规则。为了防止决策树和训练样本集的过度拟合,特别是存在噪声数据或不规范属性时更为突出,需要对决策树进行剪枝。剪枝的算法通常利用统计方法决定是否将一个分支变为一个节点。通常采用两种方法进行决策树的剪枝,即在决策树生长过程完成前就进行剪枝的事前修剪法和在决策树生长过程完成后才进行剪枝的事后修剪法。
决策树分类算法自提出以来,出现了很多种,早期的是CLS学习算法和CART算法,最有影响的是1986年Quinlan提出的ID3算法。ID3算法体现了决策树分类的优点:算法的理论清晰、方法简单,学习能力较强。缺点是:只对比较小的数据集有效,且对噪声比较敏感。在ID3算法的基础上,Quinlan又发展了具有重要影响的C4.5算法,它继承并改进了ID3算法,使用非常广泛。为了适应处理大规模数据集的需要,后来学者又提出了若干改进的算法,取得了较好的效果。决策树文本分类法分类精度较好,并且可以很好的抵抗噪声,但缺点是在处理大规模数据集的情况下效率不高。
3.3 基于K最近邻法的文本分类
K最近邻算法(k Nearest Neighbor, KNN)分类算法是传统的基于统计的模式识别方法,在文本分类领域使用较多。其算法思想是对于一篇待分类文档,在训练集中找到K个最相近的邻居。取这K个邻居的类别为该文档的候选类别,该文档与K个邻居之间的相似度为候选类别的权重,然后使用设定的相似度阈值就可以得到该文档的最终分类。KNN算法也是基于向量空间模型的分类算法之一,最初由Cover和Hart于1968年提出,是一个理论上比较成熟的方法。采用kNN方法进行文档分类可以定义为:对于给定的文档集D,把D中所有的文本内容形式化为特征空间中的加权特征向量D,其中向量D表示为D=。对于某一给定的测试文档d,通过计算它与每个训练文档的相似度,找出k个最相似的文档。在此基础上,给每个文档类别加权打分,根据加权距离和判断测试文本所属的类别。根据上述表述,可以把KNN文本分类法归结为以下步骤:
⑴ 根据各种规则将文本内容变换成文本特征向量。
⑵ 根据相似度公式计算测试文本与每个训练文本的相似度,计算公式如下:
Sim di,dj =2m2 mk=1Wik k=1Wjk mW×W
其中,m是特征向量维数,K表示近邻个数,其具体数值的确定目前还没有很好的方法,一般采用先定一个初始值,然后通过实验测试调整K值,一般初始值定为几百到几千之间,但是要小于训练文档总数。
⑶ 从(2)的结果中选出k个相似度最大的训练集文档,计算分类权重,计算公式为:
P d,ci = Sim d,dj y dj,ci ?bi
dj?kNN
其中d表示文本特征向量,y dj,ci ? 0,1 ,即如果文档属于该类别值为l,反之为0。bi为阈值,对于某一特定类来说,bi是一个有待优化选择的值,可以通过一个验证文档集来进行调整。
KNN算法足向量空间模型下最好的分类算法之一,优点是易于快速实现,在基于统计
的模式识别中非常有效,有较好的分类准确性和稳定性,尤其对于未知和非正态分布可以取得较高的分类准确率。KNN可以较好地避免样本的不平衡问题,对于类域的交叉或重叠较多的待分样本集和样本容量较大的类域的分类较为适合,并且,它对训练数据中的噪声有很好的健壮性,当给定足够大的训练集合时也非常有效。总体来说KNN优于贝叶斯、决策树。然而作为一种懒散的学习算法,它也存在一些限制:一是空间开销大。因为要事先存储全部训练样例,当训练样例增大时存储空间也随之增大。二是计算相似度时,实例间的距离是根据实例的所有属性来计算的,这与那些只选择全部实例属性的一个子集的方法不同,例如决策树。有些属性与分类相关性不大或无关时,可能会误导近邻算法的分类,近邻间的距离会被大量的不相关属性所支配。这种由于存在很多不相关属性所导致的难题,有时被称为唯度灾难[9]。最近邻方法对这个问题特别敏感。解决的方法一般有两种,一是在计算两个实例间的距离时对每个属性加权,二是从实例空间中完全消除最不相关的属性。
3.4 基于中心向量法的文本分类
还有一类分类速度较快的基于向量空间模型的文本分类算法是基于中心向量的分类法,又称为Rocchio算法[10]。中心向量法最初用于信息检索,现在已经被广泛应用于文本分类。中心向量法的基本思想是通过对训练集进行训练得到每一个已知类别的中心,称之为类中心向量,分类过程中将待分类文档与已知的类中心向量进行相似度比较,判定规则为相似度最大的类中心向量所代表的类别为待分类文档的类别。假设令C= Ci mi=1表示训练集包含的m个类,则基于中心向量的文本分类过程为:
⑴ 对每一个类Ci,计算该类中所有文档向量的算术平均作为该类的类中心向量V Ci ; ⑵ 对于一个待分类文档d,计算d与所有类中心向量V Ci 的相似度Sim d,V Ci 并且返回相似度最大的类别最为结果。这里相似度的计算同3.3中步骤(2)的相似度激素那方法相同。中心向量法适合于训练集中各类别大小相对均衡,且同类别文档分布稠密的情况,此时分类效果较好,但当训练集中各类别间大小不均衡且同类别文档分布稀疏时,分类效果较差。
3.5 基于支持向量机的文本分类
支持向量机(Support Vector Machines, SVM)是由Vapnik与其领导的贝尔实验室研究小组在1995年据统计学理论提出的一种用于解决二分类模式识别问题的学习方法。Joachims是最早将SVM方法用于文本分类中的,并且取得非常理想的分类效果。SVM方法将文本分类问题变成了一系列二分类问题。SVM算法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,它将降维和分类结合在一起,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,这里模型的复杂性代表对特定训练样本的学习精度,而学习能力代表无错误的识别任意样本的能力。支持向量机算法的目的在于寻找一个超平面H,该超平面可以将训练集中的数据分开,且与类别边界的沿垂直于该超平面方向的距离最大,故SVM法也被称为最大边缘算法。样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响,这样只用各类别边界样本的类别来决定分类结果的做法,具有较强的适应能力和较高的准确率。
总结起来,SVM算法的分类思想是从训练样本中寻找能够确定一个最优超平面的支持向量。假设有大小为m的训练样本集 x1,y1 , x2,y2 ,… xn,yn ,如果它是一个二分类任务,则分类标识为yi=±1 (i=1,2,3,…,m),那么任务的决策函数可用下式表示:
f x =sin w?x+b
篇四:机器学习理论与方法
机器学习理论与方法 实验报告
实验项目:基于Hopfield Network 模型的数字识别 实验者: 彭江军 学号: 2011114093 专业: 信息与计算科学 指导教师: 张瑞
一:程序前期准备与思路
(1) 先对图中给的8个已知的pattern图像数字化成矩阵,对于待处理的图像也处理为矩阵,导入excel表。
(2) 由权重的计算公式,编写程序得到权重矩阵。
(3) 选择相应的激活函数,这里我们选择bi-polar binary 函数。不断更新,使其能量不断下降,最终趋于稳定。
二:程序代码
1.得到权重的程序
% 读取数据
A=xlsread('0.xls',1);
B=xlsread('1.xls',1);
C=xlsread('2.xls',1);
D=xlsread('3.xls',1);
E=xlsread('4.xls',1);
F=xlsread('6.xls',1);
G=xlsread('u.xls',1);
H=xlsread('9.xls',1);
% 将矩阵依次处理为向量,以便求
法用for来做
A1=A(1,:);
for i=2:12
A1=vpa([A1 A(i,:)]);
end
B1=B(1,:);
for i=2:12
B1=vpa([B1 B(i,:)]);
end
C1=C(1,:);
for i=2:12
C1=vpa([C1 C(i,:)]);
end
D1=D(1,:);
for i=2:12
D1=vpa([D1 D(i,:)]);
end
E1=E(1,:);
for i=2:12
E1=vpa([E1 E(i,:)]);
end
F1=F(1,:);
for i=2:12
F1=vpa([F1 F(i,:)]); weight,由于是A,B等编号,故这一步无
end
G1=G(1,:);
for i=2:12
G1=vpa([G1 G(i,:)]);
end
H1=H(1,:);
for i=2:12
H1=vpa([H1 H(i,:)]);
end
% 求weight公式
I=eye(120);
W=(A1'*A1+B1'*B1+C1'*C1+D1'*D1+E1'*E1+F1'*F1+G1'*G1+H1'*H1)/120-8/120*I;
W=double(W);
xlswrite('w.xls',W)
2.更新程序
编写脚本文件
function HPML(x0,weight,n)
%% x0为需要识别的数字矩阵
% weight 为经过学习得到的权重
% n为需要迭代的次数
O=weight*x0;
[r,c]=size(O);
% 迭代更新矩阵
for k=1:n-1
for i=1:r
for j=1:c
if(O(i,j)>=0)
O(i,j)=1;
else
O(i,j)=-1;
end
end
end
O=weight*O;
end
% 对于跳出循环的矩阵规范化
for i=1:r
for j=1:c
if(O(i,j)>=0)
O(i,j)=1;
else
O(i,j)=-1;
end
end
end
%将生成的向量以行序为主转化为矩阵,因为reshape函数以列序为主,故未采用
M=zeros(12,10);
for i=1:12
M(i,:)=O(10*(i-1)+1:10*i);
end
imshow(M,[-1,1])
title(strcat('iteration times:',num2str(n)));
3.调用函数
x0=xlsread('i.xls',1);
weight=xlsread('w.xls',1);
X=zeros(12,10);
for i=1:12
X(i,:)=x0(10*(i-1)+1:10*i);
end
subplot(1,3,1);
imshow(X,[-1,1]);
title('previous image');
n=1;
subplot(1,3,2);
HPML(x0,weight,n)
subplot(1,3,3);
n=2;
HPML(x0,weight,n)
三:程序结果
篇五:基于机器学习的数字音频分类方法研究
基于机器学习的数字音频分类方法研究
摘要:
让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着经济的发展,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。这就使语音信号分析成为社会生活中越来越重要的一部分。其中语音识别是语音信号分析的重要领域,而语音特征信号识别又是语音识别研究领域的一个重要方面。
语音特征信号识别一般采用模式匹配的方法解。首先通过预处理提取语音特征,作为该语音片段的模型。将该模型与已知的参考模型相比较,获得最佳匹配的参考模式作为识别结果,在论文中研究的是基于传统的BP神经网络的音频分类与SVM技术音频分类的仿真实验结果进行比较,对比两者各自优缺点,从而熟悉这两种技术的基本工作原理和算法。通过实验对其性能进行了主观评价和客观数据分析,对于所选语音信号BP网络具有较快的训练速度,但是SVM技术具有较高的识别率。BP网络的学习和记忆具有不稳定性。也就是说,如果增加了学习样本,训练好的网络就需要从头开始训练,对于以前的权值和阈值是没有记忆的。但是可以将预测、分类或聚类做的比较好的权值保存。
关键词:语音识别,特征提取,梅尔倒谱系数,BP网络,SVM(支持向量机)
Research on digital audio classification base on
machine-learning
Abstract:
Since the birth of the computer people want to let the computer can understand human's language .People are becoming more and more urgent to get rid of keyboard and replace it by voice input that is personalized、convenient and natural to be used .So that Analysis of speech signal become a more and more important part in social life.The speech recognition is an important part of Analysis of speech signal ,and the voice signal recognition is one of the most important aspects of speech recognition .
Speech feature signals recognition use to use pattern matching method.Firstly, through pretreatment of phonetic feature extraction make as the model.The model is compared with known reference model, get the best matches the reference pattern as a result of recognition. In this paper research is based on the traditional BP neural network audio classification and technology of Support vector machine audio classification the experimental results were compared to find each of advantages and disadvantages, so to understand with the two technical basic principle and algorithm. Through the experiments on the performance of the subjective evaluation and objective data analysis, for selected speech signal BP network has faster training speed, but the SVM technology has higher recognition rate. BP network learning and memory have instability. That is to say that if the increase of learning samples, the trained network is needed to start training, for the previous weights and thresholds is no memory. But it can keep these better weight that do well in predict, classification or clustering.
KEY WORDS:Speech recognition feature extraction Mel frequency cepstrum coefficient BP networks SVM ( support vector machine )
目录
第一章 绪论 ..................................................................................................................................... 4
1.1 语音信号处理发展前景 .................................................................................................. 4
1.2 语音识别技术概述 .......................................................................................................... 4
1.2.1 语音识别技术的发展历史回顾 ........................................................................... 5
1.2.2 音频识别系统的基本原理 ................................................................................... 5
1.2.3 语音识别的意义 ................................................................................................... 6
1.3 项目的主要研究内容 ...................................................................................................... 6
1.4本文的主要章节安排 ......................................................................................................... 6
第二章 信号的预处理 ..................................................................................................................... 7
2.1 信号的预加重 .................................................................................................................... 7
2.2音频信号的加窗分帧 ......................................................................................................... 8
2.3音频信号的端点检测 ......................................................................................................... 9
2.3.1 音频信号的短时能量分析 ................................................................................... 9
2.3.2 音频信号的短时过零率分析 ............................................................................. 10
2.3.3 基于短时平均能量和短时平均过零率的双门限端点检测 ............................. 11
第三章 音频信号的特征矢量提取 ............................................................................................... 12
3.1 信号的倒谱分析 ............................................................................................................ 12
3.2 梅尔倒谱参数 ................................................................................................................ 13
第四章 基于BP神经网络的音频信号数据分类 ...................................................................... 18
4.1BP神经网络概述 .............................................................................................................. 18
4.1.1 BP神经网络 ............................................................................................................... 18
4.1.2 语音特征信号分类 ............................................................................................. 19
4.2BP 网络的MATLAB实现 ............................................................................................... 20
4.2.1 归一化方法及MATLAB实现 .......................................................................... 20
4.2.2 数据选择选择和归一化 ..................................................................................... 20
4.2.4 仿真结果分析 ..................................................................................................... 21
第五章利用SVM建立分类器来对语音特征信号进行分类预测 .............................................. 24
5.1svm技术简述 .................................................................................................................... 24
5.1.1 SVM的原理和优点 .............................................................................................. 24
5.1.2SVM技术在本案例中的应用 ............................................................................... 25
5.1.3实验的仿真结果与分析 ........................................................................................ 25
第六章 总结与展望 ....................................................................................................................... 28
致 谢 .............................................................................................................................................. 29
毕业设计小结 ................................................................................................................................. 30
参考文献......................................................................................................................................... 31
附录 ................................................................................................................................................ 32
附录1:相关文献的翻译 ...................................................................................................... 32
第一章 绪论
通过语音传递信息是人类最重要、最有效、最常用和方便的交换信息的形式。语音是人类特有的功能,声音是人类最常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想沟通和感情交流的途径。
1.1 语音信号处理发展前景
让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,以及计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。尤其是汉语,它的汉字输入一直是计算机应用普及的障碍,因此利用汉语语音进行人机交换是一个极其重要的研究课题。作为高科技应用领域的研究热点,语音信号处理技术从理论的研究到产品的开发已经走过了几十个春秋平且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游的行业的语音咨询与管理,工业生产部门的语音控制,电话-电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活志愿系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号处理技术的研究将是一项极具市场价值和挑战性的生活。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活当中,并不断朝向更高目标而努力。
语音信号处理这门学科之所以能够长期地、深深地吸引广大科学工作者不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科都有着非常密切的关系。对语音信号处理的研究一直是数字信号处理技术发展的重要推动力量。因为许多的处理的新方法的提出,首先是在语音处理中获得成功,然后在推广到其他领域的[2]。
1.2 语音识别技术概述
语音识别是指机器对人类说话的语句或命令进行识别和理解并做出相应的反应。它是涉及语言学、计算机科学、生理学等诸多领域的一门交叉学科。随着计算机软硬件和信息技术的飞速发展,以语音识别技术开发出的产品也广泛地应用于声控电话交换、信息网络查询、医疗服务、银行服务、工业控制等社会和人们生活的每个方面。
1.2.1 语音识别技术的发展历史回顾
对语音识别技术的研究距今已有半个多世纪的历史。1952 年,AT&Tbell 实验室的Davis 等人成功研制的Audry 系统标志着语音识别研究工作的开始。它是世界上第一个能识别十个英文数字发音的实验系统。进入20 世纪60 年代,计算机的应用推动了语音识别的发展。在这一时期产生了动态规划(DP,Dynamic Programming) 和线性预测分析技术(LP,Linear Prediction)两大重要理论,较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70 年代,语音识别领域取得了较大的突破。动态时间归正技术(DTW)基本成熟,有效地解决了语音信号特征提取和不等长语音匹配问题,同时还提出了矢量量化(VQ),隐马尔可夫模型(HMM)理论。80 年代语音识别研究进一步走向深入,各种连接词语音识别算法被开发,并从模板匹配技术转向基于统计模型技术,特别是在实践开发中成功应用了HMM 模型和人工神经网络(ANN)。1988 年Kai-FuLee 等用VQ/HMM 方法实现了997 个词汇的非特定人连续语音识别系统SPHINX,这是世界上第一个高性能的非特定人、大词汇量、连续语音识别系统。进入90 年代后,语音识别技术开始向市场提供产品。具代表性的是IBM 的Via Voice 和Dragon 公司的Dragon Dictate系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。进入21 世纪,语音识别的研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。而基于语音识别芯片的嵌入式产品也越来越多, 如Infineon 公司的Unispeech 和Unilite 语音芯片等。我国对语音识别的研究也较早。20 世纪50 年代后期,中科院声学所用频谱分析的方法研究了汉语10 个元音的语音识别;20 世纪70 年代后期,构建了基于模板匹配的孤立词语音识别系统;20 世纪80 年代后期,研究了八五期间中科院人机语音对话研究项目。目前我国语音识别技术的研究水平已经基本上与国际相当。如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识,其汉语连续语音、非特定人听写机系统的普通话系统的错误率可以控制在10%以内。
1.2.2 音频识别系统的基本原理
语音识别属于模式识别的范畴。根据模式识别的原理,未知语音的模式与己知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。语音识别系统的工作过程可以描述如下:待识别语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,包括反混叠失真滤波、预加重和端点检测从而将语音信号的特征被提取出来。常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。根据实际需要选择语音特征参数,这些特征参数的时间序列便构成了待识别语音的模式,将其与己经存储在计算机内的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练过程。
【浅谈机器的学习方法】相关文章:
浅谈韩语的学习方法09-12
浅谈韩语学习方法09-10
浅谈韩语语音的学习方法09-10
浅谈机器人技术的创新教育10-16
浅谈韩语的学习方法是什么09-10
浅谈工业机器人在物流行业的应用论文07-28
浅谈彩焰黑章鱼舞蹈机器人的软件设计论文08-19
浅谈七年级语文阅读教学的学习方法09-18
机器维修的合同范本10-23