荔园在线

荔园之美,在春之萌芽,在夏之绽放,在秋之收获,在冬之沉淀

[回到开始] [上一篇][下一篇]


发信人: goder (等待戈多), 信区: CET
标  题: 机器模式识别与人类的认识过程--途径
发信站: BBS 荔园晨风站 (Tue Jun 20 15:51:51 2000), 转信


三.模式识别的基本途径:

模式空间、特征空间和类型空间

从模式识别的技术途径来说,有模式空间经过特征空间到型空间是模式识别所经历
的过
程。为了说明这些概念,首先解释"物理上可以觉察到的世界"。在模式识别范畴内
,在
客观世界里存在这样一些物体和事件,它们在各自都能被适当选择的和足够多的函
数来
描述,或者说它们在物理上都是可测量的,它们的可测数据的集合就称为物理上可
以察
觉到的世界。显然,这些可测数据,或者说这个世界维数是无限多的。在认识过程
中,
这些可测数据就是客观事物的各种表象,认识就是从对事物表象的研究开始的。
在物理上可以觉察到的世界里,适当地选择某些物体和事件,我们把它们称为样本
,对
它们分别进行观测。如前所述,每个样本的观测数据的综合都构成模式,所有样本
观测
数据则构成模式空间。显然,模式空间的维数与所选择的样本和测量方法有关,也
与特
定的应用有关,一般说是很大的,但是有限值。在模式空间里,每个模式样本都是
一个
点,点的位置由该模式在各维上的测量数据来确定。由物理上可以觉察到的世界到
模式
空间所经历的过程称为模式采集。从认识的角度看,虽然事物具有无限多的现象,
但是
了解一个事物,并不需要把握所有的方面,而且人在某一特定历史时期的认识肯定
是有
限的,但这一样不妨碍人们对事物的逐步认识。

模式空间的维数虽然是有限的,还是非常多的,其中有些并不能有效地揭示样本的
实质
。正象人们多事物进行判断之前要进行综合分析一样,机器在作出判断前也要对模
式空
间里的各坐标元素进行综合分析,获取最能揭示样本属性的观测量作为主要特征,这些
主要特征就构成特征空间。显然,特征空间的维数大大压缩了。特征空间的每个坐
标都
是样本的主要特征。每个样本在特征空间里也是一个点,点的位置由该样本的各特
征值
来确定。由模式空间到特征空间所需要的综合分析,往往包含适当的变换和选择,
称为
特征提取和特征选择。认识论中提到只有抓住事物的主要矛盾,才可能认识一个事
物,
而从事物的各种特征中,提取出主要矛盾,无疑会给认识带来极大的便利。

由某些知识和经验可以确定分类准则,称之为判决规则。根据适当的判决规则,把
特征
空间里的样本区分成不同类型,从而把特征空间塑成了类型空间。类型空间里不同
类型
之间的分界面,常称为决策面。类型空间的维数与类型的数目相等,一般地说,小
于特
征空间的维数。由特征空间到类型空间所需要的操作是分类判决。认识的过程不是
简单
的客观到主观的机械复制,而是有具有主观能动性的,人的先验知识起了很大的作
用,
经过主观的加工分析,客观事物才会形成主观的类型。

从物理上可以觉察到的世界,通过模式空间、特征空间到类型空间,经历了模式采
集、
特征提取/选择及分类判决等完整的模式识别过程,可以用图1形象的表示出来。这
里需
要指出,为了完成如上过程,还需要先对机器进行训练,使机器具有识别能力。训
练过
程是非常重要的,一个毫无知识和经验的人,想要完成一个复杂的认识过程,显然
是非
常困难的。

图1(略)


预处理

在模式空间里,针对具体的研究对象,往往需要进行适当的预处理。预处理的功能
很多
,首先是消除或减少在模式采集中的噪声及其它干扰,提高信杂比;其次是消除或
减少
数据图象模糊(包括运动模糊)及几何失真,提高清晰度;还可以转变模式的结构,
例如
把非线性的模式转变成线性的模式,以有利于后续处理,如此等等,均需要适当的
预处
理操作。预处理的方法也很多,可根据需要选用滤波、变换、编码、标准化等,有
关的
内容在很多书籍中可以找到详细的论述。预处理包含的内容很多,总的说来,也可
以把
预处理归属于模式采集的范畴。对应人的认识过程,预处理的过程就是一个抽象的
过程
,把一些具体事物的具体方面,用一些可以量化的手段表示出来,并且摒弃一些可
能干
扰认识,不反映本质的表面现象。

特征提取/选择

人们针对客观世界里的具体物体或事件进行模式采集时,总是尽可能的多采集测量
数据
,致使样本在模式空间里的维数很大。模式维数很大首先带来的问题是处理的困难
,处
理时间的消耗和费用都会很大,有时直接用于分类甚至是不可能的,即所谓"维数
灾难"
。其次,在过多的数据坐标中,有的可能对刻划事物的本质贡献并不大,甚至可以
说非
常微小。这就提出了特征提取与特征选择的必要,就是要压缩模式的维数,使之便
于处
理,减少消耗。

特征提取往往以在分类中使用的某种判决规则为准则。所提取的特征是在某种准则
下的
分类错误最小。为此,需要考虑特征之间的统计关系,选用适当的正交变换,才能
提取
出最有效的特征。特征选择同样需要某种分类准则,在该准则下选择对分类贡献较
大的
特征,删除贡献甚微的那些特征。通过特征提取和选择,不但降低处理消耗,而且
使分
类错误比较小。主要矛盾与次要矛盾的判断,在认识过程中同样重要,过分考虑次
要矛
盾的影响,不仅造成精力的浪费,还会对正确的认识构成障碍;而不恰当的忽略所
谓"次
要矛盾",有可能遗漏了真正的主要矛盾,从而影响对事物的判断。这部分工作不
仅在认
识过程中起一个关键的作用,在模式识别中也是至关重要的。

分类
   我们知道,分类是把特征空间划分成类型空间。同时,分类还要把未知类别属
性的样
本确定为类型空间里的某一个类型;在给定的条件下,还可以否定样本属于某种类
型。
在一些实际过程中,对于预先给定的条件,被考虑别的类型属性常常具有相似性,
分类
中出现错误是不可避免的。因此,分类过程只能以某种错误率来完成。显然,分类
错误
率越小越好。但是,分类错误率又受很多条件的制约,例如,分类方法、分类器设
计和
选用的样本及提取的特征等等,均会影响分类效果。就是说,分类错误率不可能任
意小
。另外,分类错误率的分析和计算也是困难的课题,只有在较简单的情况下才有解
析的
解。所以,错误率就成为分类过程的重要问题,受到普遍关注,也成为研究的重点
课题
。人类在认识过程中也存在分类问题,对于新的知识新的知识,往往也是通过与老知识进行
对比
来获取的。认识的最终目的是为了指导实践,而对认识事物进行正确的分类正是正
确指
导实践的前提。

--
※ 来源:·BBS 荔园晨风站 bbs.szu.edu.cn·[FROM: 192.168.28.154]


[回到开始] [上一篇][下一篇]

荔园在线首页 友情链接:深圳大学 深大招生 荔园晨风BBS S-Term软件 网络书店