空间数据挖掘常用方法 - 数据库编程

量；另一方面，熵还反映了代表定性概念的云滴出现的随机性；此外，熵还揭示了模糊性和随机

性的关联性。熵可以用来代表一个定性概念的粒度。通常，熵越大，概念越宏观，模糊性和随机性也越大，确定性量化越难。

超熵He：超熵是熵的不确定性的度量，即熵的熵，反映了云滴的离散程度。超熵越大，云滴离散度越大，确定度的随机性越大，云的“厚度”也越大。

正态云是一种很典型的云模型，被应用于多种现实的模拟，十分具有代表性，因此，一下着重介绍一下与模型的建立方法。

正态云模型既不是一个确定的概率密度函数，也不是一条明晰的隶属函数曲线，而是由两次串接的正态发生器[5]生成的许多云滴组成的、一对多的泛正态数学映射图像，是一朵可伸缩、无确定边沿、有弹性的云图，完成定性和定量之间的相互映射。正态云模型的期望曲线是一个正态型曲线。当正态云模型概念对应的论域为一维时，定性定量的不确定性转换通过正态云发生器算法实现。具体算法如下：

输入：表示定性概念? 的3 个数字特征值Ex，En，He，云滴数N。

输出：N 个云滴的定量值，以及每个云滴代表概念? 的确定度。

Step1：生成以En 为期望值，He 为标准差的一个正态随机数E′n；

Step2：生成以Ex 为期望值，abs（E′n）为标准差的正态随机数x；

Step3：令x 为定性概念? 的一次具体量化值，称为云滴；

Step4：计算y=exp(-(x-Ex)2/2(E′n)2)；

Step5：令y 为x 属于定性概念? 的确定度；

Step6：{x，y}完整地反映了这一次定性定量转换的全部内容；

Step7：重复Step1~Step6，直到产生N 个云滴。

用该算法生成的云自然地具有不均匀厚度的特性，云的腰部、顶部、底部等并不需要精确地定义，三个数字特征值足以很好地描述整个云的形态。

云模型的应用相当广泛，下面仅就其在军事中的一个应用做一描述。在《基于正态云模型的方法求解目标可能位置域》这篇论文当中，作者利用云模型模拟目标可能出现的位置，通过一系列计算，确定一个区域，从而为鱼雷发射提供数据支持。

潜艇使用导弹攻击对方水面舰艇已经成为越来越重要的作战方式。由于潜艇对隐蔽性的要求，攻击前很难实时获得友方兵力的目标指示通报，因此需要根据此前某一时刻通报的目标位置、速度、航向推测出当前的目标可能位置。

模型中已知的前提条件：1．发现目标时刻；2．时刻目标概略中心位置和误差分布椭圆的方向、半轴和；3．时刻目标速度V、航向H 及其标准偏差，。模型运行的目的是求出时刻T 时的目标概略中心位置( ， )以及误差分布椭圆的方向、半轴和。

确定目标可能位置域模型的建模思路：按模型中的前提条件，产生M 个时刻目标随机位置点；对这M 个点中的任一个点，按照目标速度、航向误差分别取N1、N2 个随机速度、航向，在时刻T时产生N1×N2 个随机位置点。这样最终产生M×N1×N2 个随机位置点。最后对M×N1×N2 个随机位置点进行数据分析得T 时刻的目标位置概率椭圆。该椭圆就是鱼雷发射的目标区域。

问题2：论述数据挖掘与空间数据挖掘的异同点。

答：数据挖掘(Data Mining)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点：数据挖掘就是从存放在数据库，数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘，又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

知识发现过程以下步骤组成：（1）数据清理，（2）数据集成，（3）数据选择，（4）数据变换，（5）数据挖掘，（6）模式评估，（7）知识表示。数据挖掘可以与用户或知识库交互。

空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系，并发现其中有用的特征和模式的理论、方法和技术。空间数据挖掘和知识发现的过程大致可分为以下多个步骤:数据准备、数据选择、数据预处理、数据缩减或者数据变换、确定数据挖掘目标、确定知识发现算法、数据挖掘、模式解释、知识评价等，而数据挖掘只是其中的一个关键步骤。但是为了简便，人们常常用空间数据挖掘来代替空间数据挖掘和知识发现。空间数据挖掘（Spatial Data Mining， SDM）是数据挖掘的一个分支，是在空间数据库的基础上，综合利用各种技术方法，从大量的空间数据中自动挖掘事先未知的且潜在有用的知识，提取出非显式存在的空间关系或其它有意义的模式等，揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势，实现知识的自动获取，从而提供技术决策与经营决策的依据。数据挖掘所能发现的知识最常见的有以下五种类型：广义知识、关联知识、分类知识、聚类知识和预测型知识。而要发现这些知识就需要运用相应空间数据挖掘方法。

综上所述，二者之间的共同点是：

1. 都是基于已经获得的数据，无论是存储在数据库，数据仓库，或者是文件当中的数据进行分析；

2. 都是从大量的信息当中，通过数据间的内在联系提取出操作者感兴趣的数据；

3. 提取出的数据都是非显式存储的，或者说是隐藏在原有数据当中的；

4. 空间数据挖掘是数据挖掘技术的一个重要分支和发展；

5. 二者均以统计学为数学基础。

另外二者的不同之处在于：

1. 传统数据挖掘处理的是数字和类别，而空间数据则是一些更为复杂的数据类型，例如：点、线、多边形等对象；

2. 传统数据挖掘通常具有显式的输入，而空间数据挖掘的输入则常常是隐式的；

3. 在传统数据挖掘中，有一个至关重要的前提假设，即数据样品是独立生成的，而这一假设在空间分析中是不成立的，事实上，空间数据之间是高度自关联的。

4. 数据源十分丰富,数据量非常庞大,数据类型多,存取方法复杂；

5. 应用领域十分广泛,只要与空间位置相关的数据,都可以对其进行挖掘；

6. 挖掘方法和算法非常多,而且大多数算法比较复杂,难度大；

7.知识的表达方式多样,对知识的理解和评价依赖于人对客观世界的认知程度。

空间数据挖掘常用方法(三)