灰推广的数据挖掘潜力：从复杂数据中提取有意义的见解

信途科技新闻资讯 2024-09-22 8 0

灰推广的数据挖掘潜力：从复杂数据中提取有意义的见解引言在当今数据驱动的世界中，企业拥有大量的数据，它们可以成为宝贵的资产，帮助企业做出数据驱动的决策并获得竞争优势。这些数据往往是复杂且杂乱的，如果没有适当的工具和技术，很难从这些数据中提取有意义的见解。灰推广提供了一种强大的数据挖掘技术，可以有效地从复杂数据中提取有意义的见解。灰推广简介灰推广是一种基于灰色系统理论的数据挖掘技术。灰色系统理论处理不确定、动态和部分已知的系统。它通过建立灰色模型来提取数据的内在规律和趋势。数据挖掘潜力灰推广在数据挖掘中具有以下潜力：发现隐藏的模式和趋势：灰推广能够检测复杂数据中隐藏的模式和趋势，即使这些模式和趋势不明显。识别关键因素：灰推广可以确定影响目标变量的關鍵因素，从而帮助企业关注最重要的驱动因素。预测未来值：灰推广模型可以用于预测未来值，使企业能够做出明智的预测并计划其未来策略。异常检测：灰推广可以检测出数据集中的异常值或异常情况，帮助企业识别潜在的问题和机会。应用领域灰推广已被成功应用于广泛的领域，包括：金融：预测股票价格、汇率和经济指标制造：预测生产需求、优化供应链和检测质量问题医疗：预测疾病进展、识别高危患者和优化治疗零售：预测客户需求、优化定价策略和评估市场趋势教育：预测学生成绩、评估教学方法和优化课程表步骤使用灰推广进行数据挖掘涉及以下步骤：1. 数据预处理：准备数据并消除噪声和异常值。 2. 灰色模型建立：根据数据建立灰色模型，捕捉数据的内在规律和趋势。 3. 参数优化：优化灰色模型参数，以提高预测精度。 4. 结果解释：解释灰色模型的结果并提取有意义的见解。优势灰推广数据挖掘的优势包括：处理不确定性：灰推广可处理不确定性和部分已知数据，这在现实世界的数据中很常见。鲁棒性：灰色模型对数据噪声和异常值具有鲁棒性，从而确保准确的预测。计算效率：灰推广算法计算效率高，即使处理大型数据集也能快速获得结果。易于解释：灰推广模型通常易于解释，使非技术人员也能理解结果。局限性灰推广数据挖掘也有一些局限性：数据要求：灰推广模型需要一定数量的数据才能产生可靠的结果。超参数选择：灰色模型参数的优化需要仔细选择和调整，可能需要专业知识。处理非线性数据：灰推广主要适用于线性数据，处理非线性数据的能力有限。结论灰推广是一种强大的数据挖掘技术，可以从复杂数据中提取有意义的见解。它在处理不确定性、识别关键因素、预测未来值和异常检测方面具有巨大的潜力。虽然它有一些局限性，但其优势往往超过了这些局限性，使其成为企业从数据中获得竞争优势的宝贵工具。

如何提取遥感图像中的地质信息?

地质信息遥感图像增强处理目的是通过选择合理的图像处理方法，改善图像的视觉效果，突出遥感地质调查所需要的有用信息。

4.3.1 常用的图像增强处理方法

在遥感地质应用方面，图像增强处理方法按照主要增强的信息内容可分为波(光)谱特征增强和空间特征增强两大类。

4.3.1.1 图像波(光)谱特征增强处理

图像波(光)谱特征增强处理是基于多波段数据，对每个像元的灰度进行变换达到图像增强的目的。其图像增强结果便于识别不同性质的地质体、岩石类型、地质异常(如蚀变带、热异常等)、规模较大的线性和圆形构造。

(1)灰度变换方法

当原始图像的直方图比较窄，灰度分布较集中，图像层次较少时，进行灰度变换是最基本的要求。对于灰度接近正态分布的图像通常进行线性拉伸就可达到改善图像视觉效果的目的。对于直方图呈多峰状、部分地物过亮或过暗的图像，应针对图像的特点采用不同的灰度变换方法，包括分段线性拉伸、直方图调整和高斯变换等非线性拉伸等。

分段线性拉伸是为了有效利用有限个灰度级，将整个灰度范围划分为几个区间，分区间进行线性扩展，达到最大限度增强图像中有用信息的目的。常用的非线性变换有指数变换法(增强原始图像的高亮度值部分)、对数变换法(增强图像的低亮度值部分)、高斯变换(增强图像中间灰度范围)及正切变换(可对图像的暗、亮区进行增强)。

直方图调整是通过改善图像的直方图形态来达到图像增强的目的。其原理是用一种变换函数作用于原始图像的直方图，使之变成具有某种特定亮度分布形态的直方图。这种方法着重于扩展高频数亮度值之间的间隔，使直方图中部所包含的地物反差得到增强，有利于地质体的区分。常用的直方图调整方法有直方图均衡化和直方图正态化等。

(2)比值增强

比值增强是通过不同波段的同名像元亮度值之间的除法运算，生成新的比值图像来实现的。比值处理对地质信息尤为敏感，成为遥感地质图像处理中广为应用的方法之一。其基本作用为:

1)可以扩大岩石和土壤的波谱差异，有利于这些地物的区分。

2)消除或减弱地形等环境因素对同类岩性的影响。

3)提取与矿化蚀变有关的信息。

4)比值彩色合成图像能够增强岩性和蚀变岩信息。

(3)主成分变换

主成分变换是多波段遥感图像增强常用的一种方法。它是一种基于图像统计特征的多维正交线性变换，变换后的新组分图像反映了地物总的辐射差异和某些波谱特征，同时还具有分离信息、减少相关、突出不同地物的作用。利用不同新组分图像进行彩色合成，可显著提高彩色增强效果，有助于岩性的区分。在实际应用中，也常用比值或差值图像与原始图像一起进行主成分变换，会有利于某些专题信息的提取。

(4)IHS变换

在色度学中，把彩色图像的RGB变换成亮度(I)、色度(H)、饱和度(S)称为IHS变换，而IHS变换成RGB称为反变换。利用IHS变换和反变换，可以进行多源遥感图像之间的信息融合、高度相关图像数据的色彩增强、图像的特征增强，以及改善图像空间分辨率等融合处理。如图4.1所示，对研究区内的环形构造、岩体和地层都起到了一定的增强作用。

图4.1 新疆瓦石峡地区图像增强处理对比

4.3.1.2 图像空间增强

图像空间增强处理是利用像元自身及其周围像元的灰度值进行运算，达到增强整个图像之目的。其图像增强结果主要突出地质体的空间形态、边缘、线条及结构特征等。如地质构造、线性体及地貌形态等。常用的图像增强方法有数据融合和卷积增强等。

(1)数据融合

主要有IHS融合法、Brovey法和三维反差增强融合法。 IHS融合法的关键是根据输入图像的光谱情况和地面的覆盖情况来选择正变换和反变换公式;Brovey法是通过选择三个归一化后的低分辨率波段图像与高分辨率图像乘积来增强图像信息，该方法优点在于锐化图像的同时能够保持原多光谱信息，对于山地、水体、植被等地物增强效果好;基于三维反差增强的融合法是扩大同名点像元在三个低分辨率合成波段上的灰度差异，同时要求增强后的图像同名点像元在三个波段的灰度值相对大小关系不变，三个波段的灰度值之和不变。对高分辨率图像要进行灰度线性拉伸、纹理能量增强和细化处理。该方法扩大了地物间的色彩差异，减少了相关性，可以对融合图像的锐度、灰度、色彩等空间信息分离并进行动态跟踪处理，直到取得满意效果为止。如图4.2所示，图4.2(a)为SPOT原始图像，图4.2(b)为SPOT数据与TM多光谱数据的融合结果，提高了遥感解译的可靠性。

图4.2 SPOT图像融合处理

(2)卷积增强

地物的边界及各种线性形迹，通常都表现有一定的空间分布频率，可以通过空间域或频率域的滤波对它们进行增强。卷积处理就是比较简单有效而最常用的空间滤波方法之一。卷积增强是一种邻域处理技术，它是通过一定尺寸的模板对原图像进行卷积运算来实现的。增强不同方向的边界(或线性体)，可按一定的排列方向来分配模板中各元素的权系数，改变模板尺寸和板内元的差值可产生不同的效果。一般模板越大，差值越大，对低频的粗大构造形迹增强越明显，而高频信息(小断层、节理裂隙)增强的幅度越小。卷积增强对于突出某一方向的地质体边界和线性断裂构造或形迹具有明显的效果，对一些环形构造或线迹也会起到增强作用，因此，在遥感地质图像处理中被广泛使用。

上述处理方法在岩性地层、构造信息提取中具有广泛的应用。在实际应用中，可根据不同的地质地理条件与图像特点，采取组合多样，手段灵活的方式进行图像增强处理。

4.3.2 特征信息增强处理方法

4.3.2.1 岩性信息增强处理

岩性信息增强处理的目的是通过特征图像处理方法的选择来实现岩石类型或类型组合的提取。其应用原理主要依据不同性质的岩石因其矿物成分、结构构造、岩石表面结构、覆盖物成分、含水性，以及地域环境上的差异等，通过多波段遥感数据上所反映的波谱和纹理信息规律来实现的。

(1)波段组合变换方法

对于遥感多波段图像和经过空间配准的同一地区的不同传感器获取的多幅单波段遥感图像，通过进行一系列的组合代数运算，从而达到增强岩性信息的目的。以TM图像数据举例说明:

1)用TM3、2、1，TM4、3、1，TM5、4、3和TM7、4、1等彩色合成图像可识别花岗岩带、接触变质带和区域变质岩之间的岩性界线。如图4.3所示，其中，图4.3(a)的TM5、4、3彩色合成图像，对区内的地层岩性的分布特征起到明显的增强作用;图4.3(b)的TM7、4、1彩色合成图像，突出了白云岩岩性特征信息。

2)用TM5/TM1、TM4/TM2、TM5/TM7波段组合进行彩色合成，可增强和识别碳酸盐岩和黏土矿化信息。如图4.3(c)所示，增强了白云岩地质界线。

3)用TM4×TM4/(TM4+TM5+TM7)、TM4×TM5/(TM4+TM5+TM7)、TM4×TM7/(TM4+TM5+TM7)进行彩色合成，可增强不同岩性之间的影纹变化、消减地形起伏引起的阴阳坡亮度值差异，提高岩性的细部反差。图4.4(a)和图4.4(b)均增强了某一岩性段的分布特征信息。

4)用TM5/TM1、(TM5×TM7)/(TM1×TM2)、(TM7－TM1)/(TM3+TM4)彩色合成图像可增强第四纪地层、地表铁离子的变化信息，突出岩石的纹理结构。如图4.5所示，与图4.5(a)相比，图4.5(b)对提取区内地层、岩体的变化信息，以及区分主要岩石类型、突出环形构造方面起到明显的应用效果。

(2)光谱剖面法

当研究区岩石、地层与背景之间在光谱上是可分的，即与背景之间存在着较少的同谱现象，可以借助于光谱剖面知识进行岩性专题信息提取，主要步骤为:

1)对典型地物如裸露岩石、地层、雪、阴影等进行光谱采样，提取光谱剖面曲线，从中发现不同岩性类型的光谱差异。

2)通过波谱间变化关系，分别对特征岩性建立基于光谱知识的提取模型。

3)按照建立的模型提取裸露岩石、地层信息。

4)当不同岩石、地层内部成分的光谱与背景之间存在着较多同谱现象时，需借助于地物的其他知识进行提取。

图4.3 新疆瓦石峡地区不同波段彩色合成图像对比

图4.4 多波段相关性比值增强处理对比

图4.5 图像增强处理对比

(3)基于地物纹理的岩性识别

当岩性组成复杂，且分布尺度大于传感器的空间分辨率时，遥感图像就可能记录到地物的结构组成信息，其影像就存在着明显的纹理特征。当存在着有别于背景地物的纹理结构特征时，就可利用地物的光谱特征与纹理特征提取岩性信息。利用纹理识别岩性的方法步骤如下。

1)选择一定大小的移动窗口，计算不同地物的纹理特征，对待研究岩石类型的纹理特征与周围地物的纹理特征进行比较分析。主要纹理特征计算有:对数变差函数、平均欧式距法(一阶)、方差法(二阶)、斜度(三阶)、峰度(四阶)和共生矩阵法。从灰度共生矩阵中可以产生8种纹理测度，它们分别是局部平稳、对比度、相异性测度、均值测度、标准差、熵、角二阶矩及相关等。

2)分析研究岩石裸露区和背景地物之间的纹理指数和图像，寻找岩石类型与纹理特征的关联规律，采用合适的阈值，识别和提取岩石信息。

(4)基于形状知识识别岩性信息

1)增强地物之间的边界，提取出边界信息。进行形状指数的计算。主要测定基于周长和面积的指数、基于面积的指数以及基于面积和区域长度的指数。

2)根据岩石的形状知识指数值，对不同形状指数的岩性进行定性定位识别和提取，结合不同岩性的形状特征赋予一定的地质属性信息。

(5)主成分变换多层次信息分析识别岩性信息

基于主成分分析的多层次信息分解技术是增强地质岩性弱信息的一种常用方法，在岩性增强和识别中的实施过程如下。

1)多波段图像的统计特征分析。对多波段图像数据进行统计特征分析，计算波谱图像的灰度动态范围、均值与中值、波段图像的相关系数矩阵、波段图像的协方差阵。

2)求出多波段图像的协方差阵的特征值与特征向量，用特征向量构成KL变换的系数矩阵A。

3)主成分变换后处理。根据岩性识别目的和各主分量与矩阵向量间的关系分析，选择包含特定岩性信息的组分图像、包含专题信息组分图像的增强处理、组分图像的彩色合成处理以及组分图像与其他处理结果或波段图像的信息复合分析。

4)根据各主分量的分析结果，对主分量图像的各种后处理结果与单元结果对照进行影像目视解译，确定能够较好反映工作区岩性信息的主分量图像，选取它们做彩色合成或信息复合，增强影像上的地质岩性弱信息。

(6)IHS变换法增强岩性信息

对多波段图像选择适当的代数运算后所产生的新图像进行IHS变换，可起到突出岩性的目的。例如，利用TM波段比值进行IHS变换，可以识别火山岩地区的岩性和与矿化有关的蚀变特征。

1)用TM5/TM7，TM3/TM4，TM3/TM2比值分别赋红、绿、蓝进行IHS变换。

2)在变换处理后的图像上，Fe O 含量高的玄武岩分布区呈醒目的褐色或红色色调，不同岩性的火山岩类有不同的色调，可以相互区分;含黏土类矿物和三价铁氧化物的矿化蚀变岩石分布区呈独特的黄色。

(7)对遥感图像进行最优多级密度分割提取岩性信息

目的是在植被稀少、基岩广泛裸露的干旱地区通过选择最佳遥感识别图像，通过最优多级密度分割，提取和识别岩石信息。

1)利用费歇尔准则对图像进行密度分割，通过直方图统计，找到使各分割段的段内离差总和最小、段间离差总和最大的分割法，称为图像的最优多级密度分割法。

2)对分割图像按灰度级由高到低分别赋以不同的颜色，对照区域地质图确定不同颜色的地质岩性属性信息。

(8)岩性的自动分类识别

在干旱、半干旱地区，利用遥感图像的光谱信息，使用非监督分类方法，可起到岩性自动识别和填图的目的。

以TM或ETM 数据为例，说明非监督分类方法主要实施过程:

1)从TM或ETM 多波段图像中选择3个三波段组合，使波段间相关性小且重复利用的波段最少。

2)对所有波段组图像用均衡反差增强技术进行反差增强，以优化每个波段的反差，消除彩色合成中可能出现的色彩偏差。

3)对每个三波段组合用RGB-IHS变换产生一个色度图像，然后分别进行合成，产生色度合成图像。

4)用三维特征空间交互集群技术对色度合成图像进行非监督集群分类。

5)用模板直方图匹配分类技术对分类图像进行空间再分类，以检测感兴趣类的结构和模式。

6)对分类图像用空间滤波法和小类别合并技术进行平滑处理和空间简化处理。

7)根据野外检查与类别的波谱曲线形态，参照地质图，将类别赋以岩性或按其他地物类型术语进行识别和描述。

8)进行交互式类别编辑。用类别区域编辑法将代表不同地带的不同岩性按位置进行分解，用类别分组法将相同岩性或地物类型一致的类别归入一组。

9)用边缘检测技术，检测地物类别边缘。

10)对调整后的分类图像进行交互式着色，并将反映地形背景的强度图像叠加到岩性分类图中，形成岩性影像图。

(9)基于岩块分类的岩石类型识别

适用于干旱、半干旱基岩裸露区岩石类的识别。以TM数据为例具体说明主要实施过程:

1)对TM图像进行地形校正，生成数字视反射率图像R 、R 、R 、R 、R 、R 。

2)用TM6与R ～R 进行空间集群法非监督分类，编制平面分类图。

3)用TM6与R ～R 数据进行监督分类，首先用已知样本作为训练区，训练区样本为厚层单岩性岩块、简单岩性组合岩块，复杂岩性组合岩块和标志性薄层岩块，然后逐个像元提取同类目标并编制平面图。

4)对分类图像中的各类别进行均值、最小、最大值，标准差、协方差等参量统计。

5)进行纹理分析及分类，编制纹理类型平面图。

6)对非监督分类、监督分类及纹理分类平面图进行叠合，通过人机交互目视解译归并整理，编制岩石遥感类型平面图。

7)岩石填图。将已知岩石属性信息填绘于同类的空白区域中，未知空白区域待野外检查确定岩性属性后填入。

(10)用高光谱资料来识别岩性

利用成像光谱资料，定量检测岩石和单种或多种矿物的波谱特征，提取和识别岩性和矿物信息，编制专题岩性和矿物图件。主要实施方法是:

1)确定工作区岩性和矿物的一些标志性波谱特征。

2)利用高光谱成像数据提取地物的波谱曲线，与岩石的野外光谱曲线和某些标志性矿物的实验室实测典型曲线对比，半定量地确定岩性和标志性矿物的存在。

3)通过岩性和标志性矿物的检测，达到找矿和编制岩性分布图的目的。

4.3.2.2 断裂构造及地质界线图像增强处理

主要利用空间滤波、自动线性提取等方法增强或提取断裂构造信息。

(1)空间方向滤波方法

对原始图像进行方向滤波，突出某一方向的纹理信息，增强地质体的空间结构。

1)按其所需要的方向信息确定滤波算子见表4.1。

2)对多波段图像进行主成分变换，利用定向滤波法对第一主分量图像进行边缘梯度增强。

3)增强图像的局部边缘梯度，压制整个图像的反差，再结合一些平滑处理方法对构造蚀变带和环形构造进行增强。

4)图像反差扩展。采用拉伸、直方图变换、比值、滤波等，突出图像中的线、边缘、纹理结构特征，增强岩性、线形构造和环形构造影像特征。

5)高通滤波增强空间频率高的地表形迹，提取几十到几百米的线性体(如节理、裂隙和断裂等一些地质构造形迹);低通滤波增强空间频率低的地表形迹，提取延伸长、规模大的断裂带和蚀变带等地质形迹。

6)用高斯卷积滤波突出地质体边界轮廓细节，区分纹理差异大的岩体。

(2)傅里叶功率谱纹理增强法

1)取一定大小的窗口图像，分别作行、列傅氏变换。

2)求功率谱矩阵，作对数变换。

3)计算纹理测度，形成纹理图像。

4)纹理图像解译，提取线性体信息和岩性地质界线。

(3)图像纹理统计法

通过纹理特征变化推测断裂活动的差异、岩石成分的变化等，圈定活动断裂带范围，解释断裂活动方式。

(4)线、环状影像特征法

1)对图像进行高通滤波和线状影像增强

2)从22.5°～67.5°、67.5°～112.5°、292.5°～337.5°及337.5°～22.5°四个方向进行方向滤波。

3)计算单位面积(2.5km×2.5km)线状影像密度及等密度图。

4)对线、环状影像平面图进行目视分析，筛除非地质边缘点，并进行叠合与归并，划分线状影像区、带和等级，环状影像之间的空间结构及其组合关系。

5)进行线、环状影像地质属性解译。

(5)线性体自动提取法

1)采用定向滤波法对多波段图像的KL变换第一分量进行边缘梯度增强。

2)对梯度图像进行二值化处理，提取边缘点图像。

3)人机交互去掉干扰和孤立的边缘点。

4)利用Hough变换进行线性体的连接和统计，输出线性体分布图和密度图。

5)线性构造提取与地质分析。

(6)图像亮温法

选择适当季节和时间的热红外遥感图像，以热红外波段图像的亮温分布的极值线为标志，提取构造信息。

(7)多重主成分分析方法

首先应用各种方法，包括一般主成分分析、选择主成分分析(特征主成分选择)、波段比值等，尽可能提取图像中较弱的地质构造信息，然后提取显示最好或较好的专题信息，进行二次处理。处理方法包括两种:一是进行不同的彩色组合或叠加，以突出专题信息;二是选取对专题信息提取最有利的结果和原始波段再次进行主成分分析，进行地质信息的二次提取和增强。

(8)基于融合处理的构造信息提取方法

不同传感器获取同一地区的图像，由于其波长范围不同、几何特性不同、分辨率不同等因素而具有不同的应用特点，基于不同传感器图像的融合处理，可以综合不同传感器图像的优点，提高对构造信息的识别能力。下面以TM和SAR图像融合处理为例进行说明。

1)首先，对SAR图像滤波，进行噪声消除。

2)其次，把单波段SAR图像和多光谱TM图像进行几何配准和融合，TM3、4、5进行IHS变换，用滤波后的SAR图像代替I分量，做IHS反变换，再用TM3、4、5与SAR图像作主成分变换，最后将IHS反变换得到的G分量、TM4波段和主成分变换的第一主分量图像进行彩色合成，作为地质解译图像。

3)融合后的图像可以直观地提取断裂构造信息，利用SAR图像一定的穿透性，可以提取隐伏断裂构造信息。

4.3.2.3 区域地质稳定性的综合处理与遥感信息的辅助提取

1)获取多时相多平台遥感卫星数据，收集地面控制点数据和区域地质环境资料。

2)进行图像几何精校正和配准处理。首先，对地形图进行高精度扫描，形成数字图像;然后，对数字地形图进行投影变换、配准和镶嵌，进行区域图像的合成与镶嵌;最后，建立地质活动区域的DEM和三维地形地貌可视化影像。

进行人机交互解译。以精校正的数字卫星图像为基础，一方面进行增强构造活动带、滑坡及其发育环境信息的各种图像处理;一方面进行目视解译，确定区域地质稳定性信息，在计算机上定位，划分边界、制作图形。获取遥感解译信息，综合其他环境资料和综合处理进行分析、比较和修改。

4.3.2.4 隐伏地质信息提取与增强

利用重磁资料与不同类型的遥感图像复合处理技术提取隐伏地质信息。

1)利用重磁网格数据和三维欧拉反褶积方法确定地下构造位置(边界)和深度。

2)利用遥感图像解译地表的构造特征，将重磁数据提取的相应位置的构造信息叠加到遥感构造图像上，把不同深度的构造在图像上分别表现出来，利用图像上构造的不同深度信息，辅助进行隐伏地质体和构造带信息提取。

4.3.3 遥感地质信息自动提取方法

计算机自动信息提取的目的是把地质专家用于目视解译的知识定量化表达，从根本上实现知识参与的自动提取。现有的计算机自动信息提取方法主要包括:光谱特征模型法、计算机自动分类法和基于空间数据挖掘与知识发现信息提取方法。

4.3.3.1 光谱特征模型法

一般利用统计回归建立一个遥感信息模型，根据具体图像的实际情况不断对模型参数进行调整，最终使模型适用于该影像。遥感信息模型是在现有地面实验基础上提炼出来的地物的反演模型，由于图像数据影响因素很多，因此地物在卫星图像上的反映并非与地面实测数据一一对应，把遥感信息理论和实际图幅影像有效结合在一起来进行专题信息自动提取，应用范围和精度都很有限。岩石地层单元建模技术就是一种光谱特征模型法。具体步骤如下。

1)把一些具有特殊影像特征的矿源层、赋矿地层以及诸如含多元素黑色炭质页岩、蛇绿岩带、混杂岩带和超基性岩体等岩石地层作为一种基本单元，它们的多波段遥感像元灰度值是波段的函数，不同单元具有不同的函数曲线。

2)对有一定地质意义的单元进行光谱特征统计，确定特定单元在各波段的亮度范围和同一单元类别在多维空间的聚集性。

3)根据单元类别的变差参数(均值和标准差)，建立基于遥感图像亮度值区间的岩石地层单元模型，输入的阈值参数和多波段遥感数据，自动提取岩石地层单元信息。

4.3.3.2 分类方法

在遥感信息自动提取方面，分类方法占有重要地位。其核心是对遥感图像进行自动分割。现有的计算机自动分类方法，主要利用的是遥感图像数据，虽然有时可以自动加入其他方面的地学知识，但远没有充分利用人脑在分析图像时所应用的知识，因此很难达到很高的精度。利用分类方法进行岩性自动填图是遥感图像处理中最复杂、最难的一个问题，而对于像植被、水体、土地和冰雪等一些大面积分布均匀的特定目标信息的提取，自动分类可起到良好的应用目的。

4.3.3.3 基于数据挖掘和知识发现技术

基于数据挖掘和知识发现技术理论的遥感专题信息自动提取，其基本内容包括知识的发现、应用知识建立提取模型，利用遥感数据和模型提取遥感专题信息。在知识发现方面包括从单一遥感图像上发现有关地物的光谱特征知识、空间结构与形态知识、地物之间的空间关系知识;从多时相遥感图像中，除了可发现以上知识外，还可以进一步发现地物的动态变化过程知识;从GIS数据库中发现各种相关知识。利用所发现的某种知识、某些知识或所有知识建立相应的遥感专题信息提取模型，利用遥感数据实现从单知识、单模型的应用到多知识、多模型的集成应用，从单数据的使用到多数据的综合使用的自动信息提取。

态势感知，懂的人不用解释，现在对于态势感知更多的是信息网络的安全态势感知，

大数据时代，除在信息网络的安全方面外，在无人机、无人驾驶、气象分析、军事、交通轨道等等方面，态势感知的应用研究日益广泛和必要！一般来说，态势感知在大规模系统环境中，对能够引起系统状态发生变化的安全要素进行获取、理解、显示以及预测未来的发展趋势。联合作战、网络中心战的提出,推动了态势感知的产生和不断发展,作为实现态势感知的重要平台和物质基础,态势图对数据和信息复杂的需求和特性构成了突出的大数据问题.从大数据的高度思考,解决态势感知面临的信息处理难题,是研究联合作战态势感知的重要方法.通过分析联合作战态势感知的数据类型、结构和特点,得出态势感知面临着大数据挑战的结论.初步探讨了可能需要解决的问题和前沿信息技术的应用需求,最后对关键数据和信息处理技术进行了研究.该研究对于“大数据”在军事信息处理和数据化决策等领域的研究具有重要探索价值。相关参考（摘录网上）：1 引言随着计算机和通信技术的迅速发展，计算机网络的应用越来越广泛，其规模越来越庞大，多层面的网络安全威胁和安全风险也在不断增加，网络病毒、 Dos/DDos攻击等构成的威胁和损失越来越大，网络攻击行为向着分布化、规模化、复杂化等趋势发展，仅仅依靠防火墙、入侵检测、防病毒、访问控制等单一的网络安全防护技术，已不能满足网络安全的需求，迫切需要新的技术，及时发现网络中的异常事件，实时掌握网络安全状况，将之前很多时候亡羊补牢的事中、事后处理，转向事前自动评估预测，降低网络安全风险，提高网络安全防护能力。网络安全态势感知技术能够综合各方面的安全因素，从整体上动态反映网络安全状况，并对网络安全的发展趋势进行预测和预警。大数据技术特有的海量存储、并行计算、高效查询等特点，为大规模网络安全态势感知技术的突破创造了机遇，借助大数据分析，对成千上万的网络日志等信息进行自动分析处理与深度挖掘，对网络的安全状态进行分析评价，感知网络中的异常事件与整体安全态势。 2 网络安全态势相关概念2.1 网络态势感知态势感知（Situation Awareness， SA）的概念是1988年Endsley提出的，态势感知是在一定时间和空间内对环境因素的获取，理解和对未来短期的预测。整个态势感知过程可由图1所示的三级模型直观地表示出来。所谓网络态势是指由各种网络设备运行状况、网络行为以及用户行为等因素所构成的整个网络当前状态和变化趋势。网络态势感知（Cyberspace Situation Awareness，CSA）是1999年Tim Bass首次提出的，网络态势感知是在大规模网络环境中，对能够引起网络态势发生变化的安全要素进行获取、理解、显示以及预测最近的发展趋势。态势是一种状态、一种趋势，是整体和全局的概念，任何单一的情况或状态都不能称之为态势。因此对态势的理解特别强调环境性、动态性和整体性，环境性是指态势感知的应用环境是在一个较大的范围内具有一定规模的网络；动态性是态势随时间不断变化，态势信息不仅包括过去和当前的状态，还要对未来的趋势做出预测；整体性是态势各实体间相互关系的体现，某些网络实体状态发生变化，会影响到其他网络实体的状态，进而影响整个网络的态势。 2.2 网络安全态势感知网络安全态势感知就是利用数据融合、数据挖掘、智能分析和可视化等技术，直观显示网络环境的实时安全状况，为网络安全提供保障。借助网络安全态势感知，网络监管人员可以及时了解网络的状态、受攻击情况、攻击来源以及哪些服务易受到攻击等情况，对发起攻击的网络采取措施；网络用户可以清楚地掌握所在网络的安全状态和趋势，做好相应的防范准备，避免和减少网络中病毒和恶意攻击带来的损失；应急响应组织也可以从网络安全态势中了解所服务网络的安全状况和发展趋势，为制定有预见性的应急预案提供基础。 3 网络安全态势感知相关技术对于大规模网络而言，一方面网络节点众多、分支复杂、数据流量大，存在多种异构网络环境和应用平台；另一方面网络攻击技术和手段呈平台化、集成化和自动化的发展趋势，网络攻击具有更强的隐蔽性和更长的潜伏时间，网络威胁不断增多且造成的损失不断增大。为了实时、准确地显示整个网络安全态势状况，检测出潜在、恶意的攻击行为，网络安全态势感知要在对网络资源进行要素采集的基础上，通过数据预处理、网络安全态势特征提取、态势评估、态势预测和态势展示等过程来完成，这其中涉及许多相关的技术问题，主要包括数据融合技术、数据挖掘技术、特征提取技术、态势预测技术和可视化技术等。 3.1 数据融合技术由于网络空间态势感知的数据来自众多的网络设备，其数据格式、数据内容、数据质量千差万别，存储形式各异，表达的语义也不尽相同。如果能够将这些使用不同途径、来源于不同网络位置、具有不同格式的数据进行预处理，并在此基础上进行归一化融合操作，就可以为网络安全态势感知提供更为全面、精准的数据源，从而得到更为准确的网络态势。数据融合技术是一个多级、多层面的数据处理过程，主要完成对来自网络中具有相似或不同特征模式的多源信息进行互补集成，完成对数据的自动监测、关联、相关、估计及组合等处理，从而得到更为准确、可靠的结论。数据融合按信息抽象程度可分为从低到高的三个层次：数据级融合、特征级融合和决策级融合，其中特征级融合和决策级融合在态势感知中具有较为广泛的应用。 3.2 数据挖掘技术网络安全态势感知将采集的大量网络设备的数据经过数据融合处理后，转化为格式统一的数据单元。这些数据单元数量庞大，携带的信息众多，有用信息与无用信息鱼龙混杂，难以辨识。要掌握相对准确、实时的网络安全态势，必须剔除干扰信息。数据挖掘就是指从大量的数据中挖掘出有用的信息，即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律的、事先未知的，但又有潜在用处的并且最终可理解的信息和知识的非平凡过程（ NontrivialProcess） [1 ]。数据挖掘可分为描述性挖掘和预测性挖掘，描述性挖掘用于刻画数据库中数据的一般特性；预测性挖掘在当前数据上进行推断，并加以预测。数据挖掘方法主要有：关联分析法、序列模式分析法、分类分析法和聚类分析法。关联分析法用于挖掘数据之间的联系；序列模式分析法侧重于分析数据间的因果关系；分类分析法通过对预先定义好的类建立分析模型，对数据进行分类，常用的模型有决策树模型、贝叶斯分类模型、神经网络模型等；聚类分析不依赖预先定义好的类，它的划分是未知的，常用的方法有模糊聚类法、动态聚类法、基于密度的方法等。 3.3 特征提取技术网络安全态势特征提取技术是通过一系列数学方法处理，将大规模网络安全信息归并融合成一组或者几组在一定值域范围内的数值，这些数值具有表现网络实时运行状况的一系列特征，用以反映网络安全状况和受威胁程度等情况。网络安全态势特征提取是网络安全态势评估和预测的基础，对整个态势评估和预测有着重要的影响，网络安全态势特征提取方法主要有层次分析法、模糊层次分析法、德尔菲法和综合分析法。 3.4 态势预测技术网络安全态势预测就是根据网络运行状况发展变化的实际数据和历史资料，运用科学的理论、方法和各种经验、判断、知识去推测、估计、分析其在未来一定时期内可能的变化情况，是网络安全态势感知的一个重要组成部分。网络在不同时刻的安全态势彼此相关，安全态势的变化有一定的内部规律，这种规律可以预测网络在将来时刻的安全态势，从而可以有预见性地进行安全策略的配置，实现动态的网络安全管理，预防大规模网络安全事件的发生。网络安全态势预测方法主要有神经网络预测法、时间序列预测法、基于灰色理论预测法。 3.5 可视化技术网络安全态势生成是依据大量数据的分析结果来显示当前状态和未来趋势，而通过传统的文本或简单图形表示，使得寻找有用、关键的信息非常困难。可视化技术是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。它涉及计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域。目前已有很多研究将可视化技术和可视化工具应用于态势感知领域，在网络安全态势感知的每一个阶段都充分利用可视化方法，将网络安全态势合并为连贯的网络安全态势图，快速发现网络安全威胁，直观把握网络安全状况。 4 基于多源日志的网络安全态势感知随着网络规模的扩大以及网络攻击复杂度的增加，入侵检测、防火墙、防病毒、安全审计等众多的安全设备在网络中得到广泛的应用，虽然这些安全设备对网络安全发挥了一定的作用，但存在着很大的局限，主要表现在：一是各安全设备的海量报警和日志，语义级别低，冗余度高，占用存储空间大，且存在大量的误报，导致真实报警信息被淹没。二是各安全设备大多功能单一，产生的报警信息格式各不相同，难以进行综合分析整理，无法实现信息共享和数据交互，致使各安全设备的总体防护效能无法得以充分的发挥。三是各安全设备的处理结果仅能单一体现网络某方面的运行状况，难以提供全面直观的网络整体安全状况和趋势信息。为了有效克服这些网络安全管理的局限，我们提出了基于多源日志的网络安全态势感知。 4.1 基于多源日志的网络安全态势感知要素获取基于多源日志的网络安全态势感知是对部署在网络中的多种安全设备提供的日志信息进行提取、分析和处理，实现对网络态势状况进行实时监控，对潜在的、恶意的网络攻击行为进行识别和预警，充分发挥各安全设备的整体效能，提高网络安全管理能力。基于多源日志的网络安全态势感知主要采集网络入口处防火墙日志、入侵检测日志，网络中关键主机日志以及主机漏洞信息，通过融合分析这些来自不同设备的日志信息，全面深刻地挖掘出真实有效的网络安全态势相关信息，与仅基于单一日志源分析网络的安全态势相比，可以提高网络安全态势的全面性和准确性。 4.2 利用大数据进行多源日志分析处理基于多源日志的网络安全态势感知采集了多种安全设备上以多样的检测方式和事件报告机制生成的海量数据，而这些原始的日志信息存在海量、冗余和错误等缺陷，不能作为态势感知的直接信息来源，必须进行关联分析和数据融合等处理。采用什么样的技术才能快速分析处理这些海量且格式多样的数据？大数据的出现，扩展了计算和存储资源，大数据自身拥有的Variety支持多类型数据格式、 Volume大数据量存储、Velocity快速处理三大特征，恰巧是基于多源日志的网络安全态势感知分析处理所需要的。大数据的多类型数据格式，可以使网络安全态势感知获取更多类型的日志数据，包括网络与安全设备的日志、网络运行情况信息、业务与应用的日志记录等；大数据的大数据量存储正是海量日志存储与处理所需要的；大数据的快速处理为高速网络流量的深度安全分析提供了技术支持，为高智能模型算法提供计算资源。因此，我们利用大数据所提供的基础平台和大数据量处理的技术支撑，进行网络安全态势的分析处理。关联分析。网络中的防火墙日志和入侵检测日志都是对进入网络的安全事件的流量的刻画，针对某一个可能的攻击事件，会产生大量的日志和相关报警记录，这些记录存在着很多的冗余和关联，因此首先要对得到的原始日志进行单源上的关联分析，把海量的原始日志转换为直观的、能够为人所理解的、可能对网络造成危害的安全事件。基于多源日志的网络安全态势感知采用基于相似度的报警关联，可以较好地控制关联后的报警数量，有利于减少复杂度。其处理过程是：首先提取报警日志中的主要属性，形成原始报警；再通过重复报警聚合，生成聚合报警；对聚合报警的各个属性定义相似度的计算方法，并分配权重；计算两个聚合报警的相似度，通过与相似度阀值的比较，来决定是否对聚合报警进行超报警；最终输出属于同一类报警的地址范围和报警信息，生成安全事件。融合分析。多源日志存在冗余性、互补性等特点，态势感知借助数据融合技术，能够使得多个数据源之间取长补短，从而为感知过程提供保障，以便更准确地生成安全态势。经过单源日志报警关联过程，分别得到各自的安全事件。而对于来自防火墙和入侵检测日志的的多源安全事件，采用D-S证据理论（由Dempster于1967年提出，后由Shafer于1976年加以推广和发展而得名）方法进行融合判别，对安全事件的可信度进行评估，进一步提高准确率，减少误报。 D-S证据理论应用到安全事件融合的基本思路：首先研究一种切实可行的初始信任分配方法，对防火墙和入侵检测分配信息度函数；然后通过D-S的合成规则，得到融合之后的安全事件的可信度。态势要素分析。通过对网络入口处安全设备日志的安全分析，得到的只是进入目标网络的可能的攻击信息，而真正对网络安全状况产生决定性影响的安全事件，则需要通过综合分析攻击知识库和具体的网络环境进行最终确认。主要分为三个步骤：一是通过对大量网络攻击实例的研究，得到可用的攻击知识库，主要包括各种网络攻击的原理、特点，以及它们的作用环境等；二是分析关键主机上存在的系统漏洞和承载的服务的可能漏洞，建立当前网络环境的漏洞知识库，分析当前网络环境的拓扑结构、性能指标等，得到网络环境知识库；三是通过漏洞知识库来确认安全事件的有效性，也即对当前网络产生影响的网络攻击事件。在网络安全事件生成和攻击事件确认的过程中，提取出用于对整个网络安全态势进行评估的态势要素，主要包括整个网络面临的安全威胁、分支网络面临的安全威胁、主机受到的安全威胁以及这些威胁的程度等。 5 结语为了解决日益严重的网络安全威胁和挑战，将态势感知技术应用于网络安全中，不仅能够全面掌握当前网络安全状态，还可以预测未来网络安全趋势。本文在介绍网络安全态势相关概念和技术的基础上，对基于多源日志的网络安全态势感知进行了探讨，着重对基于多源日志的网络安全态势感知要素获取，以及利用大数据进行多源日志的关联分析、融合分析和态势要素分析等内容进行了研究，对于态势评估、态势预测和态势展示等相关内容，还有待于进一步探讨和研究。

什么是数据挖掘？

数据挖掘（Data Mining）是指通过大量数据集进行分类的自动化过程，以通过数据分析来识别趋势和模式，建立关系来解决业务问题。换句话说，数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

原则上讲，数据挖掘可以应用于任何类型的信息存储库及瞬态数据（如数据流），如数据库、数据仓库、数据集市、事务数据库、空间数据库（如地图等）、工程设计数据（如建筑设计等）、多媒体数据（文本、图像、视频、音频）、网络、数据流、时间序列数据库等。也正因如此，数据挖掘存在以下特点：

（1）数据集大且不完整数据挖掘所需要的数据集是很大的，只有数据集越大，得到的规律才能越贴近于正确的实际的规律，结果也才越准确。除此以外，数据往往都是不完整的。（2）不准确性数据挖掘存在不准确性，主要是由噪声数据造成的。比如在商业中用户可能会提供假数据；在工厂环境中，正常的数据往往会收到电磁或者是辐射干扰，而出现超出正常值的情况。这些不正常的绝对不可能出现的数据，就叫做噪声，它们会导致数据挖掘存在不准确性。（3）模糊的和随机的数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察，或者由于涉及到隐私信息无法获知到具体的一些内容，这个时候如果想要做相关的分析操作，就只能在大体上做一些分析，无法精确进行判断。而数据的随机性有两个解释，一个是获取的数据随机；我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习，那么一切的操作都属于是灰箱操作。

标签：灰推广的数据挖掘潜力从复杂数据中提取有意义的见解

本文地址： https://xintukeji.cn/xintu/169099.html