⑴ 回归分析法
回归分析法,是在研究矿坑涌水量与其影响因素存在一定相关关系后,提出的一种数理统计方法。矿坑涌水量是在各种自然和人为因素综合作用下有规律地变化着。影响矿坑涌水量变化的因素极其复杂繁多,甚至有些因素我们目前还没有发现,有些因素虽被发现但也无力调控和测定。因此,大量事实告诉我们,矿坑涌水量(称为因变量)与某些影响因素(称为自变量)的关系也存在数学中称之为相关的关系。回归分析法就是利用数学统计的方法,找出矿坑涌水量与影响因素之间的相关关系的数学表达式——回归方程,用求得的回归方程来预测矿坑涌水量。
回归分析法与水文地质比拟法的原理基本相同,都是寻求矿坑涌水量与其主要影响因素之间的关系表达式,并以这种寻找到的数学关系式来预测新的矿坑涌水量。所不同的是数学表达式的来源不同。水文地质比拟法,多数是根据经验提出,用起来方便灵活,缺点是缺乏严密性;回归分析法,是以已经有的实测数据为基础,通过数理统计的方法建立回归方程,其优点是可靠性较水文地质比拟法大一些,但计算较复杂。
应该注意的是,回归方程是一种非确定性的变量关系,严格地讲,它不允许外推。但具体工作中往往又需要外推,因此,回归方程外推的范围不宜过大。当回归方程为直线时,外推深度一般不应超过试验降深的1.5~1.75倍;当回归方程为曲线相关时,虽可适当增大外推范围,但一般也不宜超过2倍。同时,必须根据矿床具体的水文地质条件,检验外推结果是否合理。
几种常用的回归方程如下:
(一)二元直线相关
当矿坑涌水量与主要影响因素之间为直线相关关系时,其数学表达式为
Q=a+bs (4-5)
式中:Q为试验时的涌水量;S为当抽水量为Q时相对应的水位降深;a为常数;b为回归系数,它表示当S每增加1m时涌水量平均增加的水量数值。
a,b可根据试验数据利用最小二乘法求得
双层水位矿床地下水深层局部疏干方法的理论与实践
式中:
根据求得的a,b系数值,便可写出回归方程。
(二)三元直线相关
如果矿坑涌水量与两个影响因素存在直线相关时,其数学表达式便为三元直线相关(比如降深S和时间t):
Q=b0+b1S+b2t (4-8)
式中:b0为常数;b1,b2分别为水量Q对自变量S和t的回归系数;S,t为当矿坑涌水量为Q时的两个因素自变量;b0,b1,b2可用最小二乘法确定;
双层水位矿床地下水深层局部疏干方法的理论与实践
根据求得的b0,b1,b2可以写出三元直线方程。
(三)涌水量-降深曲线法(Q-S曲线法)
涌水量-降深曲线法也称涌水量曲线法,其实质就是利用抽(放)水的试验资料,建立涌水量(Q)和降深(S)之间的关系曲线方程,根据试验阶段和未来开采阶段水文地质条件的相似性,合理地把Q-S曲线外推,来预测矿坑涌水量。
大量试验资料证明,涌水量曲线一般有4种类型(图4-1)。
图4-1 涌水量-降深曲线图
(1)直线型
Q=bs
式中:
这种类型的曲线方程,一般表现为地下水流呈层流状态,抽水时水位降深与含水层厚度相比很小。
(2)抛物线型
S=aQ+bQ2 (4-11)
双层水位矿床地下水深层局部疏干方法的理论与实践
(3)幂函数曲线型
双层水位矿床地下水深层局部疏干方法的理论与实践
(4)对数曲线型
Q=a+blgS (4-17)
式中:
双层水位矿床地下水深层局部疏干方法的理论与实践
上述各式中a,b均为待定系数,求出a,b后便可写出涌水量曲线方程。
一般情况下,图4-1中的2号曲线代表的是抛物线型曲线,它表示强富水性含水层在抽水强烈时,地下水抽水井附近出现三维流的情况下的曲线形态;第3,4两种类型曲线一般表示含水层规模较小,补给条件比较差情况下出现的曲线类型。
涌水量曲线方程的形态不但与含水层的规模、性质以及补给径流条件有关,而且与抽水强度的大小和抽水时间长短也有关系。因此,采用Q-S曲线方程法预测矿坑涌水量时,一般要求抽(放)水试验的规模尽量大一些,常采取大口径、大降深群孔抽(放)水试验,以求尽量符合未来的开采状态,充分揭露和显示其尽量多的水文地质条件,尽量波及矿床的各种边界,从而求取最大可能符合实际条件的矿坑涌水量。
⑵ 基于回归分析的海洋地质调查研究及实例应用
梁广1,2邵长高1,2
(1.广州海洋地质调查局 广州 510760;2.国土资源部海底矿产资源重点实验室 广州 510760)
第一作者简介:梁广(1972—),男,工程师,主要从事网络管理和数据管理工作,E-mail:[email protected]。
摘要 近年来资源勘探已经覆盖大部分陆地区域,越来越多的国家把目光投向海洋。海洋作为一个巨大的能源和资源宝库在国民经济、军事战略等的重要性也日益显现。各个国家竞相制定海洋科技开发规划、战略计划,优先发展海洋新技术[1]。如何有效的从海量海洋地质调查数据中获取有用信息是海洋新技术研究中的重要研究内容。论文针对海洋地质调查数据研究技术应用需求,引入了回归分析模型到海洋地质调查数据库中,详细介绍了回归分析的技术方法和在海洋地质调查数据库研究中的应用优势,为海洋科学研究提供了技术支持。
关键词 海洋地质 回归分析 数据库
1 前言
随着陆地资源的消耗和人类对能源越来越强烈的需求,海洋作为一个尚待大规模开发的能源和资源宝库引起各国越来越多的关注。我国作为世界上最大的发展中国家对能源的需求也在大幅增加,近年来我国石油进口数量急剧增长,据估计到2020年我国石油进口依存度将达到60%。党和国家领导人多次提出“资源、能源、特别是油气资源,已成为我国经济和社会发展的重要因素,解决后备能源问题是保证国家经济安全的大事”。随着我国国土资源大调查和海洋地质专项调查的开展,大量的海洋地质数据被收集和积累,并建立了多个满足各自业务需求的信息系统和数据源[2]。如何有效的从海量海洋地质调查数据中获取有用信息是海洋新技术研究中的重要研究内容。论文针对海洋地质调查数据研究技术应用手段的需求,引入了回归分析技术到海洋地质调查数据库中,详细介绍了回归分析的技术方法和在海洋地质调查数据库研究中的应用优势,为海洋科学研究提供了技术支持。
2 回归分析概述
2.1 概述
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析[3]。回归分析预测法可以从各数据之间的相互关系出发,通过对与预测对象有联系的现象变动趋势的分析,推算预测对象未来状态数量表现的一种预测方法,通过对与预测对象(y)有联系的多个因素X1,X2,……,Xk建立回归模型。求出的回归模型是否合理,是否符合变量之间的客观规律性,引入相关因素是否有效,变量之间是否存在线性相关关系,模型能否付诸应用,这要通过检验决定。本文给出了两方面的检验:一方面为实际意义检验。即利用理论所拟定的期望值与实际结果相比较是否相符。另一方面为统计检验:分别为拟合优度检验(R平方检验)、方程显着性检验(F检验)、变量显着性检验(t检验)[4]。论文主要介绍一元线性回归分析在海洋地质调查数据库中的应用。
2.2 一元线形回归分析模型
线性回归分析可以描述两个要素之间的回归关系。线性回归分析公式为:yi=a+bxi+εi.其中a和b为参数.εi是误差.我们定义Q(a,b)a为总误差。则:
南海地质研究(2014)
对公式两边的a和b求导得:
南海地质研究(2014)
南海地质研究(2014)
x表示x的平均值.y表示y的平均值.
关系系数R2求值方法为[5]:
南海地质研究(2014)
2.3 多元线形回归分析模型
研究对象y受多个因素x1,x2,x3,…xn的影响,假定各个影响因素与y的关系是线性的,则可建立多元线性回归模型:
y=β0+β1x1+β2x2+…+βkxk+ε
式中:x1,x2,……,xk代表影响因子;ε 为随机误差;y 代表所研究的对象,即预测目标[3]。
2.4 统计检验
统计检验是运用数理统计的方法,对方程进行检验、对模型参数估计值的可靠性进行检验。这主要包括拟合优度检验、方程显着性检验、变量显着性检验,即常用的R2检验、F检验和t检验。
2.4.1 拟合优度检验(检验):
拟合优度检验就是检验回归方程对样本观测值的拟合程度。又称为复相关系数检验法,它是通过对总变差(总离差)的分解得到。
南海地质研究(2014)
其中
南海地质研究(2014)
总变差平方和S总是各个观察值与样本均值之差的平方和,反映了全部数据之间的差异;残差平方和S残是总变差平方和中未被回归方程解释的部分,由解释变量x1,x2……,xk中未包含的一切因素对被解释变量y的影响而造成的;回归平方和S回是总变差平方和中由回归方程解释的部分。对于一个好的回归模型,它应该较好地拟合样本观测值,S总中S残越小越好。于是可以用:
南海地质研究(2014)
求得[4]。
2.4.2 方程显着性检验(F 检验):
对于多元线性回归方程,方程显着性检验就是对总体的线性关系是否显着成立作出推断,即检验被解释变量y与所有解释变量X1,X2,……,Xk之间的线性关系是否显着,
南海地质研究(2014)
即F统计量服从以(k,n-k-1)为自由度的F分布。首先根据样本观测值及回归值计算出统计量F,于是在给定的显着性水平a下,若F>Fa(k,n-k-1),则拒绝H0,判定被解释变量y与所有解释变量x1,x2,……,xk之间的回归效果显着,即确实存在线性关系;反之,则不显着[4]。
2.4.3 变量显着性检验(t检验):
对于多元回归模型,方程的显着性并不意味每个解释变量对被解释变量y的影响都是重要的。如果某个解释变量并不重要,则应该从方程中把它剔除,重新建立更为简单的方程。所以必须对每个解释变量进行显着性检验。
在给定的显着性水平a下,若|ti|>ta/2(n-k-1),则拒绝H0,说明解释变量xi对被解释变量y有显着影响,即xi是影响y的主要因素;反之,接受H0,说明解释变量xi对被解释变量y无显着影响,则应删除该因素[4]。
3 应用实例
论文利用线形回归分析模型对南海海域海洋沉积物温度进行了分析,其中散点图显示如图1所示,回归分析结果见表1。
图1 水深与沉积物温度散点图
Fig.1 Water depth vs.sediment temperature
表1 水深沉积物温度回归分析结果Tab.1 The regression analysis result for Water depth vs.sediment temperature
读取回归结果如下:
截距:a=17.56;斜率:b=-0.0014;相关系数:R=0.276;测定系数:R2=0.076;F值:F=89.54。
建立回归模型,并对结果进行检验
模型为:
F值的计算公式和结果为:
南海地质研究(2014)
其中P<0.0001。回归结果证明,沉积物温度与海水深度有着密切的关系,但是通过散点图显示,并不是温度越深沉积物温度越低。而是受到其他例如海底热流,海洋环流等因素的影响。
4 结语
本文介绍了回归分析在海洋地质调查研究中的应用,同时提供了回归分析的技术原理及实现方法,并通过对南海沉积物与海水深度关系模型进行了应用分析,回归结果显示了两者具有密切但是存在不确定性的关系。实验结果得到有效的应用。
参考文献
[1]单宝强,毛永强.2005.GIS中的坐标系定义与转换[J].黑龙江国土资源,11,38-39
[2]苏国辉,孙记红,等.2011.海洋地质数据集成中的关键问题和方案[J].海洋地质前沿,11(27):51
[3]网络.回归分析.http://ke..com/view/145440.htm
[4]沈聪.2009.基于EXCEL的回归分析在足迹分析上的应用[M].辽宁警官高等专科学校本科毕业论文
[5]Cottrell A.Regression Analysis:Basic Concepts.http://www.wfu.e/~cottrell/ecn215/regress.pdf
The Marine Geological Survey Based on Regression Analysis
Liang Guang1,2,Shao Changgao1,2
(1.Guangzhou Marine Geological Survey,Guangzhou,510760;2.Key Laboratory of Marine Mineral Reasources,MLR,Guangzhou,510760)
Abstract:The new resources survey had covered most of the continental area at present.So,the ocean resources have attracted more and more attention now as it is a huge resource and energy reservoir that had a profound meaning to national economy and military strategy.The energy competition made manly countries developed new technology project and put the new ocean technology as the primary study area.However,how to abstract useful information from marine geological survey data is one of the most important study technologies.This paper focuses on the study of the deficit of marine database technology and introces regression analysis model and the application advantage of it.The purpose of this paper is to provide the technology support for marine study.Key word:Marine geology;Regression analysis model;Database
⑶ 水文地质问题与数学模型
一般认为,研究自然或社会现象主要有机理分析和统计分析两种方法。前者用经典的数学工具分析现象的因果关系;后者以随机数学为工具,通过大量观测数据寻求统计规律,最后以某种数学关系或数学模式来描述。其中,建立数学模型对现象进行模拟预测是非常重要的。在水文地质学中,从裘布依、泰斯建立的公式,直到目前模拟地下水量、水质的三维流模型,都说明了数学模型方法是水文地质学中非常重要的技术方法。特别是近年来数字计算机的高度发展和数值分析技术的不断完善,数学模型已广泛地应用于水文地质学(林学钰等,1995年)。
一、数学模型
所谓数学模型,就是为了某个特定目的,对现实世界的某一特定对象作出一些必要的简述和假设,而后运用适当的数学工具得到的一个数学结构。它或者能解释特定现象的现实形态,或者能预测对象的未来状况,或者能提供处理对象的最优决策或控制。地下水数学模型,就是运用数学的语言和工具,对水文地质条件和水资源的信息进行概化、翻译和归纳的结果。数学模型经过演绎、推断,给出数学上的分析、预报、决策或控制,再经过解释,回到实际应用中去。最后经过实践检验,如果结果正确或基本正确,则可以用来指导实际;否则要重新考虑概化、归纳过程,并修改数学模型,如图15-1所示。
图15-1 水文地质问题与数学模型的关系
从目前实际应用来看,地下水数学模型主要分为3大类,即解析模型、数值模型和多元统计模型。解析模型是由描述地下水流的微分方程的各种解析解组成,如泰斯公式、裘布依公式等。解析模型仅适用于含水层相对均质,几何形状简单,范围较小和源汇项简单的地下水流问题。在建立地下水解析模型时,研究区的地下水条件通常由具有直线边界、有效宽度、厚度和长度的“模型含水层”来模拟。模型的解是利用具有平均水力性质的理想含水层,根据镜像理论和一定的地下水流方程式求得。
对于不适合解析模型的复杂条件,则可利用数值模型,通过建立相应的偏微分方程求得数值解。要建立数值模型,首先要把具有连续参数的含水层系统离散为若干个剖分单元,对时间变量也进行同样离散。然后利用有限差分原理、有限单元原理或者边界单元原理形成一组线性代数方程组。而后,借助于数字计算机对这组线性代数方程组进行数值求解。根据建立方程的原理不同,可以产生有限差分法、有限单元法和边界单元法等不同的数值模型。
由于地下水系统是一个多变量系统,因此,一些多元统计模型也可以用于解决地下水流问题。运用多元统计分析方法处理各种水文地质观测数据,对地下水的某些特征或规律进行评价、预测和探求地下水化学成分的分布和变化规律等,都可得到一定的定量信息。例如,多元回归分析可以定量地建立地下水系统中一个变量和另一个变量或另几个变量之间的数学关系表达式,从而研究各变量之间的制约和关联关系,并进行评价和预测。再如,因子分析模型或对应分析模型则是把地下水系统中一些具有错综复杂关系的因子,通过某种内在联系归结为数量较少的几个综合因子,进而分析地下水样品和变量之间的分布和成因关系,以获得规律性的信息。随着科学技术的发展,近来又出现了一些新的地下水多元分析模型,如时间序列模型、灰色系统模型等。它们在地下水管理过程中都起到了一定的积极作用。
二、地下水数学模型的建立与应用
数学模型的建立步骤并没有一定的模式,但大体上具有以下过程。
首先,要了解和掌握野外水文地质条件及各种现象、信息和统计数据等,明确建立模型的目的和要解决的实际问题;然后,对具体的水文地质条件进行概化,建立水文地质概念模型。这一过程是建立模型的关键,不同的概化可导致不同的模型。如果概化不合理或过分简单,会导致模型的失败或部分失败;如果概化得过分详细,试图把复杂的实际现象的各个因素都考虑进去,可能很难甚至无法继续下一步的工作。因此,在这一阶段,要求建模者有丰富的水文地质理论和实践经验,以辨别问题的主要因素和次要因素,尽量将问题均匀化、线性化。
水文地质概念模型建立后,利用适当的数学工具建立各个量(常量和变量)之间的关系,如利用偏微分方程描述地下水的运动等。这是建立模型的第二步。这项工作常常需要具有比较宽阔的数学知识,如微积分、微分方程、线性代数、概率统计及规划论等。
第三步是模型求解和参数识别。在模型应用之前,要对所建立的模型进行验证。这对于模型的成败也是非常重要的。在水资源研究中,在应用地下水模型进行评价和预测之前,必须利用地下水历史资料来模拟验证地下水模型的可靠性和可信度。
由于地下水系统的响应是受系统外部的脉冲激发而产生的,对于地下水水量模型来说,响应即地下水水位,脉冲即地下水补给量或开采量。因此,历史上系统对脉冲的响应状况也就体现在系统的历史水位资料上。如果地下水模型能够较好地模拟地下水系统原型,那么模型就应该能够再现历史上地下水位及其变化情况,这就是模型验证思想的基本出发点。
对地下水模型验证来说,就是根据野外和室内试验结果及区域水文地质调查资料给出一系列水文地质参数的上下限范围值,利用其中一组系统的最好参数初值来确定系统对外部脉冲随时间的响应情况。这种响应结果就是系统状态变量的计算值,它可以表达为地下水位或水中盐分浓度的变化。然后,将计算值与系统的已知历史资料作对比,如果资料整理和建模工作进行得较为准确完备,那么模型初次运行就会得到较好的拟合结果。但一般所建模型与实体之间都会存在一定的差异,因此,都需要对模型系数(如贮水系数、导水系数、入渗率、弥散度和弥散系数等)作合理的调整,并通过计算机重新计算,再将计算值与历史资料作对比。在参数限定范围内,这种调整和拟合过程经常要重复进行,直到计算结果与历史资料拟合得很好为止。这里的“拟合得很好”,一般具有两层含义:一是指各个观测孔之间拟合得很好;二是指系统总体流场拟合得很好。实践证明,过分强调模型的最终“拟合”而忽视了水文地质概念模型失真度的检查是不正确的。在这方面记住钱伯林(Chamberlin,1899)的告诫是很重要的。他说:“数学分析的严密性给人们以深刻印象,以及给人以精确而细致的感觉,但这不应蒙蔽我们,使我们看不到制约整个过程的前提的缺陷。建立在不可靠前提下苦心完成的细致的数学过程,恐怕比任何别的欺骗手段都更为隐蔽和更为危险。”
地下水模型一旦经过校正和验证,就可以用于评价和预报。通过研究地下水系统对各种输入的响应规律,它可以对不同的地下水管理方案进行合理、综合的评价。将地下水模型与最优化模型耦合起来,就可以对各个地下水管理方案做全面的经济、生态和环境的评价。因此,利用模型技术,不仅可以选择技术经济最优的管理方案,而且可以满足系统的各种约束条件。
在水文地质学中,数学模型技术起着非常重要的作用,所应用的数学模型种类也很多,如本书前面提到的解析模型、数值模型等,此外还有利用随机数学理论、优化理论等建立的模型。由于模型种类繁多,这里我们仅介绍几种模型方法。
⑷ 请问多元回归分析是怎么回事怎么分析
截图就不做了,说下大概的操作,希望能帮助到你
1、在spss里variable view里,输入5个变量名称,可用中文。
2、然后在data view里分别录入5个变量对应的数据
3、点击analyze--regession--linear,在弹出框里,把因变量(抑郁得分)选定在dependent里,其他4个变量选到independent里,method里建议选择stepwise,然后直接点ok就可以了。
4、结果里,R值就是回归的决定系数,代表各变量能解析因变量的程度。ANOVA里,sig小于0.05证明回归方程有效。constant对应的B值是截距(常数项),其他变量对应B值就是变量的影响系数。变量对应的beta值就是他们的标准化影响系数,数值最高的就是影响力度最大的因素。最后的excluded variables是排除的变量,就是说在这个框里的因子就是对特定变量几乎没什么影响的。
⑸ 多元统计有哪些常见的分析方法
多重回归分析、判别分析、聚类分析、主成分分析、对应分析 、因子分析、典型相关分析
⑹ 数学地质法
数学地质是地质科学走向定量化研究与数学相结合而产生的。多变量统计分析(或称多元分析)方法是数学地质的主研内容,它是运用数理统计方法研究和解决多指标问题的理论和方法。通常采用多元回归分析、逐步回归分析、趋势面分析、聚类分析、判别分析、因子分析、对应分析、典型相关分析等。
运用这类分析方法,处理各类观测数据,并相互验证计算结果,可获得和诠释水文地质诸多方面的认识及结论。例如:通过水溶液中化学组分的运算,可得出样品的分类、油气田水与非油气田水、不同成因类型水的区分、含水系统的划分等;水溶液中化学组分之间的相关关系和化学组分的聚集共生规律;水岩相互作用引发的物质成分双向转移过程中哪些化学组分在液相中聚集和哪些组分沉析进入固相,以及评价水岩相互作用发生的化学平衡状态;分析和诠释地质、水文地质作用的属性和进程阶段;圈定找矿标志的水化学异常,预测矿体存在的部位和评价成矿规律等。
⑺ 多元线性回归分析的优缺点
一、多元线性回归分析的优点:
1、在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
2、在多元线性回归分析是多元回归分析中最基础、最简单的一种。
3、运用回归模型,只要采用的模型和数据相同,通过标准的统计方法可以计算出唯一的结果。
二、多元线性回归分析的缺点
有时候在回归分析中,选用何种因子和该因子采用何种表达 式只是一种推测,这影响了用电因子的多样性和某些因子的不可测性,使得回归分析在某些 情况下受到限制。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。
(7)地质多元回归分析方法扩展阅读
社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归 。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验 。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。
Matlab、spss、SAS等软件都是进行多元线性回归的常用软件。
⑻ 方法评述
1.计算方法的对比
在MRAGIS系统中,计算方法按评价目标分为两个系列,一是空间位置的评价预测,二是资源量预测,分别对应了两种计算方法。无论是空间位置预测还是资源量评估,都应当使用两种方法进行计算,其原因是:
(1)“证据权”法依靠数据驱动,并无人为因素加入,但避免不了现实存在的假象;
(2)当进行资源空间位置评价预测时,“BP神经网络”法将知识(人为因素)放置于重要地位,主要体现在样本数据的组织上。倘若地质观点不同,势必影响计算结果。
(3)“多元信息统计回归”法的计算结果取决于地质条件对矿产资源量的贡献,这也是由人为因素决定的。理论上讲,地质条件对矿产资源量的贡献大小应当按不同矿种、不同成因类型分别设置,但如果按成因类型计算,由于本次收集的已知储量矿产地太少,根本无法满足多元信息统计回归法的使用条件。所以,将地质条件对成矿贡献大小的分值作统一设置。“BP神经网络”法在考虑地质条件对资源量的影响程度上是不受人为影响,而且在组织样本数据时,只要矿床已知储量准确、客观,就可避免人为因素干扰。
鉴于上述原因,应用MRAGIS系统进行矿产资源空间位置评价预测时.“证据权”法与“BP神经网络”法相结合,“多元信息统计回归”法与“BP神经网络”法组合来进行资源量的评估,这样才能使得计算结果更加准确、可靠。
2.计算结果评述
(1)空间位置评价预测。从“证据权”法和“BP神经网络”法计算的结果来看,前者一、二级的后验概率比较集中,较好地反映了整个皖南地区的成矿概率;后者一、二级的成矿有利度分布大致与后验概率相近,只是在部分一、二级区域中,两者在局部范围的分布位置有所区别,个别部位的级别相差一个档次,但总的趋势是一致的。
图6-5-10 安徽东南地区钨、金资源成矿远景区分布示意图
值得一提的是,在评价区中部(西区)两者计算结果有所差异,“BP神经网络”法计算的成矿有利度,无论从范围还是强度来看,都较“证据权”法的后验概率大而高,尤其是铅锌银矿。从地质角度来说,在皖赣交界安徽一侧,呈近东西向排列的许多岩体、小岩珠,以此为界,两侧的地质环境(条件)非常相似。现已知江西一侧出现金、银、钨等多处矿产,按类比法,安徽一侧也应具备类似的矿产。因此,“BP神经网络”法计算的成矿有利度在评价区中部的这种分布情况更符合类比结论,预示着此区域存在铅锌、银等多金属矿产。
(2)资源量评估。使用“多元信息统计回归”法和“BP神经网络”法计算获得的资源量分布比较一致,且按成矿远景区(Ⅳ级)统计结果来看,两者相差不大。但是,就资源量数值的大小来看,两者还是存在一定的差异。主要有以下几个方面的原因:①计算方法不同。“多元信息统计回归”法采用的是用某一种方程来代表地质条件与成矿的关系;而“BP神经网络”法则是模拟生物神经元,通过各神经元之间的连接权和阈值将输入层(地质变量)与输出层(矿产资源量)联系起来,而不是用具体方程表征它们的关系。②赋值的方式不同。“多元信息统计回归”法是将地质条件对矿产资源量的贡献采用固定的“分值”;“BP神经网络”法则是使用“样本”数据的形式,各个地质条件对资源量数值的影响都包含在这些样本数据中。③变量对资源量的贡献方式不同。“多元信息统计回归”法以固定分值决定地质变量对资源量的影响度,完全是专家系统的方式;“BP神经网络”法是依据参与计算的各图层中含矿面积与该图层总面积之比决定该变量的权值,没有人为因素的影响。例如,在“多元信息统计回归”中,地质构造的分值定为“2”。当某一区域其他地质条件缺失或较少时,构造对资源量的影响度就会较大,明显地影响到资源量,使其呈线状分布。
3.讨论
从计算方法对比结论已看出,评价计算不能采用单一的方法,应两种或两种以上方法同时进行,便于对比、互补,提高评价预测的准确性和可靠性,这在以往资源评价中往往容易被忽视。
(1)“BP神经网络”法是模拟生物神经单元来解决自然界许多非简单函数、方程所能解决问题(如成矿与地质条件之间的关系,不能用一个或一组方程来加以描述),它的应用前提必须满足,即样本数据的“代表性”和“合理性”,否则难以保证网络模拟出的结果符合实际情况。在矿产资源GIS评价预测中,网络的学习样本应当由工作经验丰富,对评价目标区地质矿产情况非常熟悉的地质矿产专家来组织,否则,轻者使网络训练发散,重者造成计算结果无法使用。这一点须特别注意。
(2)对于矿产资源量的评估来说,无论采用何种数学方法,它都是一种“评估”,只能作为参考,而且,数学方法不同,计算的结果必定存在差异。本次资源量的预测采用了多元信息统计回归法和BP神经网络法。前者是使用一种函数方程进行回归拟合,当已知储量与计算资源量之间的拟合误差达到给定值后,则认为矿产资源量与成矿条件满足回归方程的关系;后者是通过给定学习样本,经网络训练来确定神经元之间的连接参数和阈值,进而对整个评价区进行资源量的评估计算。这两种方法都需要已知矿床储量的支持。一般来说,已知储量的矿床越多,分布越均匀,则计算结果越可靠。从图6-5-8、6-5-9中可看出,两者的分布趋势相近,但数值存在差异,一般是多元信息统计回归法计算的值较BP神经网络为大。经分析认为,多元信息统计回归法因采用回归方程拟合,当参与计算的地质变量分值高于已知(最高)储量的分值时,根据回归方程的趋势将会获得高于已知最高储量的数值。而BP神经网络则是模拟生物神经元对外界感知的原理来进行资源量计算,不存在上述情况,因此,其计算结果主要取决于样本数据的组织。
一般说来,V级远景区资源量的计算结果较Ⅳ级预测区更为精确,这是由于V级区面积范围小,已知矿床(点)大部分集中于该区内,尤其是BP神经网络的样本数据大都取自这一级远景区,保证了这些区的资源量“拟合”精度更高。
(3)无论采用何种计算方法,其结果必须结合区域成矿规律和地质背景加以分析,尤其是在划定成矿远景区、找矿靶区时,不能一味的按照计算结果进行,这样很可能被一些假象值所蒙蔽,造成错误的结论。
⑼ 多元统计分析的简介
multivariate statistical analysis
研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性。它的重要基础之一是多元正态分析。又称多元分析 。 如果每个个体有多个观测数据,或者从数学上说, 如果个体的观测数据能表为 P维欧几里得空间的点,那么这样的数据叫做多元数据,而分析多元数据的统计方法就叫做多元统计分析 。 它是数理统计学中的一个重要的分支学科。20世纪30年代,R.A.费希尔,H.霍特林,许宝碌以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速发展。50年代中期,随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、医学、图像处理、经济分析等许多领域得到了广泛的应用 ,同时也促进了理论的发展。各种统计软件包如SAS,SPSS等,使实际工作者利用多元统计分析方法解决实际问题更简单方便。重要的多元统计分析方法有:多重回归分析(简称回归分析)、判别分析、聚类分析、主成分分析、对应分析、因子分析、典型相关分析、多元方差分析等。
早在19世纪就出现了处理二维正态总体(见正态分布)的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。人们常把1928年维夏特分布的导出作为多元分析成为一个独立学科的标志。20世纪30年代,R.A.费希尔、H.霍特林、许宝禄以及S.N.罗伊等人作出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。40年代,多元分析在心理、教育、生物等方面获得了一些应用。由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
多元分析发展的初期,主要讨论如何把一元正态总体的统计理论和方法推广到多元正态总体。多元正态总体的分布由两组参数,即均值向量μ(见数学期望)和协方差矩阵(简称协差阵)∑ (见矩)所决定,记为Np(μ,∑)(p为分布的维数,故又称p维正态分布或p 维正态总体)。设X1,X2,…,Xn为来自正态总体Np(μ,∑)的样本,则μ和∑的无偏估计(见点估计)分别是
和
分别称之为样本均值向量和样本协差阵,它们是在各种多元分析问题中常用的统计量。样本相关阵R 也是一个重要的统计量,它的元素为
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。
另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,…,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,
,其中,
,
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最着名的有威尔克斯Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定总体分布是多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。 简称回归分析。其特点是同时处理多个因变量。回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程的显着性检验要用Λ统计量。
回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。 由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图 。可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 y<с 等价于(X1,X2)落在g1,y>с等价于(X1,X2)落在g2。由此得判别规则:若,l1X1+l2X2<c
判,即此人为健康者;若,l1X1+l2X2>C
判,
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。
无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。 又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量(x1,x2,…,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法。
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型。 又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,…,xp,为了简化问题,选一个新变量z,
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(<p)个互不相关的呈上述形式的主成分来尽可能多地反映原p个变量的信息。用来决定诸系数的原则是,在
的约束下,选择l1,l2,…,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。 它是由样本的资料将一组变量
y2,……yp)
分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义最小二乘法、最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。 它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。 多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。
非数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。