A. 熵怎么计算
热力学中表征物质状态的参量之一,通常用符号S表示。在经典热力学中,可用增量定义为dS=(dQ/T),式中T为物质的热力学温度;dQ为熵增过程中加入物质的热量;下标“可逆”表示加热过程所引起的变化过程是可逆的。若过程是不可逆的,则dS>(dQ/T)不可逆。单位质量物质的熵称为比熵,记为 s。熵最初是根据热力学第二定律引出的一个反映自发过程不可逆性的物质状态参量。热力学第二定律是根据大量观察结果总结出来的规律,有下述表述方式:①热量总是从高温物体传到低温物体,不可能作相反的传递而不引起其他的变化;②功可以全部转化为热,但任何热机不能全部地、连续不断地把所接受的热量转变为功(即无法制造第二类永动机);③在孤立系统中,实际发生的过程,总使整个系统的熵值增大,此即熵增原理。摩擦使一部分机械能不可逆地转变为热,使熵增加。热量dQ由高温(T1)物体传至低温(T2)物体,高温物体的熵减少dS1=dQ/T1,低温物体的熵增加dS2=dQ/T2,把两个物体合起来当成一个系统来看,熵的变化是dS=dS2-dS1>0,即熵是增加的。
物理学上指热能除以温度所得的商,标志热量转化为功的程度。物质都有自己的标准熵,一个反应可以根据各种物质的熵来计算熵变。ΔH-TΔs是计算自由能的公式,用来判断反应的自发性。
B. 如何在SPSS中运用熵值法计算权重
指标权重计算确定的困惑
相信很多写过或者正在写指标处理类论文的朋友都曾对如何计算指标权重充满困惑,到底是用熵值法,还是主成分分析法?或者其他各种看起来奥妙无穷却难以上手操作的神奇方法?好不容易确定要选用主成分分析法时又开始发愁要如何实现呢?
听说过要可以用SPPS,可是又如何使用SPSS操作呢?用SPSS进行主成分分析之后又要如何得到最终的权重呢?接下来笔者将以一个实际的案例,带领大家一步步从SPSS入手,进行主成分分析,并利用主成分分析的结果最终得到各指标的权重值。
2
利用SPSS实现主成分分析
1. 数据标准化
(1)为什么要对数据进行标准化处理
在对数据进行主成分分析前,首先要对数据进行标准化,之所以要对数据进行标准化,是因为各种类别的数据间的度量不同,比如计算经济的指标,我们通常会选取地区GDP生产总值和第三产业产值在GDP中的比重,GDP产值以亿为单位,通常以千计或万计,而第三产业产值在GDP中的比重的取值范围在0~1之间,如何能够相提并论呢?能够因为前者的数据远远大于后者,而得出前者的指标更为重要的结论吗?显然是不行的,所以要进行主成分分析,首先要对数据进行标准化。
(2)数据标准化的方法
为什么要关心数据处理的方法呢?在实际操作中,笔者曾经遇到一个问题。笔者利用SPSS自带的数据标准化方法对数据进行了标准化处理,但在权重的计算过程中不断出现负值,后来笔者几次重新调整指标类别,终于得出了均为正值的权重。但笔者最终的目的是要进行耦合协调度,这时候出现了大量的负值,而耦合度及耦合协调度的取值范围应该在0~1之间,因此笔者开始从头探索出错的原因。终于,笔者找到了原因,那就是数据标准化的方法选取的不正确,因此笔者重新选择了极差法对数据重新进行标准化,并最终顺利得到了后续的结果。
C. SPSSAU面板数据如何进行熵值法
熵值法的原理是针对数据不确定性进行度量,从而计算权重。无论是什么数据(包括面板数据),均可正常的进行熵值法,一般不需要进行处理。当然面板数据进行熵值法分析时,也可以先筛选出不同的年份,重复进行多次熵值法均可。推荐可使用SPSSAU[综合评价]-[熵值法]进行分析。
D. 信息熵的计算公式,麻烦通俗地讲一下。
信息熵的计算公式:H(x) = E[I(xi)] = E[ log(2,1/P(xi)) ] = -∑P(xi)log(2,P(xi)) (i=1,2,..n)。
其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
信息熵是数学方法和语言文字学的结合,基本计算公式是未H = - LOG2(P)。其中,H 表示信息熵,P 表示某种语言文字的字符出现的概率,LOG2是以二为底的对数,用的是二进制,因而,信息熵的单位是比特(BIT,即二进制的0和1)。信息熵值就是信息熵的数值。
(4)数据处理中熵值计算方法扩展阅读:
信息熵的相关介绍:
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。不确定性函数f是概率P的减函数;两个独立符号所产生的不确定性应等于各自不确定性之和。
人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。
直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。
E. 如何用熵权法计算权重
熵权法是一种客观赋权方法。十分复杂,计算步骤如下:
1、构建各年份各评价指标的判断矩阵。
2、将判断矩阵进行归一化处理, 得到归一化判断矩阵。
3、根据熵的定义,根据各年份评价指标,可以确定评价指标的熵。
4、定义熵权。定义了第n个指标的熵后,可得到第n个指标的熵权。
5、计算系统的权重值。
根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。
因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。
注意事项:
系统由有序转变为无序被的过程是熵增,比如系的鞋带会开;家中铺的很整齐的床单睡过后会变乱。
“热力学第二定律”热量可以自发地从较热的物体传递到较冷的物体,但不可能自发地从较冷的物体传递到较热的物体。
比如一滴墨滴进清水,清水会变黑;一个热的物体和一个冷的物体放在一起,热的物体会变冷,冷的物体会变热.....物理系统总是会趋向平衡状态。
一个系统的温度是不均匀的,它慢慢趋向均匀;一个溶液的浓度是不均匀的,同样它会慢慢趋向均匀。
F. 熵值(H值)法
熵是数学家Shanon最早提出的概念,在统计学中它作为各种随机试验不肯定程度的度量。首先应用于热力学,熵是分子热运动“乱度”的度量,在平衡状态下熵值最大,这时分子处于最无序状态。信息论的问世使熵成为信息论中的专有名词,用来度量信息的无规则程度,即信息乱度的度量。它也反映事物发生的不确定度。一般来说,复杂系统的不确定度高。因此,地质构造特征越复杂,其不确定度越大,即熵值越高。这就是我们用熵来表示地质构造特征的复杂程度的原因。熵的计算公式如下。
对定和数据,如地层、岩浆等出露面积(其和为1),可用如下公式来计算:
西南三江中段成矿规律与成矿预测研究
对不定和数据,如断层条数等,用如下公式来计算:
西南三江中段成矿规律与成矿预测研究
式中:p为变量数;n为单元总数;xij为第i个单元第j个变量的取值(原始数据);对数log可以取自然对数或者常用对数等。
G. 在熵编码中,熵值的计算
计算步骤如下图:
在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。根据熵的特性,我们可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。
H. 什么是熵值法
在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。
熵值法就是根据熵的特性, 通过计算熵值来判断一个事件的随机性及无序程度的方法或用熵值来判断某个指标的离散程度的方法(指标的离散程度越大,该指标对综合评价的影响越大)。
I. 熵值法步骤
(1)方法原理及适用场景
熵值法属于一种客观赋值法,其利用数据携带的信息量大小计算权重,得到较为客观的指标权重。熵值是不确定性的一种度量,熵越小,数据携带的信息量越大,权重越大;相反熵越大,信息量越小,权重越小。
适用场景:熵值法广泛应用于各个领域,对于普通问卷数据(截面数据)或面板数据均可计算。在实际研究中,通常情况下是与其他权重计算方法配合使用,如先进行因子或主成分分析得到因子或主成分的权重,即得到高维度的权重,然后再使用熵值法进行计算,想得到具体各项的权重。
(2)操作步骤
使用SPSSAU【综合评价-熵值法】。
使用熵值法计算权重时,需将数据整理为以下格式:
(3)注意事项
熵值法的计算公式上会有取对数,因此如果小于等于0的数字取对数,则会出现null值。此种情况共有两种办法。
第一种:SPSSAU非负平移功能是指,如果某列(某指标)数据出现小于等于0,则让该列数据同时加上一个‘平移值’【该值为某列数据最小值的绝对值+0.01】,以便让数据全部都大于0,因而满足算法要求。
第二种:研究者也可以手工查看数据并将小于等于0的数据设置为异常值,但此种做法会让样本减少。