1.2 信息的度量和价值
1.2.1 信息的度量
信息是用来消除未来不确定性的东西。从这个意义上看,信息量越大说明消除未来不确定性的能力就越强,那么如何来定量地计算信息量呢?这里先对如何度量不确定性进行介绍,为此引入熵的概念如下:
设X是个随机变量,它取值x的概率为P(x),定义H(X)为随机变量X的熵
当a=2时,公式(1-1)得到的熵的单位是比特(bit);a=10时,熵的单位是底特(dit);当a=e时,熵的单位是奈特(nat)。在统计热力学中,熵是对一个系统混乱度的衡量,混乱度越小,熵越小;在统计热力学中,任何系统的演化,熵只能增加而不会减少,除非施加能量,否则熵不会降低,即熵增原理(热力学第二定律),即一个孤立系统总是从有序向着无序状态演化,系统趋向于熵增,最终达到熵的最大状态,也就是系统的最混乱无序状态。
在信息论中,熵的计算公式(1-1)中取a=2,由此得到是信息熵,它是对事件或系统不确定性的衡量,即一个事件发生的概率越大,其熵越小,不确定性也越小;反之,一个事件发生的概率越小,其熵越大,不确定性也越大。假设一个系统有n个可能状态S={E1, E2, …, En},每个事件的发生概率P={p1, p2, …, pn},则每个事件本身的信息熵为Ik=-Log2 pk,此时整个系统的信息熵H(S)是所有事件信息熵的平均值,它反映了整个系统的平均不确定性。
在信息论中,信息熵只能减少而不能增加,这就是信息不增性原理,也就是说对一个系统或者一个事件,不管你对它的评价(提供的信息)是真的还是假的,都增加了人们对它的认识,所以任何输入信息都只能减少人们对它的认识的不确定性,而不可能增加不确定性。
熵可以用来衡量随机变量X在不同取值上分布的纯度,随机变量X的熵越小,表明该随机变量在不同取值上的分布越不均匀。熵越大,该随机变量在不同取值上的分布越均匀。假设随机变量X可以取2个值A, B,取值为A的概率为p(0≤p≤1),取值为B的概率为1-p,则H(X)=-p log2p-(1-p)log2(1-p),图1-4给出了随着p从0变化到1的时候,H(X)的变化情况。当p=0, p=1时,H(X)=0; p=0.5时,H(X)=1最大;当p=0.1, p=0.9时,H(X)=0.4690;当p=0.25, p=0.75时,H(X)= 0.8113。
从图1-4中可以看出,当随机变量X的两个取值A和B出现的概率相同时,其不确定性最大。这点也可以进行如下理解。我们假设是A和B分别是2个球队,p是A球队获胜的概率,当p=0.5时,说明两个球队实力相等,有同样的获胜可能性,熵为最大值1,所以比赛结果的不确定性最大。而当p=0.9, A球队获胜的可能性就很大了,这时熵为0.4690,比赛结果的不确定性明显下降了。
图1-4 随机变量X的熵随其值A的概率p的变化情况
至今为止,本书还没有给出信息量的计算方法,而仅仅给出了信息熵,用来衡量事件或系统的不确定性。认为一个系统的信息熵就是信息量的说法是不正确的,因为信息熵是系统自身不确定性的一种度量指标,反映的是系统的内在特性,与信息量完全是两个概念。为了消除事件或系统存在的不确定性就需要提供额外的输入信息,信息量是用来衡量一个消息能够在多大程度上消除对于系统状态了解程度的不确定性的一个概念。一个消息的信息量越大,它消除决策的不确定性的效果就越好。能够完全消除一个事件或系统的不确定性而需要提供的最少额外输入信息量的值等于信息熵,也就是说为了完全消除一个事件或系统的不确定性,至少需要提供不少于其信息熵值的信息量。如果提供的信息量小于系统的信息熵,则不能完全消除其不确定性。那么有没有可能提供的信息量大于信息熵呢?回答是不可能的。比如一个人说“你提供的信息量太大了,都超出我的预料了”,这个说法仅仅是说信息量很大,超出了接收者的期望,但是并没有超过信息熵。实际情况是,当信息量等于信息熵时,已经完全可以消除系统的不确定性了,那些超出预料的信息量实际上是冗余的,对待研究系统和相关的决策是没有任何价值的。信息的作用是用来消除不确定性,那么信息是如何消除不确定性的呢?有A和B共2支球队比赛,假设它们获胜的概率相同,最终的结果有2种可能,A获胜或者B获胜,最终比赛结果这个事件的信息熵为1比特。如果有一个人没有观看比赛,他通过询问观看比赛的人最终结果是什么,如果A获胜回答Y,如果B获胜则回答N,他要知道比赛结果仅需要询问一次,得到1比特信息就可以了。也就是说在2种出现概率相同的状态中确定一个结果需要1比特的信息量,信息量正好等于信息熵。
在实际计算中,有时要对信息熵进行取整运算,这时可能出现信息量大于信息熵的情况,但这仅是计算上的细微差别。例如,在由3支球队参加的比赛中,每支队夺得第1名的概率相同,随机变量X的取值为1,2,3,分别代表第1、2、3支球队获得第1名,随机变量X取每个值的概率都是1/3,则H(X)=1.585比特,而为了消除随机变量X的不确定性,需要2比特的信息量,即最多需要询问2次就可以知道哪个队夺得了第1名。
在足球世界杯比赛中,有32支球队参加比赛,这里也假设每支球队获胜的概率相同,32支球队都可能夺冠,最终冠军有32种可能性,采用公式(1-2)计算得到最终冠军这个事件的信息熵为5。如果有一个人没有观看比赛,他希望知道最终哪支球队夺冠,他最多需要询问5次回答为Y或者N的问题就可以知道结果了,也就是说需要5比特的信息量就能够知道最终结果,这里信息量=信息熵=5比特。他是如何做到的呢?首先他把32支球队从1到32进行编号,然后把1~16号球队作为第1组,17~32号球队作为第2组,通过询问冠军是否在第1组,得到Y或N的回答(回答者提供了1比特信息),然后他将回答为Y的组(本例中为第1组)再分成第1分组(1~8号)和第2分组(9~16号),再次进行询问,依此类推,他最多询问5次就可以知道最终结果了,所需要的信息量为5比特(5次回答Y或者N),图1-5给出了上述决策过程形成的决策树模型。
图1-5 询问冠军球队的决策树模型
上面的32支球队参加的比赛有32种可能结果,用5比特的信息就可以确定了,所以信息量i和实际系统的状态数量N之间存在如下的近似关系:
公式(1-3)和公式(1-4)也解释了为什么公式(1-2)中对数的底数取为2。同样公式(1-3)和公式(1-4)也向人们揭示了信息在描述复杂现象时表现出的强大能力,在1024个人参加的全国数学竞赛中找出获得第1名的选手,用10比特信息就可以了。公式(1-3)和公式(1-4)称为近似关系是因为它们是在所有状态出现概率均等的条件下成立,在不同状态出现概率不等的情况下,信息量i的值比公式(1-4)计算得到的数更小。
上面介绍32支球队参加足球世界杯比赛的例子中,假设是每个队获得冠军的可能性相等,即每个球队获得冠军的概率都是1/32,这种情况下询问5次就可以知道最终结果了。但是在实际情况中,各队的实力差距很大,如果把实力较强的17支队分为第1组,实力较差的分在第2组,这样利用先验知识就可以先排除掉第2组,使决策范围缩小一半,这时询问4次就可以知道最终结果了。这两种在不同获胜概率下决策所需要信息量的差异情况,与图1-4中反映的随机变量分布越均匀,随机变量的熵就越大,系统不确定性就越大,消除这种不确定性需要输入的信息量就越大的结论是一致的。
对信息量认识的另外一个错误认识是把它看成数据量。一个文本(或者文档)的规模可以很大,称之为数据量大,但是这些数据如果不能用来消除决策的不确定性,它的信息量并不大。比如,你要决策的问题是哪个球队会夺冠,给你一本500页的有关烹调的书并不会给你带去任何有用的信息。所以,数据量大不等于信息量大,信息量和数据的数量没有直接对应的关系。
在每次足球世界杯比赛中都会出现“黑马”,就是看上去不能获胜的球队赢得了比赛胜利。每次出现“黑马”后,都会引起很大的轰动。为什么“黑马”获胜后会引起轰动,而本来实力强的球队获得胜利就不能引起大家的共鸣呢?从信息论的角度看,所谓“黑马”就是获胜概率很小的球队,它获胜与人们普遍的预期相反,所以当它发生后带来的信息量就大。因此,出现概率越小的事件在发生后,它带来的信息量就越大,信息量与事件出现的概率成反比。比如说,一个人告诉你他今天吃了三顿饭,你不会感到有什么新奇,但是如果一个人说他一个星期就吃了一顿饭,就会引起你的巨大关注。
在当今的智能化时代(i时代),企业获得的信息种类和数量与日俱增,企业正在面临“信息爆炸”的困境,所谓“信息爆炸”是指企业的信息处理速度赶不上信息增加的速度,许多信息来不及也没有能力去处理,导致大量的信息被丢弃或束之高阁,而那些未被关注和处理的信息中可能包含对企业经营决策至关重要的信息。如何对信息进行过滤,发现有重要价值的信息是企业普遍关心的问题。在此,作者建议企业一方面要加强和提升企业的信息处理速度和能力,另外一方面要特别关注在市场竞争、企业运作、客户服务、员工心态等方面出现的小概率事件,不要简单地把平常不会出现的小概率事件当成偶然事件,要对它们进行必要的分析,看看它们是否会发展成为未来的必然事件,从而及时采取有针对性的措施。许多企业在经营上遇到的重大难题,其实都是不重视发生的小概率事件问题造成的。比如,曾经是手机行业龙头老大的诺基亚公司,其经营失败主要是不重视苹果公司和三星公司等在智能手机研发方面的消息,导致公司的手机销售业绩在数年内迅速下跌,并最终退出了手机市场。
1.2.2 信息的价值
信息的作用是消除对未来的不确定性,信息的价值就在于信息在多大范围内为多少人消除了不确定性。因此,信息的价值不仅仅取决于信息量本身,还受到其传输速度和信息共享范围的影响。公式(1-5)定性地描述了信息的价值,其中I是信息量,V是传递速度,S是共享范围。
在互联网得到广泛应用之前,信息的传递速度很低,共享范围很小,所以即使有重要的信息产生,对全社会的影响力也非常有限。今天发达的网络通信技术,极大地提高了信息的传递速度和共享范围,使得即使是一个信息量非常小的事情都可能产生巨大的影响。许多人也借助互联网的力量而一夜成名,某些并不想炒作出名的人,也会因为互联网而无意中成为名人。
央视某女记者因为想与网友们分享其愉快的网购经历,在论坛上发了几张组装鞋柜的照片,并留言“头天下订单,第2天就到货,感觉真不错”,这样的帖子和留言在没有互联网的时代会很快被人遗忘。但是今天她没有想到因为这个帖子,她竟会被人从茫茫人海中“搜”了出来。首先是某个网友看到鞋柜比较高,就提出了一个问题,说“这个鞋柜这么高,她是不是同性恋啊?”这个问题本身是一个很无聊的问题,在现实生活中人们也会一笑置之。但是,互联网是个奇怪的东西,作者称它为“万能应答机”或“有问必答机”,在互联网上任何时间提出任何问题都会有人回答。针对网友提出的问题,大家开始寻找答案,从照片上的房间地面刷绿色油漆这个信息推理出房子是租的(北京人自家的住房一般会铺地板),从房间结构猜测出其所租房屋在北京所处的地段,并据此到租房网上寻找相关信息,然后从放上鞋架的鞋子推断发帖者是某运动品牌的狂热爱好者及其大致年龄、性别,最终逐步锁定了发帖者的毕业院校、工作单位及真正身份。事实证明,发帖者和同性恋没有任何关系。可以说,这些网友的水平很高,能够根据非常少的信息,迅速从茫茫人海中将发帖者“搜”了出来。这件事情本身没有任何意义,正如有位专家说“好热闹的帖子,讨论实质性的东西并不多,不得不承认,一群寂寞的人啊!”
现在,根据中国国家互联网信息办公室2013年9月发布的数据,中国网民数量已达6.04亿,微博用户规模达到3.31亿。微信从2011年1月发布至今,用户规模已经突破6亿。如此多的人数,如果对任何问题感兴趣,即使是一个非常没有意义的事情也会搞得轰轰烈烈。在互联网上,什么样的人都有,《纽约客》的一幅漫画“一条狗坐在计算机前,对它的狗类朋友说,在互联网上,没有人知道你是一条狗。”如何让众多网民不去响应那些无聊的帖子,让广大网民发挥他们的智慧为社会做些有价值的事情呢?这就是最近几年兴起并得到广泛重视的众包模式(crowd sourcing)有望解决的问题,第2章将介绍众包模式及其成功应用案例。