信息论基础(1)初识信息和离散信源
1个回答
展开全部
首先必须明确,什么是信息?
如果从科学史角度,必然要从热力学第一第二定律讲起,直到麦克斯韦妖,再到信息论,兰道尔极限甚至于宇宙本质的相关概念。但这里仅仅从对信息的认识做一个基础的概述。
更多信息可以参考以下视频:
https://www.bilibili.com/bangumi/play/ep203928/
https://www.bilibili.com/video/av41463132
https://www.bilibili.com/video/av41539594
https://www.bilibili.com/video/av42589628
https://www.bilibili.com/video/av8506013/
https://www.bilibili.com/video/av8712938
https://www.bilibili.com/video/av31874991
https://www.bilibili.com/video/av32329782
https://www.bilibili.com/video/av13807165
扯得远了,在这里多说一句,确定一个概念的边沿是非常重要的。在牛顿之前,motion(运动)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代及其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂······而牛顿重新定义了运动的概念,即物体在一段时间内从一点到另一点的移动轨迹。因而,牛顿才能对其进行描述,即点与点之间的长度、所经过的时间。因而,牛顿才能提出速度、加速度等概念。而后,牛顿又重新定义了「质量」「密度」「体积」等概念,最终才得以构建经典物理体系。
那么,我们首先要明白,什么是信息?
这是一个古老的问题,又是一个现代的问题,也是一个迄今为止仍然众说纷纭、悬而未决的问题,特别是在社会所认可的广义信息的层面上。
你要是问:“什么是信息?”,人人都能列出一大串他称之为‘信息’的东西:新闻、消息、音乐、图片……。然而如果问:“信息是什么?”那就难以回答了。因为你可以说:“音乐是信息”,但你不能说:“信息是音乐”;你可以说:“照片是信息”,但你不能说:“信息是照片”。要给信息下个定义是不容易的。‘信息’的定义需要从许多具体信息表现形式中抽象出它们的共性来。
中国古人理解的信息其实很简单,正如李清照的名句中所述:“不乞隋珠与和璧,只乞乡关新信息。”,看来这只是通俗意义上的‘音讯’或‘消息’而已。
现代人比较考究,注重科学。因此而成天琢磨:信息到底是什么?信息是主观的还是客观的?是相对的还是绝对的?
昨天北京发大水,你将这个消息,用电话告知你南京的两个朋友,可是,A说他早知此事,B原来不知晓,因此,这条消息对A来说,没有增加任何信息,对B来说就增加了信息。B抱着的小狗好像也听见了电话中的声音,但它不懂人的语言,这对它来说也不是信息。
信息是模糊的还是精确的?
你走到树林里,艳阳高照、和风习习、桃红李白、燕飞鸟鸣,大自然传递给我们许多信息,这些算是没有精确度量过的、模糊的信息。
信息和‘知识’是一码事吗?也应该不是。众所周知,我们的信息化社会虽然充满了信息,但其中“鱼龙混杂,良莠不齐”,以至于大家都希望自己的孩子不要整天沉迷于网上,许多人抱怨:“信息虽发达,知识却贫乏”。所以,信息并不等同于知识!
文学家、哲学家、社会学家……,各家各派都对‘信息’有不同的理解和说法。这其中,物理学家们,是如何理解和定义信息的呢?
物理学家们的研究对象是物质和物质的运动,即物质和能量。在他们看来,信息是什么呢?是否能归类进这两个他们所熟悉的概念呢?
信息显然不是物质,它应该是物质的一种属性,听起来和能量有些类似,但它显然也不是能量。物理学中的能量早就有其精确的、可度量的定义,它衡量的是物体(物质)做功的本领。信息与这种‘功’似乎无直接关联。当然,我们又知道,信息是很有用的,个人和社会都可以利用信息来产生价值,这不又有点类似于‘做功’了吗?对此,物理学家仍然摇头:不一样啊,你说的好像是精神上的价值。
信息属于精神范畴吗?那也不对啊,从科学家们的眼中看来,信息,仍然应该是一种独立于人类的主观精神世界、客观存在的东西。因此,到了最后,有人便宣称说:
“组成我们的客观世界,有三大基本要素:除了物质和能量之外,还有信息。”
美国学者、哈佛大学的欧廷格(A.G.Oettinger)对这三大基本要素作了精辟的诠释:
“没有物质什么都不存在,没有能量什么都不会发生,没有信息什么都没有意义。”
尽管对“信息是什么?”的问题难有定论,但通过与物理学中定义的物质和能量相类比,科学家们恍然大悟:信息的概念如此混乱,可能是因为我们没有给它一个定量的描述。科学理论需要物理量的量化,量化后才能建立数学模型。如果我们能将‘信息’量化,问题可能就会好办多了!
于是,在二十世纪40年代后期,一个年轻的科学家,后来被人誉为信息和数字通讯之父的香农,登上了科学技术的历史舞台。
香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出了决定性的贡献。感谢香农,在定量研究的科学领域中,他将原来模模糊糊的信息概念,天才地给以了量化,使我们大家在解数学问题时也能‘牛刀小试’。
其实香农并不是给信息量化的第一人,巨人也得站在前人的肩膀上。1928年,哈特利(R.V. H. Harley)就曾建议用N log D这个量表示信息量。1949年,控制论创始人维纳将度量信息的概念引向热力学。1948年,香农认为,信息是对事物运动状态或存在方式的不确定性的描述,并把哈特利的公式扩大到概率 不同的情况。
信息论中的信息,和日常用语中的信息意思有所差别。香农将信息中的「意义」剥离。举例来说,在信息论中,red仅仅是「red」这个3个字母组成的字符而已,而至于red所代表的「红色」,不是信息论所关注的内容。换言之,信息论只是负责将「red」从Alice这里复现到Bob这里。至于「red」在Alice这里代表「红色」而在Bob那里代表「绿色」,不是信息论关心的事情。
先通过几个熟知的概念区分一下信息:
其次是通信相关的概念:
首先我们给出几个主要概念的定义,接下来给出相应解释
自信息有以下几个问题值得关注
为了能够更好理解互信息,我们接下来先引入信息熵的概念。
自信息只能代表一个随机事件带来的信息,当我们需要描述一个随机变量的所包含的信息,或者说度量一个随机变量的不确定度时,就需要使用熵来定义。
在此基础上可以做出以下定义:
上图句子开头是“对称性”
在符号表达上,如果采用 作为底,则熵表示为 ,实际上易证,有
也就是说我们可以任意改变定义中对数的底,只要乘以一个合适的常书因子,就可以自由变换。
接下来我们尝试诠释熵的现实意义:
当我们把单个随机变量推广到两个随机变量,也就产生了联合熵的概念。
需要注意的是,当X,Y不相互独立时,X和Y的联合熵大于X和Y各自的熵之和。
证明如下:
第二个也可采用类似方法证明
注意这里第一个H(X|Y)应为H(X,Y)
下面引入机器学习里两个对熵的定义
分析:
相对熵的关系
以通信角度看待互信息
互信息的性质:
首先是可达性的证明(accessibility),也就是找到一个解:
其次是结论的逆的证明(converse),也就是不可能超过某个边界
将以上两个证明联立在一起,解在边界上时,也就找到了问题的最优解。
对于凸集而言,任意两个元素连线的所有元素都在集合内部
而非凸集,其连线的所有元素有可能不在集合内部
注意到这里定义为下凸和上凸函数,不同于别处的凹凸函数的定义。
其中0<= <=1
凸函数的性质:
这里的凸函数特指下凸函数
“严格”应该是指落在弦的下方或上方,而不能落在弦上。也就是二阶导数不为零。
举例:
连上之前讲过的共有如下几个重要不等式:
如果从科学史角度,必然要从热力学第一第二定律讲起,直到麦克斯韦妖,再到信息论,兰道尔极限甚至于宇宙本质的相关概念。但这里仅仅从对信息的认识做一个基础的概述。
更多信息可以参考以下视频:
https://www.bilibili.com/bangumi/play/ep203928/
https://www.bilibili.com/video/av41463132
https://www.bilibili.com/video/av41539594
https://www.bilibili.com/video/av42589628
https://www.bilibili.com/video/av8506013/
https://www.bilibili.com/video/av8712938
https://www.bilibili.com/video/av31874991
https://www.bilibili.com/video/av32329782
https://www.bilibili.com/video/av13807165
扯得远了,在这里多说一句,确定一个概念的边沿是非常重要的。在牛顿之前,motion(运动)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代及其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂······而牛顿重新定义了运动的概念,即物体在一段时间内从一点到另一点的移动轨迹。因而,牛顿才能对其进行描述,即点与点之间的长度、所经过的时间。因而,牛顿才能提出速度、加速度等概念。而后,牛顿又重新定义了「质量」「密度」「体积」等概念,最终才得以构建经典物理体系。
那么,我们首先要明白,什么是信息?
这是一个古老的问题,又是一个现代的问题,也是一个迄今为止仍然众说纷纭、悬而未决的问题,特别是在社会所认可的广义信息的层面上。
你要是问:“什么是信息?”,人人都能列出一大串他称之为‘信息’的东西:新闻、消息、音乐、图片……。然而如果问:“信息是什么?”那就难以回答了。因为你可以说:“音乐是信息”,但你不能说:“信息是音乐”;你可以说:“照片是信息”,但你不能说:“信息是照片”。要给信息下个定义是不容易的。‘信息’的定义需要从许多具体信息表现形式中抽象出它们的共性来。
中国古人理解的信息其实很简单,正如李清照的名句中所述:“不乞隋珠与和璧,只乞乡关新信息。”,看来这只是通俗意义上的‘音讯’或‘消息’而已。
现代人比较考究,注重科学。因此而成天琢磨:信息到底是什么?信息是主观的还是客观的?是相对的还是绝对的?
昨天北京发大水,你将这个消息,用电话告知你南京的两个朋友,可是,A说他早知此事,B原来不知晓,因此,这条消息对A来说,没有增加任何信息,对B来说就增加了信息。B抱着的小狗好像也听见了电话中的声音,但它不懂人的语言,这对它来说也不是信息。
信息是模糊的还是精确的?
你走到树林里,艳阳高照、和风习习、桃红李白、燕飞鸟鸣,大自然传递给我们许多信息,这些算是没有精确度量过的、模糊的信息。
信息和‘知识’是一码事吗?也应该不是。众所周知,我们的信息化社会虽然充满了信息,但其中“鱼龙混杂,良莠不齐”,以至于大家都希望自己的孩子不要整天沉迷于网上,许多人抱怨:“信息虽发达,知识却贫乏”。所以,信息并不等同于知识!
文学家、哲学家、社会学家……,各家各派都对‘信息’有不同的理解和说法。这其中,物理学家们,是如何理解和定义信息的呢?
物理学家们的研究对象是物质和物质的运动,即物质和能量。在他们看来,信息是什么呢?是否能归类进这两个他们所熟悉的概念呢?
信息显然不是物质,它应该是物质的一种属性,听起来和能量有些类似,但它显然也不是能量。物理学中的能量早就有其精确的、可度量的定义,它衡量的是物体(物质)做功的本领。信息与这种‘功’似乎无直接关联。当然,我们又知道,信息是很有用的,个人和社会都可以利用信息来产生价值,这不又有点类似于‘做功’了吗?对此,物理学家仍然摇头:不一样啊,你说的好像是精神上的价值。
信息属于精神范畴吗?那也不对啊,从科学家们的眼中看来,信息,仍然应该是一种独立于人类的主观精神世界、客观存在的东西。因此,到了最后,有人便宣称说:
“组成我们的客观世界,有三大基本要素:除了物质和能量之外,还有信息。”
美国学者、哈佛大学的欧廷格(A.G.Oettinger)对这三大基本要素作了精辟的诠释:
“没有物质什么都不存在,没有能量什么都不会发生,没有信息什么都没有意义。”
尽管对“信息是什么?”的问题难有定论,但通过与物理学中定义的物质和能量相类比,科学家们恍然大悟:信息的概念如此混乱,可能是因为我们没有给它一个定量的描述。科学理论需要物理量的量化,量化后才能建立数学模型。如果我们能将‘信息’量化,问题可能就会好办多了!
于是,在二十世纪40年代后期,一个年轻的科学家,后来被人誉为信息和数字通讯之父的香农,登上了科学技术的历史舞台。
香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出了决定性的贡献。感谢香农,在定量研究的科学领域中,他将原来模模糊糊的信息概念,天才地给以了量化,使我们大家在解数学问题时也能‘牛刀小试’。
其实香农并不是给信息量化的第一人,巨人也得站在前人的肩膀上。1928年,哈特利(R.V. H. Harley)就曾建议用N log D这个量表示信息量。1949年,控制论创始人维纳将度量信息的概念引向热力学。1948年,香农认为,信息是对事物运动状态或存在方式的不确定性的描述,并把哈特利的公式扩大到概率 不同的情况。
信息论中的信息,和日常用语中的信息意思有所差别。香农将信息中的「意义」剥离。举例来说,在信息论中,red仅仅是「red」这个3个字母组成的字符而已,而至于red所代表的「红色」,不是信息论所关注的内容。换言之,信息论只是负责将「red」从Alice这里复现到Bob这里。至于「red」在Alice这里代表「红色」而在Bob那里代表「绿色」,不是信息论关心的事情。
先通过几个熟知的概念区分一下信息:
其次是通信相关的概念:
首先我们给出几个主要概念的定义,接下来给出相应解释
自信息有以下几个问题值得关注
为了能够更好理解互信息,我们接下来先引入信息熵的概念。
自信息只能代表一个随机事件带来的信息,当我们需要描述一个随机变量的所包含的信息,或者说度量一个随机变量的不确定度时,就需要使用熵来定义。
在此基础上可以做出以下定义:
上图句子开头是“对称性”
在符号表达上,如果采用 作为底,则熵表示为 ,实际上易证,有
也就是说我们可以任意改变定义中对数的底,只要乘以一个合适的常书因子,就可以自由变换。
接下来我们尝试诠释熵的现实意义:
当我们把单个随机变量推广到两个随机变量,也就产生了联合熵的概念。
需要注意的是,当X,Y不相互独立时,X和Y的联合熵大于X和Y各自的熵之和。
证明如下:
第二个也可采用类似方法证明
注意这里第一个H(X|Y)应为H(X,Y)
下面引入机器学习里两个对熵的定义
分析:
相对熵的关系
以通信角度看待互信息
互信息的性质:
首先是可达性的证明(accessibility),也就是找到一个解:
其次是结论的逆的证明(converse),也就是不可能超过某个边界
将以上两个证明联立在一起,解在边界上时,也就找到了问题的最优解。
对于凸集而言,任意两个元素连线的所有元素都在集合内部
而非凸集,其连线的所有元素有可能不在集合内部
注意到这里定义为下凸和上凸函数,不同于别处的凹凸函数的定义。
其中0<= <=1
凸函数的性质:
这里的凸函数特指下凸函数
“严格”应该是指落在弦的下方或上方,而不能落在弦上。也就是二阶导数不为零。
举例:
连上之前讲过的共有如下几个重要不等式:
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询