数据压缩

来自计算思维百科
跳转至: 导航搜索
数据压缩是指在不丢失有用信息的前提下,减少数据的冗余、缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。
数据压缩.png

基本概念

数据压缩能够实现是因为多数现实世界的数据都有统计冗余。例如,字母“e”在英语中比字母“z”更加常用,字母“q”后面是“z”的可能性非常小。无损压缩算法通常利用了统计冗余,这样就能更加简练地、但仍然是完整地表示发送方的数据。

如果允许一定程度的保真度损失,那么还可以实现进一步的压缩。例如,人们看图画或者电视画面的时候可能并不会注意到一些细节并不完善。同样,两个音频录音采样序列可能听起来一样,但实际上并不完全一样。有损压缩算法在带来微小差别的情况下使用较少的位数表示图像、视频或者音频。

由于可以帮助减少如硬盘空间与连接带宽这样的昂贵资源的消耗,所以压缩非常重要,然而压缩需要消耗信息处理资源,这也可能是费用昂贵的。所以数据压缩机制的设计需要在压缩能力、失真度、所需计算资源以及其它需要考虑的不同因素之间进行折衷。

应用范围

数据压缩技术,广泛应用于工业、农业、国防、军事、科技、建筑、机械电子、航空、天、影视新闻、天 文、气象、卫星、遥感、物探、海洋、环保等各个领域,成为人类生活中不可缺少的重要组成部分。

使用方法及步骤

数据压缩技术在各方面应用时,采用哪种压缩方法,要根据信号类型和应用目的不同等具体需要而定。

应用案例

应用1-音频压缩

案例:

音频数据压缩思路是去除音频数据中对正确还原音频信号没有影响,或者影响很小的那部分数据,仅仅保留对还原音频信号有用的那部分数据。并通过对保留的音频数据重新编码,进一步减少表示音频所需的二进制数位数。

减少音频数据的最直接方法是去除冗余数据。由于音频信号量化后得到的二进制数的数值范围是针对音频信号的整个动态范围设定的,对于小幅度音频信号,大量二进制位是冗余的。当某段音频信号的幅度范围一直维持在0-0.5伏时,表示量化后幅值的8位二进制数的数值范围为000000-00011010,由于8位二进制数的高三位固定为0,因此,可以通过重新编码,省略这三位冗余的二进制数。

应用2-文本压缩

案例:

“中国”是“中华人民共和国”的简称,但前者的字数是2,后者则是7,但我们都不会对它们俩所要表达的意思产生误解,这是因为前者保留了信息中最“关键点”。同时,作为有思维能力的人类,我们可以根据前后词汇关系和知识积累,就可推断出其原来的全部信息。压缩技术也一样,在不影响文件的基本使用的前提下,只保留原数据中一些“关键点”,去掉了数据中的重复的、冗余的信息,从而达到压缩的目的。

应用3-压被子

在日常生活中,被子的销售常常也与数据压缩有关。我们知道,棉被的体积大,不容易运输。所以,销售商就想到把它们装进被子里面然后把袋子抽成真空,也就把被子里面的空气抽走,这个抽走空气的过程实际上就是数据压缩的过程。这里的“空气”就是数据。

可以体现的计算思维

数据压缩体现了计算思维中的转化和折中的思想,通过转化状态以减少数据量来减少数据的冗余,而这个过程常常需要在压缩能力、失真度、所需计算资源以及其它需要考虑的不同因素之间进行折中。