视频编码压缩原理：从日常观看说起

发布时间：2026-01-10 22:20:58 阅读：27 次

你有没有注意过，一部两小时的高清电影，文件大小可能只有2GB左右？如果按原始画面数据算，每秒要记录几十万像素点的颜色和亮度，那容量早就上TB了。这背后靠的就是视频编码压缩技术。

画面之间有很多重复

比如你看一集电视剧，镜头经常固定几分钟不动，人物说话时背景几乎没变化。压缩算法会识别这些相似帧，只记录变化的部分。像H.264、H.265这类编码标准，就把视频分成关键帧（I帧）和预测帧（P帧、B帧）。I帧是完整画面，P帧则通过前后对比推测出内容，数据量能减少七八成。

人眼看不到的细节可以删

视频压缩还会“偷工减料”——不是真的偷懒，而是利用人眼对某些信息不敏感的特点。比如颜色分辨率比亮度低一些，我们也不太察觉。编码时会把色度信息降采样，比如从4:4:4变成4:2:0，视觉差别不大，但数据直接砍掉一半。

还有高频细节，比如毛衣上的细纹、树叶边缘的抖动，在小屏幕上根本看不清。压缩过程会用DCT（离散余弦变换）把这些高频部分舍去，保留主要轮廓，就像画画时只勾主线不画阴影。

代码里的压缩示意

虽然实际编码复杂得多，但核心思路可以用简单方式表达。例如在处理图像块时：

<!-- 伪代码示例：DCT量化过程 -->
<matrix name="original">
  [128, 132, 129, 130],
  [130, 134, 131, 132],
  [129, 133, 130, 131],
  [128, 132, 129, 130]
</matrix>

<!-- 经DCT变换后得到频域数据 -->
<matrix name="dct_result">
  [520,  12,   4,   0],
  [ 10,  -3,   1,   0],
  [  4,  -1,   0,   0],
  [  0,   0,   0,   0]
</matrix>

<!-- 量化：除以权重矩阵，舍去小数值 -->
<matrix name="quantized">
  [35, 8, 2, 0],
  [7, -2, 0, 0],
  [3, -1, 0, 0],
  [0,  0, 0, 0]
</matrix>

这个过程让大量接近零的数值归零，后续用熵编码进一步压缩，最终实现高效存储。

手机拍视频也在实时压缩

你现在用手机录一段1080p视频，其实设备已经在后台用HEVC（H.265）编码实时压缩了。不然几分钟就占满存储空间。直播推流更是如此，带宽有限，必须边拍边压，传到服务器再分发。要是没有高效的编码算法，短视频App早就卡成幻灯片了。

不同场景用的参数也不同。视频会议追求低延迟，压缩率稍低但速度快；而Netflix上传影片可以花几小时做高精度编码，换来更小体积和更高画质。