最近看到一条不太起眼但很有意思的新闻:苹果的工程师团队发布了一篇论文,推出代号叫PICO的感知图像编解码器。
不是新瓶装旧酒,是换个思路
图像压缩这件事,已经搞了几十年了。从JPEG到JPEG2000,从VVC到AV1,每一代都在进步,但核心思路都差不多:减少像素误差,让压缩后的图片在视觉上尽量接近原图。
PICO不一样。它不是要"看起来像",而是要"看起来对"。
翻译成人话就是:JPEG在乎的是你看着差不多,PICO在乎的是这张图传递的信息有没有丢失。
比如一张猫的照片,JPEG压缩后可能边缘有点模糊、色块有点断层,但肉眼很难发现。PICO压缩后,关键特征——猫的耳朵、眼睛、尾巴——这些信息反而被保护得更好,而背景里那些无关紧要的花纹细节,可以压得更狠。
70%压缩率提升是什么概念
官方数据说最高能提升70%的压缩率。这意味着原来100MB的图片,现在可能只需要30MB,而且AI看这张图的理解准确率反而更高。
当然,这个数字是有前提的。对自然风景、人物照片这类内容,PICO效果最好。对于那些需要保留每一个像素精确度的场景(比如医学影像、卫星照片),传统方法可能更稳妥。
但对AI来说,PICO的思路简直是量身定做。
为什么这对AI很重要
现在的AI模型,处理图片的能力越来越强,但图片的体积也越来越大。一张4K照片动不动就几十MB,一次训练要用掉多少带宽和存储?
PICO的价值不在于让你手机存更多照片,而在于让AI训练和推理更高效。同样的带宽,能传输更多信息;同样的存储,能装下更多训练数据。
对做AI应用的人来说,这可能比某个新模型发布更值得关注。毕竟模型参数再大,处理图片的速度慢、传输成本高,体验也好不到哪去。
苹果又在闷声搞大事?
很多人对苹果的印象还停留在"手机电脑卖得好"的阶段。但实际上,苹果在AI基础设施这块的动作一直没停。
从自研芯片到端侧AI能力,从iOS的本地模型到现在的PICO编解码器。这些东西不像某个大模型发布那样炸裂,但都是实打实的基础设施。
就像修路不一定比造车耀眼,但没有好路,再好的车也跑不快。

从数据看,这种感知压缩对AI训练效率提升很明显。苹果这步棋下得准。
修路比造车重要,这个比喻很到位。
苹果在基础设施这块一直很扎实。别人追大模型,它在修路,这思路没毛病。
70%压缩率提升,而且是AI理解效果更好,这比什么模型参数都实在。
所以以后拍照片可以更放肆了??