快手Keye-VL-2.0发布：视频理解首次超越Gemini，256K超长上下文意味着什么

5月27日，快手扔出了一颗技术深水炸弹。

视频理解首次超越Gemini

今天上午，快手正式发布了自研多模态大模型Keye-VL-2.0。在多项权威视频理解评测中，Keye-VL-2.0的得分全面超越了谷歌Gemini 3.5 Flash，成为目前全球视频理解能力最强的大模型。

这不是小打小闹的"略有提升"，而是实打实的全面超越。在TimeLens细粒度视频时序理解榜单上，Keye-VL-2.0在ActivityNet任务中拿下了58.5的mIoU，超越了Gemini-2.5-Pro的58.1和Gemini 3 Flash的57.0。在高光时刻提取任务中更是飙到了70.1的mIoU，大幅超过Gemini 3 Flash的49.5。

说人话就是：这个模型不仅能"看懂"视频里有什么，还能准确理解事情发生的先后顺序、重要时刻在哪里。相比之前那些只会看图的大模型，这是质的飞跃。

DSA机制：像人一样看电影

Keye-VL-2.0最大的技术创新，是首次引入了DSA（动态稀疏注意力）机制。

传统的注意力机制，会对视频的每一帧都进行同等程度的分析。问题在于，视频有海量帧，每帧都分析一遍的计算量是巨大的，而且很多画面其实没那么重要。比如你不会盯着背景里的路人看，但大模型之前会。

DSA机制让模型学会像人看电影一样：把注意力集中在主角和关键情节上，其他内容快速跳过。这不仅提升了理解质量，还让推理速度比同类模型快了2倍，推理成本降低了60%。

256K超长上下文：2小时视频一次性分析

Keye-VL-2.0支持256K超长上下文，可以一次性分析长达2小时的视频内容。

这是什么概念？一部标准电影大约90分钟，一集综艺大约45分钟，一段vlog可能20分钟。256K上下文意味着这些内容都可以一股脑丢给模型，让它从头看到尾，自己判断哪些是重点、哪些是水份。

更关键的是，Keye-VL-2.0打破了"输入帧数越多准确率越低"的魔咒。当输入从64帧扩展到512帧时，模型平均准确率不仅没有衰减，反而从35.34%逆势飙升至42.44%。这种反直觉的表现，证明了其在超长序列下的绝对统治力。

3亿用户的幕后功臣

对快手来说，Keye-VL-2.0的意义远不止技术突破。作为国内最大的短视频平台，快手每天有超过3亿用户上传和观看视频。

视频推荐精准度、内容审核效率、智能剪辑辅助……这些能力的底层，都依赖视频理解能力。Keye-VL-2.0的应用，将让快手的内容推荐更懂用户、审核系统更聪明、剪辑工具更好用。

当然，快手也计划将这一技术开放给第三方开发者。这对整个视频AI产业来说是个好消息——以后做视频分析、视频摘要、视频问答的门槛，都会因此降低。

国产多模态的又一次突破

2026年以来，国产AI模型的进步速度让人目不暇接。从DeepSeek到通义千问，从智谱到快手，每个季度都有新技术、新突破。

Keye-VL-2.0的意义在于，它证明了在多模态视频理解这个细分领域，国产模型已经站到了全球最前列。不是跟随者，是领跑者。

对普通用户来说，这可能只是一条科技新闻。但对从业者来说，这是国产AI能力地图上的又一个重要坐标。