5月27日,快手扔出了一颗技术深水炸弹。
视频理解首次超越Gemini
今天上午,快手正式发布了自研多模态大模型Keye-VL-2.0。在多项权威视频理解评测中,Keye-VL-2.0的得分全面超越了谷歌Gemini 3.5 Flash,成为目前全球视频理解能力最强的大模型。
这不是小打小闹的"略有提升",而是实打实的全面超越。在TimeLens细粒度视频时序理解榜单上,Keye-VL-2.0在ActivityNet任务中拿下了58.5的mIoU,超越了Gemini-2.5-Pro的58.1和Gemini 3 Flash的57.0。在高光时刻提取任务中更是飙到了70.1的mIoU,大幅超过Gemini 3 Flash的49.5。
说人话就是:这个模型不仅能"看懂"视频里有什么,还能准确理解事情发生的先后顺序、重要时刻在哪里。相比之前那些只会看图的大模型,这是质的飞跃。
DSA机制:像人一样看电影
Keye-VL-2.0最大的技术创新,是首次引入了DSA(动态稀疏注意力)机制。
传统的注意力机制,会对视频的每一帧都进行同等程度的分析。问题在于,视频有海量帧,每帧都分析一遍的计算量是巨大的,而且很多画面其实没那么重要。比如你不会盯着背景里的路人看,但大模型之前会。
DSA机制让模型学会像人看电影一样:把注意力集中在主角和关键情节上,其他内容快速跳过。这不仅提升了理解质量,还让推理速度比同类模型快了2倍,推理成本降低了60%。
256K超长上下文:2小时视频一次性分析
Keye-VL-2.0支持256K超长上下文,可以一次性分析长达2小时的视频内容。
这是什么概念?一部标准电影大约90分钟,一集综艺大约45分钟,一段vlog可能20分钟。256K上下文意味着这些内容都可以一股脑丢给模型,让它从头看到尾,自己判断哪些是重点、哪些是水份。
更关键的是,Keye-VL-2.0打破了"输入帧数越多准确率越低"的魔咒。当输入从64帧扩展到512帧时,模型平均准确率不仅没有衰减,反而从35.34%逆势飙升至42.44%。这种反直觉的表现,证明了其在超长序列下的绝对统治力。
3亿用户的幕后功臣
对快手来说,Keye-VL-2.0的意义远不止技术突破。作为国内最大的短视频平台,快手每天有超过3亿用户上传和观看视频。
视频推荐精准度、内容审核效率、智能剪辑辅助……这些能力的底层,都依赖视频理解能力。Keye-VL-2.0的应用,将让快手的内容推荐更懂用户、审核系统更聪明、剪辑工具更好用。
当然,快手也计划将这一技术开放给第三方开发者。这对整个视频AI产业来说是个好消息——以后做视频分析、视频摘要、视频问答的门槛,都会因此降低。
国产多模态的又一次突破
2026年以来,国产AI模型的进步速度让人目不暇接。从DeepSeek到通义千问,从智谱到快手,每个季度都有新技术、新突破。
Keye-VL-2.0的意义在于,它证明了在多模态视频理解这个细分领域,国产模型已经站到了全球最前列。不是跟随者,是领跑者。
对普通用户来说,这可能只是一条科技新闻。但对从业者来说,这是国产AI能力地图上的又一个重要坐标。

快手闷声干大事啊
快手这次技术突破挺实在的,DSA机制听起来简单,但效果提升很明显。256K上下文解决了很多实际场景的问题。
国产视频理解模型终于站到前面了,不容易。
以后做视频分析的工具会越来越多吧,期待低成本方案。
Gemini被超越,谷歌该着急了