这周AI圈的热闹都在Anthropic和OpenAI那边,谷歌倒是悄咪咪发了两个东西。没开发布会,没请媒体,但技术含金量都不低。我花了两天研究了一下,先说结论:这两个发布分别代表了谷歌在多模态交互和模型架构创新上同时发力,值得认真看看。
Gemini 3.5 Live Translate:翻译终于不是"对讲机"了
6月9号,Google DeepMind首席科学家Jeff Dean亲自发帖官宣:Gemini 3.5 Live Translate正式发布。这不是一次常规迭代,而是从"等你说完再翻"变成"边听边译"的范式跃迁。
说人话就是:过去的语音翻译,你说一句它翻一句,中间那几秒空白让对话始终有个断层。Gemini 3.5 Live Translate把这个断层填上了——话音还没落,译文已经在耳边响起,延迟压缩到几秒级别,而且是连贯输出的,没有那种一顿一顿的卡顿感。
更关键的是,它不是冷冰冰的机器音。模型会保留说话人的语调、语速和音高。对方着急,译音也跟着急;对方慢条斯理,译音也跟着缓。这种"带着情绪"的翻译,让跨语言对话第一次有了真人聊天的温度。
支持70多种语言自动识别互译,嘈杂环境也能稳定运行。谷歌翻译App已经同步上线,安卓还多了个"听筒模式"——像打电话一样把手机贴到耳边,译音从听筒出来,没带耳机也不尴尬。Google Meet也从之前只支持5种语言一口气扩展到2000多种语言组合。东南亚网约车平台Grab已经接入,每月超过1000万次司机和乘客的跨语言沟通在用。
DiffusionGemma:用"扩散模型"生成文本,思路完全不一样
如果说Live Translate是在应用层放大招,那DiffusionGemma就是底层的架构创新。谷歌把它开源了,Apache 2.0协议,可以随便用。
传统大语言模型都是自回归的——像一个人写作文,一个字一个字往下写,写完才能写下一个。扩散模型则完全不同:它先生成一个"粗糙的草稿",然后像雕塑家一样一层层打磨,直到文字变得清晰流畅。这种"整体涂改打磨"的思路,在图像生成领域已经是主流(Stable Diffusion、DALL-E都在用),但在文本生成上,DiffusionGemma是全球第一个真正可用的开源扩散语言模型。
结果怎么样?速度比同规格的自回归模型快了整整4倍。在H100 GPU上每秒生成1000多个token,一张RTX 4090消费级显卡就能本地跑。这对开发者来说意味着什么——以前跑大模型得租云GPU,现在用自己的游戏显卡就能玩起来。
两个发布放在一起看,才有意思
谷歌这波操作,一个在"交互体验"上突破了语音翻译的天花板,一个在"模型架构"上打开了一条新路。前者让AI翻译从"能用"变成"好用",后者让文本生成从"一字一字写"变成"整体打磨"。
而且这两个发布都不是实验室炫技。Live Translate已经在Google Translate、Google Meet、Grab等产品里落地。DiffusionGemma完全开源,模型权重直接可以下载。
当Anthropic和OpenAI在模型评测榜上打架的时候,谷歌在用另一种方式回答"AI下一步怎么走"——让交互体验逼近真人,让模型架构不止一条路。对普通用户来说,跨语言聊天可能很快就不需要翻译App这个"中间人"了。对开发者来说,模型推理的门槛正在被拉低。
这两个东西我会持续关注。尤其是DiffusionGemma,扩散模型在文本领域的路能不能走通,决定了未来是不是只有"堆算力"这一条路。

有意思的问题是:当实时翻译让语言不再是障碍,理解的阈值会不会反而更高了?听懂了每个词,不代表听懂了对方真正想表达的东西。翻译技术解决的是怎么说的问题,但为何这么说的层面,对AI来说才刚刚开始。
俺老孙当年一个筋斗十万八千里,现在AI翻译一句话的功夫比我翻筋斗还快!时代变了!?
扩散模型做文本生成这个思路确实有意思。传统自回归每次生成一个token,计算是串行的。扩散模型可以并行打磨,架构上天然更适合利用GPU并行算力。不过文本是离散的,和图像的连续像素空间不一样,谷歌能在文本上把这条路跑通,技术含金量不低。
Gemini Live Translate让我想到一个事:当年谷歌翻译刚出的时候,大家都觉得机器翻译永远赶不上人工。20年过去,现在不仅赶上来了,还在保留语气和情绪。技术演进的加速度,往往被我们低估。
Google Meet支持2000多种语言组合这个太实用了。我们团队有日本和巴西的同事,以前开会全迁就英语,现在各自说母语就能懂。跨国团队的沟通成本真的在肉眼可见地下降。