谷歌于北京时间今日凌晨正式宣布,为其核心人工智能模型Gemini推出一项名为“实时推理”的关键功能升级。此次更新使Gemini能够同时处理并即时分析来自文本、语音、图像和视频的混合输入流,标志着多模态AI交互进入“实时”新阶段。
根据谷歌DeepMind团队发布的官方技术博客,新功能旨在解决传统多模态AI在连续动态交互中的延迟问题。以下是本次发布的核心要点:
“这不仅仅是让AI‘看’和‘听’,而是让它能在现实世界的时间流速下进行‘思考’。”谷歌DeepMind的产品副总裁在声明中表示,“我们的目标是让AI助手能够像人类一样,在动态、信息不断涌入的对话中进行自然协作。”
多模态能力已成为AI巨头竞争的核心战场。OpenAI的GPT-4V、Anthropic的Claude 3系列均支持图像与文本的混合输入,但交互模式仍以“单次请求-响应”为主。谷歌此次押注“实时性”,意在通过更流畅、低延迟的交互体验建立差异化优势。

这一突破背后,是谷歌在底层基础设施上的持续投入。其自研的TPU v5p芯片集群为模型的高效并行处理提供了算力基础,而新一代的“混合专家”(MoE)模型架构则让Gemini能够更灵活地调用专门处理视觉、音频等信息的子网络,从而提升实时处理效率。
此次更新预计将产生多层次的影响:

然而,分析人士也指出,实时处理海量多模态数据对隐私、能耗和成本提出了更高要求。如何在实际部署中平衡性能与这些因素,将是谷歌面临的下一个挑战。
行业观察家认为,谷歌此举是将多模态AI从“功能展示”推向“实用化”的关键一步。独立科技研究机构“AI前沿分析”的首席分析师指出:“真正的环境智能(Ambient AI)必须能够理解瞬息万变的真实世界。实时推理是通往这一目标的必经之路,它使得AI从被动的问答工具,向主动的、情景感知的协作者转变。”

下一步,谷歌表示将专注于提升模型在实时流中的推理准确性,并探索在自动驾驶、机器人等对实时性要求极高的领域进行技术验证。随着Gemini实时推理能力的开放,一场围绕多模态AI应用落地的创新浪潮,或许才刚刚开始。