在AI助手竞争白热化的今天,谷歌推出的Gemini系列模型,尤其是面向公众的Gemini(原Bard),被视为挑战GPT-4统治地位的有力竞争者。它宣称在原生多模态理解和推理能力上具有优势。本次评测基于对Gemini Advanced(付费版,基于Gemini 1.5 Pro)超过两周的深度使用,我们测试了超过50个涵盖文本、代码、图像、文档处理的多模态场景,旨在客观呈现其真实能力与边界。
我们测试了Gemini处理图像、PDF、PPT等多种文件的能力。上传一张包含复杂图表和数据点的科研论文截图,Gemini不仅能准确描述图表内容,还能根据图中的趋势线进行简要总结。在处理一份15页的PDF商业计划书时,它能够快速提取核心目标、市场分析和财务预测关键数据,并生成结构清晰的摘要。
然而,在多模态推理的深度上,Gemini表现并不稳定。例如,我们上传了一张办公室凌乱桌面的照片,询问“如何高效整理这个空间”。它给出了通用建议,但未能像GPT-4V那样具体指出“先将左侧堆叠的文件放入右侧的文件夹中”。在处理包含手写文字的图片时,其识别准确率也略低于预期。
在代码测试环节,我们设计了20个不同难度的任务,涵盖Python数据可视化、JavaScript网页交互及SQL复杂查询。对于标准的网页表单验证代码,Gemini生成速度快,代码结构清晰,并附有详细注释。在一个使用Python的Pandas库进行多表关联和条件筛选的任务中,它生成的代码一次通过,准确率达到90%。

但在调试方面,我们故意提供了一个存在逻辑错误和拼写错误的Python函数。Gemini成功识别了语法错误,但对于深层的逻辑陷阱,其解释不如GPT-4深入,需要更明确的用户引导才能定位根本问题。
Gemini 1.5 Pro标志性的百万级上下文窗口是其宣传亮点。我们实测了其长文档处理能力,上传了一篇超过8万字的行业分析报告,并连续追问报告中不同章节的细节数据和关联观点。Gemini展现出了强大的信息保持和关联能力,能够准确回溯前文提及的特定数字和概念,在信息提取的准确性上表现优异,有效避免了“中间遗忘”现象。这使其在学术研究、长文档分析等场景中极具潜力。
优势:

不足:
我们选取了五个维度进行核心对比:
Gemini,特别是Advanced版本,非常适合以下用户:

要最大化利用Gemini,建议:
总体而言,Gemini是一款在多模态文件处理和长上下文对话方面表现卓越的AI工具,它凭借与谷歌生态的整合及突出的性价比,为用户提供了区别于GPT-4的差异化选择。尽管在深度推理和创意上限上仍有追赶空间,但它无疑已成为当前大模型市场中一个不可忽视的强劲选项。