据最新发布的权威AI基准测试结果显示,深度求索公司推出的DeepSeek-V3模型在多项关键性能指标上超越了OpenAI的GPT-4,同时其推理成本据称大幅降低了90%。这一结果于今日由深度求索公司在其官方技术报告中公布,可能预示着大型语言模型市场格局的重大变化。
深度求索公司在其发布的技术报告中详细阐述了DeepSeek-V3的测试数据。报告引用了包括MMLU(大规模多任务语言理解)、GSM8K(数学推理)和HumanEval(代码生成)在内的行业标准基准。

“我们通过创新的混合专家(MoE)架构与高效的训练策略,在保持顶级性能的同时,实现了计算效率的阶跃式提升。”深度求索首席科学家在报告中写道。
深度求索是一家专注于通用人工智能研发的中国公司。其技术路线强调在提升模型能力的同时,严格控制训练与推理成本。此次发布的DeepSeek-V3采用了稀疏激活的混合专家系统,即模型在每次推理时仅调用部分参数,从而大幅降低计算资源消耗。

当前,全球大型语言模型竞争已从单纯追求参数规模,转向性能、成本与效率的平衡。OpenAI、Anthropic、谷歌等公司均在探索降低AI服务成本的路径。据行业分析机构AI Benchmarking Institute上月发布的报告,降低推理成本已成为企业客户采纳AI服务的首要考量因素之一。

分析人士认为,若DeepSeek-V3的性能与成本数据在实际应用中得以验证,将对行业产生多重影响。

一位要求匿名的云服务提供商技术主管表示:“成本降低一个数量级是一个关键拐点。它可能改变整个AI即服务(AIaaS)市场的定价模型和竞争动态。”

尽管基准测试成绩亮眼,但模型的真实世界表现、长期稳定性以及在不同语言和文化语境中的适应性,仍需经过更广泛的企业级部署检验。
深度求索公司表示,DeepSeek-V3的API将很快向部分合作伙伴开放测试。下一步,公司计划在长上下文理解、多模态能力及强化学习对齐方面继续投入研发。
斯坦福大学人工智能实验室的一位研究员评论称:“这场竞赛远未结束。性能、成本、安全性和可控性是多维度的挑战。DeepSeek-V3在成本效率上迈出了一大步,但持续的创新和全面的评估才是关键。”该观点发表于其个人学术博客,未代表机构立场。
随着AI模型日益成为数字基础设施的一部分,效率与可及性的提升,或将加速人工智能技术在全球各行业的渗透与变革。