全球最严榜单：LiveBench 放榜，全球大模型排名“重新洗牌”！

by June 2025-03-20

LeetTools 解决您“多步骤、极具体、定制化”复杂搜索任务

点击下方链接，您可以根据自己的需求进行深度定制和扩展

https://github.com/leettools-dev/leettools

2025年3月17日，由图灵奖得主、Meta首席AI科学家杨立昆（Yann LeCun）领衔发起的国际权威大模型评测榜单LiveBench公布了最新一期结果，全球大模型格局再次迎来洗牌。中国大模型的整体表现备受瞩目，多家国产模型在榜单中占据重要席位。本文将从LiveBench的权威性、全球排名变化及中国代表企业DeepSeek（深度求索）的表现展开分析。

LiveBench的权威性：不可操控的评测基准

LiveBench的权威性源于其独特的评测机制和严格的评估标准。该榜单由杨立昆联合Abacus.AI、纽约大学等机构共同推出，旨在通过多维度、动态更新的评测体系，全面衡量大模型的综合能力。其核心特点包括：

全面覆盖六大能力：评测维度涵盖推理、编程、数学、数据分析、语言理解和指令遵循，几乎覆盖了当前AI大模型的所有核心应用场景。
实时更新的题库：每月更新的动态题库有效杜绝了模型通过针对性训练或微调“刷分”的可能性，确保了评测的公平性和真实性。
行业公认的公正性：LiveBench因其评测结果的客观性，被公认为“世界上第一个不可玩弄的LLM基准测试”，成为全球大模型研发团队的重要参考。

这种评测机制不仅考验模型的静态性能，更强调其在动态环境中的适应能力。例如，在指令遵循（IF Average）这一关键指标中，模型需精准捕捉用户模糊需求背后的真实意图，对细节控制力要求极高。此次榜单中，中国模型在这一指标上的突破尤为亮眼。

全球大模型排名：中美竞争与技术分化

根据最新LiveBench榜单，全球前五的模型中仅有一款开源模型，来自中国。阿里巴巴的通义千问QwQ-32B以开源属性跻身前五，成为最大黑马，而美国企业仍以闭源模型占据主导地位。

关键排名解析：

开源模型的崛起：阿里通义千问QwQ-32B的开源策略大幅降低了部署成本，使其在学术界和产业界迅速普及。截至2025年3月，全球基于Qwen的衍生模型数量已突破10万，超越Meta的Llama系列，成为全球最大的开源模型族群。
闭源模型的优势与局限：OpenAI的GPT-4.5preview和Google的Gemini2.0虽然在综合性能上领先，但其闭源特性限制了技术的透明度和应用广度。相比之下，中国开源模型的生态优势逐渐显现。
中国模型的技术亮点：通义千问在数学计算和编程能力等硬核任务中表现突出，而阶跃星辰的Step-2则在指令遵循和创意生成（如古诗词创作）上展现了极强控制力。

DeepSeek（深度求索）：中国大模型的另一极

尽管在本次LiveBench榜单中未进入前五，但DeepSeek作为中国大模型领域的代表企业，在其他权威评测中表现抢眼。例如，在2025年1月的SuperCLUE榜单中，其DeepSeek-V3以总分68.3位列全球第四，成为理科能力最强的国产模型。此外，在Chatbot Arena的匿名盲测榜单中，DeepSeek的两款模型（V3和R1）跻身全球前十，展现了其在真实对话场景中的竞争力。

DeepSeek的核心技术突破：

高效训练与低成本部署：DeepSeek-V3采用6710亿参数的MoE架构，每秒可处理60个token，训练成本仅为557.6万美元，远低于Meta Llama-3.1（6000万美元）和OpenAI GPT-4o（1亿美元）。
强化学习优化推理能力：其最新发布的DeepSeek-R1通过强化学习（RL）训练，在复杂逻辑推理任务中表现优异，尤其在金融和医疗领域的垂直应用潜力巨大。
开源生态的贡献：DeepSeek基于阿里通义千问的开源模型进行蒸馏和优化，已向社区贡献了多个轻量化版本，进一步推动了中国开源生态的繁荣。

中国大模型的整体崛起与挑战

中国大模型的快速进步不仅体现在技术性能上，更反映在开源生态和产业落地的深度布局中。例如：

通义千问已接入国家超算互联网平台、广州人工智能公共算力中心及多所高校，并在全球范围内被开发者广泛采用。
阶跃星辰通过API接口和C端产品“跃问”实现了技术与市场的双突破，用户可通过其App直接体验万亿参数模型的强大能力。
智领云LeetTools通过本地化策略崛起，以“轻量化、透明化、安全化”为核心，大幅降低深度研究功能的实现门槛。

然而，中国模型仍面临两大挑战：

高难度任务的差距：在需要复杂逻辑推理的“Hard任务”中，中国模型的评分仍落后于OpenAI的顶尖模型。
国际品牌影响力不足：尽管技术实力接近，但中国模型在海外市场的认可度仍需提升。

未来展望：技术突破与全球竞争

随着中国大模型在开源、成本控制和垂直场景应用上的持续突破，全球AI格局正在发生深刻变化。未来可能呈现以下趋势：

开源主导技术普惠：DeepSeek的开源策略将进一步降低技术门槛，推动AI技术在教育和医疗等领域的普惠应用。
多模态与端侧结合：通义千问已推出视觉理解模型Qwen2.5-VL，未来模型将更注重跨模态融合。
低成本开发模式颠覆行业：中国企业的低成本训练方案（如李飞飞团队仅用50美元微调出高性能模型）可能动摇美国企业依赖高预算研发的商业模式。

LiveBench的最新放榜不仅是一次技术实力的展示，更是全球AI竞赛的缩影。中国大模型通过开源生态、低成本创新和垂直场景深耕，正逐步缩小与美国的差距。尽管挑战犹存，但以通义千问、DeepSeek和LeetTools为代表的中国力量，正在为全球AI技术的未来注入更多可能性。这场由技术驱动的变革，或将重塑下一个十年的科技版图。