从ChatGPT到Llama 4:AI大模型发展时间线与趋势报告 (2022年11月 – 2025年4月)

从ChatGPT到Llama 4:AI大模型发展时间线与趋势报告 (2022年11月 - 2025年4月)

I. 引言:新纪元的开端

2022年11月30日,OpenAI公开发布ChatGPT,这一事件不仅迅速点燃了全球对生成式人工智能(Generative AI)的热情,更标志着一个AI发展的新纪元 1。基于GPT-3.5系列模型微调而来的ChatGPT 3,以其强大的自然语言理解和生成能力,以及流畅的对话体验,迅速渗透到各行各业,成为AI技术从实验室走向大众视野的里程碑。本报告旨在梳理从ChatGPT发布(2022年11月)至2025年4月期间,大型语言模型(LLM)领域的主要进展,涵盖关键的闭源和开源模型的发布、升级、新功能引入及其技术突破,分析其发展趋势,并探讨开源与闭源生态的竞合关系。

II. 星火燎原:ChatGPT的登场与早期回应 (2022年11月 - 2023年中)

(A) ChatGPT横空出世 (2022年11月30日)

ChatGPT的发布是AI发展史上的一个分水岭。作为一款基于GPT-3.5架构的“研究预览”产品 1,它展示了大规模预训练模型在理解和生成类人文本方面的惊人潜力 5。其易用性(通过简单的网页界面即可免费访问 1)和广泛的应用场景(从内容创作、代码编写到信息查询 2)使其迅速获得了现象级的关注度,也迫使其他科技巨头加速布局。

(B) 早期竞争者的回应

面对ChatGPT带来的冲击,各大科技公司迅速做出反应:

  • Google Bard (2023年3月21日): 谷歌最初于2023年2月宣布Bard 7,并在3月面向美国和英国的有限用户发布 7。早期版本的Bard基于LaMDA模型,旨在利用谷歌的网络信息优势提供更新的答案 7。然而,初期表现并未完全达到预期,谷歌随后在2023年5月的I/O大会上宣布将其升级到更强大的PaLM 2模型 7。
  • Anthropic Claude (2023年3月14日): Anthropic公司,强调安全和负责任AI研发,在与Notion、Quora等伙伴进行内部测试后,于2023年3月正式推出了Claude 6。Claude基于其“Constitutional AI”理念训练,旨在提供“有用、诚实、无害”的交互 6。发布时提供了高性能的Claude和更轻快、成本更低的Claude Instant两个版本 6。早期用户反馈其在有害输出方面更少,对话更自然,可控性更强 6。

(C) OpenAI的乘胜追击:GPT-4 (2023年3月14日)

在ChatGPT发布仅几个月后,OpenAI推出了其下一代旗舰模型GPT-4 9。GPT-4的发布标志着LLM能力的又一次重大飞跃:

  • 多模态能力: GPT-4被定义为一个大型多模态模型,能够接受图像和文本作为输入,并生成文本输出 10。虽然图像输入功能初期仅与合作伙伴测试 10,但这预示了LLM超越纯文本处理的未来方向。
  • 性能突破: 在多种专业和学术基准测试中展现出人类水平的表现,例如在模拟律师资格考试中取得前10%的成绩,远超GPT-3.5的后10% 10。OpenAI称其在处理复杂和细微指令方面比GPT-3.5更可靠、更有创造力 10。
  • 增强的可靠性与安全性: 经过长达六个月的对抗性测试和基于ChatGPT经验的迭代对齐,GPT-4在事实性、可控性和遵循安全护栏方面取得了显著进步,幻觉现象(生成不准确信息)相较于GPT-3.5大幅减少,对不当内容的响应率降低了82% 10。
  • 更长的上下文: GPT-4提供了8K和32K两种上下文窗口版本,远超GPT-3.5,能够处理和记忆更长的对话或文档 11。
  • API与集成: GPT-4通过API提供给开发者 9,并集成到付费的ChatGPT Plus服务中 2,同时也被微软用于其Copilot产品(前身为Bing Chat)9。

(D) 开源阵营的反击:Llama 1 & 2 (2023年2月/7月)

Meta AI在2023年2月24日发布了LLaMA (Large Language Model Meta AI) 系列模型 12,参数规模从7B到65B不等 12。虽然LLaMA 1最初仅授权给研究社区 12,但其权重意外泄露,客观上推动了开源LLM社区的发展 12。

2023年7月18日,Meta发布了Llama 2 12。其关键意义在于,Llama 2不仅性能优于LLaMA 1,更重要的是首次提供了免费用于研究和商业用途的许可 12。这一举措极大地降低了企业和开发者使用先进LLM的门槛,被视为推动LLM民主化和开源生态繁荣的关键一步 14。Meta还与微软深化合作,将Llama 2引入Azure AI模型目录并优化其在Windows上的运行 14。Llama 2系列包括7B、13B和70B参数版本,上下文长度提升至4096 tokens 12。

III. 加速与分化:能力拓展与群雄并起 (2023年中 - 2024年初)

这一时期,领先的模型不断增加新功能,同时更多强大的闭源和开源模型进入市场,技术路线开始出现分化。

(A) 功能与体验的持续优化

以ChatGPT为代表的闭源模型在用户体验和功能集成上不断迭代:

  • 插件与浏览: 2023年3月,ChatGPT Plus用户获得第三方插件和网络浏览功能 2。
  • 多模态集成: 2023年9月/10月,ChatGPT Plus开始支持图像输入(“看”)和语音输入/输出(“听”、“说”),并集成了DALL-E 3图像生成能力 9。
  • 移动端应用: OpenAI先后于2023年5月和7月推出了iOS和Android版ChatGPT应用 2。
  • 开发者API改进: 2023年3月,OpenAI发布了基于GPT-3.5-Turbo模型的API,成本大幅降低 2。后续GPT-4 Turbo API(2023年11月)进一步降低了价格并提供了128K的上下文窗口 9。
  • 个性化与易用性: 增加了自定义指令(Custom Instructions)、默认选用GPT-4、多文件上传、保持登录状态、快捷键等功能 15。Code Interpreter(后更名为Advanced Data Analysis)的beta测试也向Plus用户开放 15。

(B) 模型迭代与新玩家入局

  • Anthropic Claude 2/2.1: Claude 2于2023年7月发布 16,随后Claude 2.1(2023年11月)将上下文窗口扩展到200K tokens 17,并提升了准确性。Claude Pro付费订阅服务于2023年9月推出 16。
  • Google Bard/Gemini: 2023年12月,谷歌宣布Bard开始采用其当时最强大的Gemini Pro模型 7。2024年2月,Bard正式更名为Gemini,并推出了由Gemini Ultra 1.0驱动的付费版本Gemini Advanced 7。Gemini模型原生支持多模态。
  • xAI Grok-1 (2023年11月): Elon Musk创立的xAI公司推出了Grok 19。Grok的特点是能够直接访问X(前Twitter)的实时信息,并被宣传具有独特的“幽默感”和叛逆个性 19。初期仅向X Premium+订阅用户开放 19。
  • DeepSeek (2023年11月/12月): 由量化对冲基金公司幻方量化(High-Flyer)孵化的DeepSeek AI 21,在2023年底连续发布了专注于代码生成的DeepSeek Coder系列(1B-33B参数,开源)21和通用模型DeepSeek LLM系列(7B/67B参数,开源)21。其67B模型在部分基准上接近GPT-3.5/Llama 2 70B的水平 22。
  • Alibaba Qwen (通义千问): 阿里巴巴于2023年4月首次发布通义千问 26,并在9月获得政府批准后公开发布 26。随后,阿里巴巴陆续开源了Qwen-7B(2023年8月)、Qwen-1.8B和Qwen-72B(2023年12月)等多个版本 26,采取了闭源和开源并行的策略。

(C) 开源社区持续发力

  • Mistral AI: 这家法国初创公司以其高效模型迅速崛起。2023年9月发布了Mistral 7B,该模型参数量虽小(7.3B),但在多项基准测试中优于Llama 2 13B,甚至在部分任务上超过Llama 1 34B 28。其关键技术包括分组查询注意力(GQA)和滑动窗口注意力(SWA)28。2023年12月,Mistral发布了Mixtral 8x7B 29,这是一个开创性的开源稀疏混合专家(Sparse Mixture-of-Experts, MoE)模型。它总参数量为46.7B,但每次推理只激活约12.9B参数,实现了接近Llama 2 70B甚至GPT-3.5的性能,同时推理速度快6倍 28。这两个模型均采用宽松的Apache 2.0许可证 28。
  • 01.AI Yi系列: 由李开复创立的零一万物(01.AI)32 在2023年11月推出了Yi系列模型,包括Yi-6B和Yi-34B 33。Yi-34B在发布时在Hugging Face的预训练基础模型排行榜上名列前茅,性能优于Llama 2等同类开源模型 32。随后,01.AI还发布了支持高达200K tokens上下文窗口的版本(Yi-6B-200K, Yi-34B-200K)33。

IV. 能力成熟与范式涌现 (2024年中 - 2025年4月)

进入2024年后,LLM的发展呈现出几个关键趋势:多模态能力成为标配,上下文窗口长度竞赛白热化,模型开始展现更强的推理能力,AI Agent概念兴起,MoE架构被广泛采用,开源与闭源模型的迭代速度均显著加快。

(A) 多模态的飞跃:GPT-4o (2024年5月)

OpenAI在2024年5月13日发布的GPT-4o ("o" for "omni") 标志着多模态交互的重大突破 9。与之前通过组合不同模型处理不同模态(如Whisper处理语音输入,TTS处理语音输出 36)的方式不同,GPT-4o是原生设计用于实时处理和生成文本、音频、图像甚至视频的模型 9。

  • 核心突破: 单一模型统一处理多模态输入输出,显著降低了延迟(语音交互延迟从GPT-4的5.4秒降至0.32秒,接近人类反应时间),并能理解和生成带有情感、语气的语音,还能理解图像中的细节和上下文 36。
  • 更广泛的可用性: GPT-4o的文本和图像功能向免费用户开放,语音模式也向Plus用户推出 9。GPT-4o mini(2024年7月)作为更小、更便宜的版本,取代了旧的GPT-3.5 2。

(B) Anthropic的持续攀升:从Claude 3到3.7

Anthropic在这一时期发布了多个重要版本,不断提升模型智能水平和引入新功能:

  • Claude 3家族 (2024年3月): 包含三个型号:Opus(最强智能)、Sonnet(平衡性能与速度)、Haiku(最快、最经济)37。
    • 关键特性: 全系列具备强大的视觉分析能力 38;Opus在多项基准测试(如MMLU, GPQA, GSM8K)上超越了当时的GPT-4和Gemini Ultra 38;展现出近乎人类的理解力和流畅性 38;改进了准确性(Opus在困难问题上的准确率是Claude 2.1的两倍)和减少了不必要的拒绝回答 38;支持更长的上下文窗口(标准200K,Opus特定场景可达1M)44;增强了多语言能力和代码生成能力 38。
    • 可用性: Sonnet和Haiku在发布后不久即在Amazon Bedrock等平台上线 41,Opus稍后也加入 46。
  • Claude 3.5 Sonnet (2024年6月): 作为3系列的中期升级版 47,在编码、视觉理解(尤其图表和图像中的文本提取)方面表现更优,速度是Claude 3 Opus的两倍 47。引入了“Artifacts”功能,允许用户在专门的工作区中查看、编辑和迭代模型生成的内容(如代码、文档)16。后续更新(2024年10月)增加了实验性的“计算机使用”(Computer Use)能力,能模拟人类在电脑上的操作(如点击、打字)来完成复杂任务 16。
  • Claude 3.7 Sonnet (2025年2月): Anthropic称其为首款市场上的混合推理模型 37。
    • 核心创新:“扩展思考”(Extended Thinking)模式,允许模型在回答复杂问题前进行更深入、逐步的推理过程,显著提升了指令遵循、数学、编码等任务的表现 47。用户可以调整“思考预算”(token数量)来控制推理深度和成本 47。
    • 性能: 在推理、编码、多语言、长上下文、诚实性和图像处理方面达到顶级水平 49。知识截止日期更新至2024年10月 49。最大输出token增至128k 49。
    • 其他更新: Claude同期增加了网页搜索能力(2025年3月)16 和个性化定制回复风格的功能(2024年12月)16。

(C) Google的Gemini系列迭代

谷歌持续推进其Gemini模型系列:

  • Gemini 1.5 Pro (2024年2月): 关键突破在于首次将商用模型的上下文窗口提升至100万tokens(实验性功能,面向部分开发者和企业用户)50。这使得模型能够一次性处理海量信息(如1小时视频、70万字文本)50。基于MoE架构,性能上达到了1.0 Ultra的水平,但在87%的基准上优于1.0 Pro 50。在长达1M token的“大海捞针”测试中保持了高召回率(99%)50。
  • Gemini 1.5 Flash (2024年7月): 作为1.5 Pro的轻量化、快速版本发布 18。
  • Gemini 2.0 (2024年12月 - 2025年2月):
    • 2.0 Flash (2024年12月): 更新的快速模型 18。
    • 2.0 Pro / 2.0 Flash Thinking (2025年2月): 2.0 Pro作为主力模型发布,同时推出了具备“思考”能力的2.0 Flash Thinking版本 18。
  • Gemini 2.5 Pro (2025年3月):
    • 发布与性能: 3月25日面向Gemini Advanced用户推出实验性版本,号称当时最智能的模型,在LMArena等基准测试中排名第一 51。原生内置“思考”能力,在编码、数学、图像理解等复杂任务上表现卓越 18。
    • Canvas集成: 引入了Canvas交互式工作空间,便于与Gemini协作创建、编辑文档和代码 51。
    • 广泛可用: 3月29日,2.5 Pro实验版向所有Gemini用户(包括免费用户)开放,但有速率限制 51。

(D) OpenAI的推理革命:o1与o3系列

OpenAI在这一时期将研发重点转向了提升模型的推理能力,推出了具备显式“思考”步骤的新模型系列:

  • o1系列 (2024年9月 - 12月):
    • o1-preview / o1-mini (2024年9月): 作为预览版发布,引入了在生成最终回复前进行中间“思考”步骤的能力 2。
    • o1 / o1 pro (2024年12月): o1模型正式发布,同时为付费订阅者提供了计算量更大的o1 pro模式 2。相较于GPT-4,o1/o3系列展现出卓越的推理能力(尤其数学方面),但在某些编码基准上可能稍逊 52。初期主要侧重文本处理,并采用了“审议对齐”(Deliberative Alignment)的安全策略 52。
  • o3系列 (2025年1月):
    • o3-mini / o3-mini-high (2025年1月): 作为o1-mini的后继者发布,其中o3-mini-high版本使用更多的推理计算资源 2。
  • GPT-4.5 (2025年2月): 发布了一个参数规模特别大的模型,据称可能是OpenAI“最后一个非思维链模型” 2。该模型于2月28日向Pro计划用户开放 15。

(E) xAI的快速迭代:Grok-1.5, 2, 3

xAI的Grok模型也在快速进化:

  • Grok-1.5 (2024年5月): 提升了推理能力,并将上下文窗口扩展到128K tokens 19。值得注意的是,虽然Grok-1的权重(314B MoE)在2024年3月以Apache 2.0许可证开源 19,但Grok-1.5及后续版本转为闭源 19。
  • Grok-2 (2024年8月): 性能和推理能力进一步提升,并增加了图像生成功能(其图像模型Aurora于2024年12月发布)19。同时发布了轻量版的Grok-2 mini 19。独立的Web和iOS应用在2024年底至2025年初推出 19。
  • Grok-3 (2025年2月17日):
    • 性能与特性: 训练计算量据称是Grok-2的10倍 19。具备与OpenAI o3竞争的先进推理能力,通过“思考”(Think)或“大脑袋”(Big Brain)模式激活 19。支持多模态输入 19。同时发布了Grok-3 mini 19。
    • 后续功能: 2025年3月增加了图像编辑功能和增强的搜索功能DeeperSearch 19。

(F) DeepSeek的持续创新:V2, Coder V2, V3, R1

DeepSeek继续在开源和闭源领域发力,尤其在模型架构效率和推理能力上取得突破:

  • DeepSeek V2 (2024年5月):
    • 架构创新: 引入了创新的多头隐注意力(Multi-head Latent Attention, MLA),通过压缩键值(KV)缓存显著减少推理显存占用(比DeepSeek 67B减少93.3%);采用了DeepSeekMoE架构,优化MoE训练和推理效率 21。
    • 参数与性能: 总参数量236B,每次推理激活21B参数。训练成本比DeepSeek 67B节省42.5%,最大吞吐量提升5.76倍。支持128K上下文 23。后续有V2.5等更新 21。
  • DeepSeek Coder V2 (2024年7月): 升级版代码模型,236B参数,128K上下文,支持338种编程语言 21。
  • DeepSeek V3 (2024年12月): 更大的MoE模型,总参数量671B,激活37B参数。采用FP8混合精度训练,进一步提升了语言理解能力和性价比 21。V3 Base模型于2025年3月以MIT许可证开源 21。
  • DeepSeek R1 (2025年1月20日):
    • 核心特性: 专注于通过纯粹的强化学习(Pure Reinforcement Learning)提升高级推理能力,特别是在数学问题解决方面表现突出,可与OpenAI的o1竞争 21。参数规模与V3相同(671B总量,37B激活)23。
    • 市场反响: 其配套的DeepSeek聊天机器人应用发布后迅速走红,一度在美国iOS应用商店的免费应用下载量超过ChatGPT 21。

(G) 阿里巴巴Qwen的演进:Qwen 2, 2.5, 长上下文与推理

阿里巴巴的通义千问(Qwen)系列在开源和闭源两端都取得了显著进展:

  • Qwen 2 (2024年6月): 发布了五个尺寸的模型(0.5B, 1.5B, 7B, 57B-A14B MoE, 72B)26。
    • 主要改进: 大幅扩展多语言支持(新增27种语言);提升了编码和数学能力;所有尺寸均采用GQA提升推理效率;7B和72B Instruct版本支持128K上下文;除72B外,其余模型采用更宽松的Apache 2.0许可证 26。
  • Qwen 2.5 (2024年9月): 发布了超过100个开源模型,增加了3B, 14B, 32B等新尺寸 57。其闭源旗舰Qwen 2.5-Max于2025年1月28日发布,宣称在关键基准上表现领先 26。
  • Qwen 1M 长上下文 (2024年11月 - 2025年1月):
    • Qwen 2.5 Turbo (API, 2024年11月): 将API服务的上下文窗口扩展到100万 tokens 60。利用稀疏注意力机制将处理1M tokens的首token时间从4.9分钟缩短至68秒(提速4.3倍),并在长文本基准RULER上取得优异成绩 60。
    • 开源1M模型 (2025年1月): 开源了Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,让社区也能使用百万级上下文模型 62。
  • QwQ 推理模型 (2024年11月): 发布了QwQ(Qwen with Questions)模型,这是一个专注于提升推理能力的开源模型(权重采用Apache 2.0许可),具有32K上下文,旨在与OpenAI o1等推理模型竞争 26。基于Qwen 2.5 Max的QwQ-Max-Preview于2025年2月发布 59。
  • 多模态更新 (2025年3月): 发布了Qwen 2.5-Omni和Qwen 2.5-VL系列开源多模态模型 26。

(H) Meta Llama的规模化扩展:Llama 3 到 Llama 4

Meta继续坚定地推进其开源Llama系列,在模型规模、上下文长度和能力上不断突破:

  • Llama 3 (2024年4月18日): 发布了8B和70B参数的初始版本,基于15T tokens训练,上下文长度8K 12。性能相较于Llama 2有显著提升,继续采用允许商业使用的自定义许可证 12。
  • Llama 3.1 (2024年7月23日): 推出了405B参数的巨型模型,并将上下文窗口扩展到128K tokens。同时增加了对德语、法语、西班牙语等8种语言的支持 12。
  • Llama 3.2 (2024年9月25日): 重点发布了更小尺寸(1B, 3B, 11B, 90B)的模型,并首次引入了多模态能力,上下文长度保持128K 12。
  • Llama 3.3 (2024年12月7日): 对70B模型进行了更新 12。
  • Llama 4 (2025年4月5日): 标志着又一次重大升级,发布了109B, 400B, 乃至2T (万亿) 参数规模的模型 12。上下文窗口进一步扩展,109B模型支持高达1000万 tokens,400B模型支持100万 tokens。训练数据量也大幅增加,最高达40T tokens 12。发布初期有关于模型质量不稳定的报告,Meta称部分原因是bug 12。

(I) Mistral AI的持续创新:新尺寸、专业化与大模型

Mistral AI继续在开源和闭源领域展现其创新活力,推出了更多尺寸、针对特定任务优化的模型:

  • Mixtral 8x22B (2024年4月): 发布了更大规模的开源MoE模型(总参数141B),继续采用Apache 2.0许可证 29。
  • Codestral (2024年5月): 首款专注于代码的模型(22B参数),支持80多种编程语言 29。初期采用限制商业使用的许可证 29,但后续的Codestral Mamba(2024年7月)基于Mamba架构,采用了Apache 2.0许可证 29。Codestral v2于2025年1月发布 30。
  • Mistral Large 2 (2024年7月/11月): 升级版的旗舰闭源模型(123B参数),上下文长度提升至128K,在多语言、编码、推理方面均有改进 29。发布时采用研究许可证 29。2024年11月发布了更新版本(24.11) 29。
  • 专业化模型:
    • Mathstral 7B (2024年7月): 专注于STEM(科学、技术、工程、数学)领域的7B模型,Apache 2.0许可 29。
    • Pixtral (2024年9月): 12B参数的视觉语言模型,Apache 2.0许可 29。
    • Pixtral Large (2024年11月): 基于Mistral Large 2的更强大多模态模型(124B参数),擅长文档理解、视觉推理 29。
    • Mistral Saba (2025年2月): 针对中东和南亚语言的优化模型 30。
    • Mistral OCR (2025年3月): 专门的OCR服务 30。
  • 边缘计算模型: Ministral 3B/8B (2024年10月),为设备端运行设计 29。
  • Mistral Small 3 (2025年1月/3月): 升级版的小型闭源模型(24B参数),在同尺寸模型中性能领先,并增加了图像理解能力 29。

(J) 01.AI的更新迭代:Yi-1.5, Coder, Lightning

零一万物(01.AI)也在持续更新其模型系列:

  • Yi-1.5 (2024年5月): 对早期Yi模型(6B, 9B, 34B)的升级,提升了编码、数学、推理和指令遵循能力。上下文窗口最高支持32K 33。同月还发布了闭源的Yi-Large模型 70 和免费的生产力助手“万知” 32。
  • Yi-Coder (2024年9月): 开源了1.5B和9B参数的代码模型,支持52种编程语言,上下文长度达128K 32。
  • Yi-Lightning (2024年10月): 发布了高性能的闭源模型,在LMSYS等排行榜上表现优异,且推理成本极具竞争力 32。

(K) 关键技术范式的成熟

这一时期见证了几个关键技术趋势从初步探索走向成熟应用:

  • 百万级上下文窗口: 从Anthropic Claude 100K 16 到Google Gemini 1.5 Pro的1M 50,再到Qwen 2.5 Turbo的1M 60、Llama 4的10M 12、Magic LTM-2的100M 71,长上下文处理能力经历了爆炸式增长。这得益于架构创新(如DeepSeek V2的MLA 55、Qwen的稀疏注意力 60)、位置编码扩展技术(如RoPE缩放 72)以及合成数据生成策略 72。评估重点也转向了模型在超长文本中的信息提取和利用能力(如RULER、InfiniteBench、“大海捞针”测试)50。
  • 高级推理模型: 专门设计用于复杂、多步推理的模型成为新的研发热点。OpenAI的o1/o3系列 2、Grok-3的“思考”模式 19、Claude 3.7的“扩展思考” 47、DeepSeek R1的强化学习推理 23 以及阿里巴巴的QwQ 26 都旨在解决标准LLM在逻辑、数学和规划方面的不足,提高答案的可靠性和深度。这种对“思考过程”的关注,标志着LLM发展可能进入一个新阶段,即从大规模模式匹配向更结构化的认知模拟演进。
  • AI Agent能力爆发: LLM不再仅仅是文本生成器,而是开始具备自主规划、使用工具和与环境交互的能力 73。工具使用/函数调用成为Claude 3 39、Gemini 51、Qwen-Agent 60 等模型的核心功能。模型开始具备规划 73 和记忆能力 73。Claude 3.5甚至展示了直接操作计算机界面的潜力 16。各种Agent框架(如LangGraph Studio 48、TaskGen 48、Meta的Llama Agentic System 48)和理念(如Mixture of Agents 48)不断涌现。微软也将Agent能力深度集成到Copilot中 75。这种长上下文与Agent能力的结合,预示着AI未来可能成为能够处理端到端复杂工作流的自主“工作者”。
  • 多模态成为标配: 以GPT-4o 36 为代表的原生多模态处理成为趋势,模型不仅能理解图像 10,还能处理音频甚至视频输入 36,并生成多种模态的输出(如Grok的图像生成 19、Meta的Movie Gen 76)。开源领域也涌现了大量多模态模型,如Qwen-VL 26、Yi-VL 33、Llama 3.2 12、Pixtral 29 等,多模态能力从前沿探索变为基础要求 77。
  • MoE架构的普及: 继Mistral的Mixtral 8x7B取得成功后 28,混合专家(MoE)架构因其能在控制计算成本的同时有效扩展模型参数规模的优势,被广泛采纳 79。开源模型如Qwen2 57B 56、DeepSeek V2/V3 23、Mixtral 8x22B 29,以及闭源模型如Grok-1 19、Gemini 1.5 50 等都采用了MoE设计。MoE已成为大模型设计的主流策略之一 80。

表1:关键LLM发布与事件时间线 (2022年11月 - 2025年4月)

日期 (YYYY-MM-DD) 公司/组织 模型/事件 关键特性/里程碑
2022-11-30 OpenAI ChatGPT 公开发布 基于GPT-3.5,引发公众对生成式AI的广泛关注 1
2023-02-24 Meta LLaMA 1 发布 面向研究社区,后权重泄露 12
2023-03-14 Anthropic Claude & Claude Instant 发布 Constitutional AI,双版本发布 6
2023-03-14 OpenAI GPT-4 发布 多模态输入(图文),性能大幅提升,API发布,集成至ChatGPT Plus 9
2023-03-21 Google Bard 初始发布 基于LaMDA,后升级至PaLM 2 7
2023-07-11 Anthropic Claude 2 发布 性能提升,上下文窗口达100K 16
2023-07-18 Meta Llama 2 发布 开源,首次提供免费商业许可,与微软合作 12
2023-09-27 Mistral AI Mistral 7B 发布 高效小模型,Apache 2.0许可 28
2023-11-02 01.AI Yi-6B, Yi-34B 发布 开源,高性能基础模型 33
2023-11-03 xAI Grok-1 早期访问 整合X实时信息,独特个性 19
2023-11-06 OpenAI GPT-4 Turbo 发布 (DevDay) 128K上下文,更低价格,知识更新至2023年4月 9
2023-11-21 Anthropic Claude 2.1 发布 上下文窗口扩展至200K 17
2023-11月 DeepSeek DeepSeek Coder & LLM (67B) 开源 专注于代码和通用任务的开源模型 21
2023-12-06 Google Gemini (Pro, Ultra, Nano) 发布 原生多模态模型系列,Gemini Pro集成至Bard 7
2023-12-11 Mistral AI Mixtral 8x7B 发布 首个主流开源MoE模型,高性能高效率,Apache 2.0许可 28
2024-02-08 Google Bard更名为Gemini, Gemini Advanced发布 基于Gemini Ultra 1.0 7
2024-02-15 Google Gemini 1.5 Pro 发布 首次实现100万 token上下文窗口(实验性) 50
2024-03-04 Anthropic Claude 3 (Opus, Sonnet, Haiku) 发布 视觉能力,Opus性能领先,Sonnet/Haiku平衡速度与成本 16
2024-04-10 Mistral AI Mixtral 8x22B 发布 更大规模开源MoE模型,Apache 2.0 29
2024-04-18 Meta Llama 3 (8B, 70B) 发布 性能大幅提升,8K上下文 12
2024-05-06 DeepSeek DeepSeek V2 发布 创新MLA注意力与MoE架构,高效推理与训练 21
2024-05-13 OpenAI GPT-4o 发布 原生实时多模态(文本/音频/图像),速度快,免费用户可用 2
2024-05-15 xAI Grok-1.5 发布 128K上下文,闭源 19
2024-06-06 Alibaba Qwen 2 发布 5种尺寸(含MoE),多语言扩展,GQA,128K上下文,多数模型Apache 2.0 26
2024-06-20 Anthropic Claude 3.5 Sonnet 发布 性能提升(编码/视觉),Artifacts功能 16
2024-07-23 Meta Llama 3.1 (405B) 发布 巨型模型,128K上下文,多语言支持 12
2024-07-24 Mistral AI Mistral Large 2 发布 旗舰模型升级,128K上下文,研究许可 29
2024-08-14 xAI Grok-2 发布 性能提升,图像生成能力 19
2024-09-19 Alibaba Qwen 2.5 发布 增加3B/14B/32B尺寸,超百个开源模型 57
2024-09-25 Meta Llama 3.2 发布 聚焦小尺寸与多模态模型 12
2024-09月 OpenAI o1-preview / o1-mini 发布 引入显式“思考”步骤的推理模型 2
2024-10-22 Anthropic Claude 3.5 Sonnet 新增Computer Use能力 可模拟计算机操作 16
2024-11-15 Alibaba Qwen 2.5 Turbo API支持1M上下文 百万级上下文窗口API服务 60
2024-11-28 Alibaba QwQ 推理模型发布 开源权重,对标o1 26
2024-12月 DeepSeek DeepSeek V3 发布 671B MoE模型,FP8训练 21
2024-12月 OpenAI o1 / o1 pro 正式发布 推理模型广泛可用 2
2025-01-20 DeepSeek DeepSeek R1 发布 & Chatbot上线 纯强化学习推理模型,数学能力强,应用爆火 21
2025-01月 OpenAI o3-mini / o3-mini-high 发布 o1 mini后继推理模型 2
2025-01月 Alibaba 开源Qwen 2.5 1M上下文模型 (7B, 14B) 百万级上下文模型开源 62
2025-02-17 xAI Grok-3 发布 10倍算力提升,高级推理模式,多模态 19
2025-02-19 Anthropic Claude 3.7 Sonnet 发布 首款混合推理模型,“扩展思考”模式 47
2025-02-28 OpenAI GPT-4.5 发布 大型模型,或为最后非CoT模型 2
2025-03-25 Google Gemini 2.5 Pro (实验性) 发布 最强模型,内置思考能力,集成Canvas 18
2025-04-05 Meta Llama 4 (109B, 400B, 2T) 发布 参数规模达2T,上下文窗口达10M 12

V. 双轨并行:开源与闭源生态的比较分析

从ChatGPT发布至今,AI大模型领域形成了闭源和开源两大阵营并行发展、相互促进的格局。两者在发展速度、技术侧重、商业模式和生态构建上各有特点。

(A) 创新节奏与技术焦点

  • 闭源模型(如OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列)往往率先推出具有突破性能力的前沿模型,定义了技术边界 9。它们通常拥有更雄厚的资金和算力资源,能够进行更大规模的预训练和更精细的对齐调优(如RLHF、Constitutional AI)10。闭源厂商倾向于将模型能力整合进更广泛的产品生态系统(如微软Copilot 9、Google Workspace 51、苹果合作 5),并注重打磨用户体验和安全性。
  • 开源模型(如Meta的Llama系列、Mistral AI的模型、阿里巴巴的Qwen开源系列、DeepSeek的开源模型、01.AI的Yi系列)则呈现出快速迭代和多元化探索的特点。社区开发者可以基于开源模型进行微调、量化和实验,极大地加速了技术的传播和应用 12。Mistral AI和DeepSeek等初创公司早期就专注于架构效率(MoE 29、MLA 55)和特定能力(代码 23、推理 23),实现了以小博大。Meta的开源策略也从最初的面向研究 12 转向拥抱更广泛的商业应用和社区反馈 14。开源社区的快速跟进能力十分惊人,例如,在闭源模型展示了MoE、长上下文或特定推理能力后,开源社区往往能在较短时间内推出具有类似特性的模型 23。

(B) 可访问性、经济性与许可模式

  • 闭源模型主要通过API提供服务,按使用量收费 2。虽然方便集成,但大规模使用成本较高,且用户对模型的控制力有限。其许可是专有的,禁止修改和再分发 2。企业级服务通常需要更高的投入 75。
  • 开源模型的权重通常可以免费下载 12。许可模式多样:从非常宽松、允许广泛商业使用的Apache 2.0 26 和 MIT 21,到带有一定限制的定制商业许可(如Llama 2/3 12)或研究/非生产许可(如部分Mistral模型 29)。这使得开发者可以选择在本地或私有云部署,拥有更高的数据控制权,直接的模型成本较低,但需要自行承担部署、运维和调优的成本及技术门槛 32。这种开放性并非完全统一,而是呈现出一个复杂的谱系,反映了不同公司在最大化采用率、构建特定生态位和平衡开放与控制之间的战略考量 12。

(C) 创新模式与生态系统

  • 闭源生态围绕着核心模型提供商构建,创新主要由内部研发驱动。生态系统通过API、官方插件/应用商店 2 以及与大型云平台或科技公司的战略合作(如OpenAI与微软 4、Anthropic与AWS/Google 16、Meta与微软 14)来扩展。
  • 开源生态则更加去中心化和协作化。基础模型由Meta、Mistral、阿里巴巴等公司发布后,全球的开发者和研究者在Hugging Face、GitHub等平台上进行贡献,包括模型微调、量化、新应用开发、数据集共享等 12。这种模式极大地激发了社区的创造力,使得技术能够快速适应多样化的需求。

(D) 安全、对齐与控制

  • 闭源模型的安全和对齐措施由开发公司集中实施和控制 10。通过API监控和内容过滤,可以更直接地执行使用策略 16。安全方法通常不公开。
  • 开源模型的初始安全调优(如发布Instruct或Chat版本 12、提供安全评估工具如Llama Guard 83)由发布者完成。但基础模型可能被去除安全限制后进行微调,使用的责任更多地转移给了部署者。对潜在滥用的担忧一直存在 12。同时,开源也使得对齐和安全机制的研究更加透明和可及。

开源模型的快速能力追赶 23 表明,先进的架构和大规模数据是性能提升的关键驱动力,这些要素正变得越来越普及。然而,闭源模型通常在用户体验的流畅性、安全护栏的稳健性以及与现有平台的无缝集成方面保持优势 6,这反映了它们在RLHF、产品化和生态整合方面的大量投入。

最终,开源与闭源并非零和博弈,而是形成了相互促进的态势。闭源模型定义前沿能力,开源模型迅速将其普及化、商品化,反过来又迫使闭源提供商进一步创新,或在安全性、集成度、特定功能(如高级推理模式 2)上寻求差异化。这种创新与普及的循环加速了整个领域的进步。

表2:主要LLM对比概览 (截至2025年Q1)

模型 开发者 类型 (开源/闭源) 参数规模 (B) 最大上下文 (Tokens) 多模态 高级推理 编码能力 Agent能力
GPT-4o OpenAI 闭源 未知 128K ✅原生 ❓ (基础) ✅ (API)
o3-mini-high OpenAI 闭源 未知 (Mini) 未知 文本 中/高 ✅ (API)
Claude 3.7 Sonnet Anthropic 闭源 未知 (Sonnet级) 200K (输出128K) ✅视觉 ✅ (混合) ✅ (API)
Gemini 2.5 Pro (Exp) Google 闭源 未知 (Pro级) 1M ✅原生 ✅ (内置) ✅ (API)
Llama 4 400B Meta 开源 (自定义许可) 400 1M ❓ (基础) ✅ (框架)
Mistral Large 2 (24.11) Mistral 闭源 (研究许可) 123 128K 文本 ✅ (基础) ✅ (API)
Qwen 2.5 Max Alibaba 闭源 未知 (Max级) 128K+ (API或>1M?) ✅ (QwQ) ✅ (Agent)
DeepSeek R1 DeepSeek 闭源 (部分开源) 671 (激活37) MoE 128K 文本 ✅ (RL) 中/高 ✅ (Chat)

注:参数规模对于MoE模型指总参数量(激活参数量);高级推理指专门的推理模式或架构;Agent能力指模型本身或通过API/框架支持工具使用和规划。性能评估基于发布时的信息和基准,可能随时间变化。

VI. 主导趋势与未来轨迹

回顾过去两年半,AI大模型领域经历了爆炸式增长和深刻变革。几个主导趋势塑造了当前格局,并预示着未来的发展方向。

(A) 主要技术飞跃回顾

  • 算力与规模的竞赛: 底层是持续的算力投入竞赛,模型参数规模从百亿级跃升至万亿级(如Llama 4 2T 12),训练集群规模惊人(如Grok-3使用10万H100 84),专用硬件(如TPU 16、Trainium/Inferentia 41、定制超算 10)和云平台合作 71 至关重要。
  • 上下文窗口的革命: 从几千tokens扩展到百万乃至千万tokens 9,使得模型能够处理前所未有的信息量,为复杂任务和深度分析奠定基础。
  • 多模态能力的成熟: 从最初的图像输入 10 发展到原生的、实时的多模态理解与生成(文本、图像、音频、视频)36,成为衡量先进模型能力的标准之一 19。
  • 推理能力的深化: 出现专门优化推理过程、引入显式“思考”步骤的模型 2,旨在提升复杂问题解决的准确性和可靠性。
  • Agent能力的兴起: LLM开始扮演规划者和执行者的角色,能够调用工具、与外部世界交互、甚至具备一定的自主性 16。
  • 架构效率的提升: MoE架构的广泛应用 23 以及MLA 55、GQA 28 等技术,有效缓解了模型规模增长带来的计算和成本压力。
  • 开源力量的加速: Llama 2的商业开源 14 成为催化剂,Mistral AI 29、DeepSeek 23、阿里巴巴 26、01.AI 33 等的积极参与,极大地推动了技术的普及和竞争 85。

这些技术趋势并非孤立发展,而是相互关联、相互促进。例如,更长的上下文窗口为AI Agent执行复杂任务提供了必要的信息基础 74;多模态能力使Agent能够感知和操作更丰富的现实世界信息 36;而MoE等效率架构则使得部署这些日益庞大和复杂的模型在经济上成为可能 29。这种协同效应共同推动了LLM能力的整体跃升。

(B) 演变中的竞争格局

  • 头部玩家: OpenAI、Google、Anthropic、Meta依然占据技术前沿。
  • 强力挑战者: Mistral AI、xAI、DeepSeek、阿里巴巴、01.AI等凭借各自的技术特色(如效率、推理、开源)或特定资源(如X平台数据之于Grok 19)成为不容忽视的力量。
  • 垂直整合趋势: 模型、平台与硬件的结合日益重要。Google(TPU/Gemini/Vertex AI 16)、微软-OpenAI(Azure 4)、AWS-Anthropic(Trainium/Inferentia/Bedrock 16)等形成了强大的整合优势。
  • 战略合作深化: 跨公司合作成为常态,如OpenAI与苹果 5、Anthropic与Salesforce 16、阿里巴巴与宝马 57,旨在将AI能力嵌入更多应用场景。

(C) 新兴方向与未来展望

  • 端侧AI: 对小型、高效模型的需求日益增长,以支持在手机、PC等设备上的本地运行(如Mistral Small/Ministral 29、GPT-4o mini 2、Qwen2小尺寸模型 56、Llama 3.2小模型 12)。
  • 专业化与通用化并行: 一方面是追求更大规模、更通用的模型(如Llama 4 2T 12),另一方面是开发针对特定领域(如编码 29、数学 29)或特定能力(如推理 2)的高度优化模型。
  • 数据瓶颈凸显: 高质量训练数据的稀缺性成为日益严峻的挑战,推动了对合成数据生成技术的研究 72 和数据合作的需求 3。
  • 超越文本生成: AI的应用重心正从内容生成转向执行任务(Agents 73)、解决复杂问题(推理 2),甚至可能涉及对世界的模拟与交互(如Oasis世界模型 48)。
  • 通往AGI之路? 尽管高级推理、元认知(如Claude 3识别出测试文本中的“彩蛋” 45)和复杂的Agent行为令人瞩目,但关于这些能力是否真正代表通向通用人工智能(AGI)的关键步骤,业界仍存在广泛争论,且当前模型仍有明显局限性。

随着模型本身能力的趋同(尤其在开源领域),竞争的焦点可能会进一步转向差异化因素:独特的数据来源(实时数据 19、专有数据集)、硬件优化(与Nvidia的合作 71、自研芯片 41)、平台集成(云服务 16、操作系统集成 5)以及构建可靠、安全、易于部署的顶层应用和解决方案的能力。价值创造正从基础模型向上层应用转移。

VII. 结论

从2022年11月ChatGPT的惊艳亮相到2025年4月Llama 4等巨型模型的问世,短短两年半时间,AI大模型领域经历了前所未有的高速发展和深刻变革。这一时期不仅是技术参数(如模型规模、上下文长度)的指数级增长期,更是关键技术范式(多模态、推理、Agent)从概念走向成熟应用的爆发期。

开源与闭源两大生态系统的并行发展和激烈竞争,共同构成了推动这一轮AI浪潮的核心动力。闭源模型不断突破能力上限,定义技术前沿;开源模型则迅速跟进、普及创新,并催生出多元化的应用和研究方向。这种动态平衡极大地加速了整个领域的进步,但也带来了关于技术控制、安全风险和公平访问的持续讨论。

站在2025年4月的时间点,AI大模型已经从最初的“大型语言模型”演变为能够看、听、说、推理、规划并与数字世界互动的多面手。百万级上下文窗口、原生多模态处理、专门的推理引擎和日益复杂的Agent框架已成为现实。然而,挑战依然严峻:如何确保模型的可靠性与安全性(对齐问题)、如何应对高质量数据日益稀缺的困境、如何负责任地部署这些强大的技术,以及如何真正实现可解释、可信赖的复杂推理,这些都是未来发展必须面对的关键问题。

可以预见,未来的AI发展将继续围绕提升智能水平、拓展应用边界、优化效率成本以及确保安全可控这几个核心维度展开。端侧智能、模型专业化、数据创新以及更强大的自主智能体将是值得关注的重要方向。同时,这一时期AI技术的飞速发展也引发了全球范围内对经济影响、社会伦理和治理框架的深刻反思 85,这种技术与社会的互动将持续塑造AI未来的演进路径。从ChatGPT点燃的星星之火,已然在这短短两年半内,形成了燎原之势,预示着人工智能技术将更深远地改变世界。

Works cited

  1. When was ChatGPT released? - Scribbr, accessed April 11, 2025, https://www.scribbr.com/frequently-asked-questions/when-was-chatgpt-released/
  2. ChatGPT - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/ChatGPT
  3. Introducing ChatGPT - OpenAI, accessed April 11, 2025, https://openai.com/index/chatgpt/
  4. OpenAI - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/OpenAI
  5. OpenAI | ChatGPT, Sam Altman, Microsoft, & History | Britannica Money, accessed April 11, 2025, https://www.britannica.com/money/OpenAI
  6. Introducing Claude - Anthropic, accessed April 11, 2025, https://www.anthropic.com/news/introducing-claude
  7. What is Google's Gemini AI tool (formerly Bard)? Everything you need to know - ZDNET, accessed April 11, 2025, https://www.zdnet.com/article/what-is-googles-gemini-ai-tool-formerly-bard-everything-you-need-to-know/
  8. Google Bard: Release Date, Rumours & Early Access - Solve, accessed April 11, 2025, https://solve.co.uk/seo-news/google-bard-release-date/
  9. GPT-4 - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/GPT-4
  10. GPT-4 | OpenAI, accessed April 11, 2025, https://openai.com/index/gpt-4-research/
  11. OpenAI GPT-4: A complete review - Version 1 - US, accessed April 11, 2025, https://www.version1.com/en-us/blog/openai-gpt-4-a-complete-review/
  12. Llama (language model) - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/Llama_(language_model)
  13. Introducing LLaMA: A foundational, 65-billion-parameter large language model - Meta AI, accessed April 11, 2025, https://ai.meta.com/blog/large-language-model-llama-meta-ai/
  14. Meta and Microsoft Introduce the Next Generation of Llama - AI at Meta, accessed April 11, 2025, https://ai.meta.com/blog/llama-2/
  15. ChatGPT — Release Notes - OpenAI Help Center, accessed April 11, 2025, https://help.openai.com/en/articles/6825453-chatgpt-release-notes
  16. Newsroom - Anthropic, accessed April 11, 2025, https://www.anthropic.com/news
  17. Understanding Different Claude Models: A Guide to Anthropic's AI, accessed April 11, 2025, https://teamai.com/blog/large-language-models-llms/understanding-different-claude-models/
  18. Gemini (chatbot) - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/Gemini_(chatbot)
  19. Grok (chatbot) - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/Grok_(chatbot)
  20. Grok 3: xAI Chatbot - Features & Performance | Ultralytics, accessed April 11, 2025, https://www.ultralytics.com/blog/exploring-the-latest-features-of-grok-3-xais-chatbot
  21. DeepSeek - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/DeepSeek
  22. Timeline of DeepSeek, accessed April 11, 2025, https://timelines.issarice.com/wiki/Timeline_of_DeepSeek
  23. What is DeepSeek AI? (Features, OpenAI Comparison, & More) - Exploding Topics, accessed April 11, 2025, https://explodingtopics.com/blog/deepseek-ai
  24. DeepSeek LLM 67B Chat (V1): Intelligence, Performance & Price Analysis, accessed April 11, 2025, https://artificialanalysis.ai/models/deepseek-llm-67b-chat
  25. DeepSeek AI Versions Breakdown : A Detailed Guide to Every Versions, accessed April 11, 2025, https://www.oneclickitsolution.com/centerofexcellence/aiml/deepseek-ai-versions-breakdown-detailed-guide-to-every-versions
  26. Qwen - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/Qwen
  27. Alibaba opens AI model Tongyi Qianwen to the public - Times of India, accessed April 11, 2025, https://timesofindia.indiatimes.com/business/international-business/alibaba-opens-ai-model-tongyi-qianwen-to-the-public/articleshow/103620510.cms
  28. Mistral 7B vs. Mixtral 8x7B | by firstfinger - Medium, accessed April 11, 2025, https://firstfinger.medium.com/mistral-7b-vs-mixtral-8x7b-2e45be324126
  29. Mistral AI - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/Mistral_AI
  30. Models Overview | Mistral AI Large Language Models, accessed April 11, 2025, https://docs.mistral.ai/getting-started/models/models_overview/
  31. Mixtral 8x7B: A game-changing AI model by Mistral AI - SuperAnnotate, accessed April 11, 2025, https://www.superannotate.com/blog/mistral-ai-mixtral-of-experts
  32. 01.AI - Wikipedia, accessed April 11, 2025, https://en.wikipedia.org/wiki/01.AI
  33. 01-ai - Hugging Face, accessed April 11, 2025, https://huggingface.co/01-ai
  34. 01-ai/Yi: A series of large language models trained from scratch by developers @01-ai - GitHub, accessed April 11, 2025, https://github.com/01-ai/Yi
  35. Yi: Open Foundation Models by 01.AI - arXiv, accessed April 11, 2025, https://arxiv.org/html/2403.04652v1
  36. GPT-4o Guide: How it Works, Use Cases, Pricing, Benchmarks | DataCamp, accessed April 11, 2025, https://www.datacamp.com/blog/what-is-gpt-4o
  37. Meet Claude - Anthropic, accessed April 11, 2025, https://www.anthropic.com/claude
  38. Introducing the next generation of Claude - Anthropic, accessed April 11, 2025, https://www.anthropic.com/news/claude-3-family
  39. The Claude 3 Model Family: Opus, Sonnet, Haiku - Anthropic, accessed April 11, 2025, https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
  40. Claude 3: A First Look at this Exciting New Technology - EDRM, accessed April 11, 2025, https://edrm.net/2024/03/claude-3-a-first-look-at-this-exciting-new-technology/
  41. Amazon Bedrock adds Claude 3 Anthropic AI models, accessed April 11, 2025, https://www.aboutamazon.com/news/aws/amazon-bedrock-anthropic-ai-claude-3
  42. Anthropic rolls out Claude 3, says it outperforms generative AI rivals | CIO Dive, accessed April 11, 2025, https://www.ciodive.com/news/anthropic-claude-3-opus-sonnet-haiku/709233/
  43. Anthropic Takes On Google and ChatGPT With New Claude GenAI Model | PYMNTS.com, accessed April 11, 2025, https://www.pymnts.com/news/2024/anthropic-takes-on-google-and-chatgpt-with-new-claude-genai-model/
  44. Claude 3 Review (Opus, Haiku, Sonnet) - TextCortex, accessed April 11, 2025, https://textcortex.com/post/claude-3-review
  45. Anthropic's Claude 3 Launch Brings Real Competition to the AI Chatbot Race - UpMarket, accessed April 11, 2025, https://www.upmarket.co/blog/anthropics-claude-3-launch-brings-real-competition-to-the-ai-race/
  46. Anthropic's Claude 3 Opus model is now available on Amazon Bedrock | AWS News Blog, accessed April 11, 2025, https://aws.amazon.com/blogs/aws/anthropics-claude-3-opus-model-on-amazon-bedrock/
  47. Anthropic's Claude - Models in Amazon Bedrock - AWS, accessed April 11, 2025, https://aws.amazon.com/bedrock/claude/
  48. Yuan-ManX/ai-multimodal-timeline: Here we will track the latest AI Multimodal Models, including Multimodal Foundation Models, LLM, Agent, Audio, Image, Video, Music and 3D content. - GitHub, accessed April 11, 2025, https://github.com/Yuan-ManX/ai-multimodal-timeline
  49. All models overview - Anthropic API, accessed April 11, 2025, https://docs.anthropic.com/en/docs/about-claude/models/all-models
  50. Introducing Gemini 1.5, Google's next-generation AI model, accessed April 11, 2025, https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
  51. ‎Gemini Apps' release updates & improvements - Google, accessed April 11, 2025, https://gemini.google.com/updates
  52. Open AI O3 vs GPT-4: Top Differences That You Should Know in 2025 | YourGPT, accessed April 11, 2025, https://yourgpt.ai/blog/updates/open-ai-o3-vs-gpt-4-top-differences-that-you-should-know-in-2025
  53. xAI Grok 3 Is Live: An FAQ on Everything You Should Know - Technowize, accessed April 11, 2025, https://www.technowize.com/xais-grok-3-just-went-live-heres-an-faq-on-everything-you-need-to-know/
  54. The DeepSeek Shock: A 'Cost-Effective' Language Model Challenging GPT - ENERZAi, accessed April 11, 2025, https://enerzai.com/resources/blog/the-deepseek-shock-a-cost-effective-language-model-challenging-gpt
  55. deepseek-ai/DeepSeek-V2: DeepSeek-V2: A Strong ... - GitHub, accessed April 11, 2025, https://github.com/deepseek-ai/DeepSeek-V2
  56. QwenLM/Qwen2.5: Qwen2.5 is the large language model ... - GitHub, accessed April 11, 2025, https://github.com/QwenLM/Qwen2
  57. Alibaba Cloud Unveils New AI Models and Revamped Infrastructure for AI Computing, accessed April 11, 2025, https://www.alibabacloud.com/blog/alibaba-cloud-unveils-new-ai-models-and-revamped-infrastructure-for-ai-computing_601622
  58. Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud. - GitHub, accessed April 11, 2025, https://github.com/QwenLM/Qwen2.5
  59. Alibaba's Tongyi Qianwen Launches QwQ-Max Preview, a Reasoning Model Available at qwen.ai - AIbase, accessed April 11, 2025, https://www.aibase.com/news/15667
  60. Extending the Context Length to 1M Tokens! - Qwen, accessed April 11, 2025, https://qwenlm.github.io/blog/qwen2.5-turbo/
  61. Qwen Turbo - Intelligence, Performance & Price Analysis, accessed April 11, 2025, https://artificialanalysis.ai/models/qwen-turbo
  62. Qwen 2.5 1M Is Now The Longest Contextual AI Model For Coding, accessed April 11, 2025, https://blog.getbind.co/2025/01/27/qwen-2-5-1m-with-1-million-context-length-is-it-better-than-deepseek-r1-and-gemini-2-0/
  63. Qwen release next week will be "smaller". Full release of QwQ-Max "a little bit later" - Reddit, accessed April 11, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1j1mc7h/qwen_release_next_week_will_be_smaller_full/
  64. Qwen 2.5 VL Release Imminent? : r/LocalLLaMA - Reddit, accessed April 11, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1iaciu9/qwen_25_vl_release_imminent/
  65. Qwen2.5-1M: Deploy Your Own Qwen with Context Length up to 1M Tokens, accessed April 11, 2025, https://qwenlm.github.io/blog/qwen2.5-1m/
  66. meta-llama/Llama-3.1-8B - Hugging Face, accessed April 11, 2025, https://huggingface.co/meta-llama/Llama-3.1-8B
  67. The future of AI: Built with Llama - Meta AI, accessed April 11, 2025, https://ai.meta.com/blog/future-of-ai-built-with-llama/
  68. Mistral AI - Models in Amazon Bedrock - AWS, accessed April 11, 2025, https://aws.amazon.com/bedrock/mistral/
  69. 01-ai/Yi-1.5-9B - Hugging Face, accessed April 11, 2025, https://huggingface.co/01-ai/Yi-1.5-9B
  70. yi-large Model by 01-ai - NVIDIA NIM APIs, accessed April 11, 2025, https://build.nvidia.com/01-ai/yi-large/modelcard
  71. 100M Token Context Windows - Magic.dev, accessed April 11, 2025, https://magic.dev/blog/100m-token-context-windows
  72. Scaling Instruction-tuned LLMs to Million-token Contexts via Hierarchical Synthetic Data Generation | OpenReview, accessed April 11, 2025, https://openreview.net/forum?id=BkwCrIsTbR
  73. How to Build AI Agents Using Plan-and-Execute Loops - WillowTree Apps, accessed April 11, 2025, https://www.willowtreeapps.com/craft/building-ai-agents-with-plan-and-execute
  74. Large language models revolutionized AI. LLM agents are what's next - IBM Research, accessed April 11, 2025, https://research.ibm.com/blog/what-are-ai-agents-llm
  75. AI Timeline - Annielytics.com, accessed April 11, 2025, https://annielytics.com/tools/ai-timeline/
  76. AI Timeline, accessed April 11, 2025, https://nhlocal.github.io/AiTimeline/
  77. A brief timeline of large language models | Download Scientific Diagram - ResearchGate, accessed April 11, 2025, https://www.researchgate.net/figure/A-brief-timeline-of-large-language-models_fig1_380358726
  78. MM-LLMs: Recent Advances in MultiModal Large Language Models - ACL Anthology, accessed April 11, 2025, https://aclanthology.org/2024.findings-acl.738.pdf
  79. Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design - arXiv, accessed April 11, 2025, https://arxiv.org/html/2410.19123v1
  80. A Survey on Mixture of Experts - arXiv, accessed April 11, 2025, https://arxiv.org/pdf/2407.06204
  81. The Evolution of Mixture of Experts: A Survey from Basics to Breakthroughs - Preprints.org, accessed April 11, 2025, https://www.preprints.org/manuscript/202408.0583/v1
  82. The Evolution of Mixture of Experts: A Survey from Basics to Breakthroughs - ResearchGate, accessed April 11, 2025, https://www.researchgate.net/publication/383127907_The_Evolution_of_Mixture_of_Experts_A_Survey_from_Basics_to_Breakthroughs
  83. Qwen Turbo - One API 200+ AI Models, accessed April 11, 2025, https://aimlapi.com/models/qwen-turbo-api
  84. Grok 3: Launch Time, Date, Platform, Key Features, and What to Expect - Jagran Josh, accessed April 11, 2025, https://www.jagranjosh.com/general-knowledge/grok-3-launch-time-date-platform-key-features-and-what-to-expect-1739790065-1
  85. The Evolution and Impact of Large Language Models - ThoughtsWin Systems, accessed April 11, 2025, https://thoughtswinsystems.com/the-evolution-and-impact-of-large-language-models/
  86. The history, timeline, and future of LLMs - Toloka, accessed April 11, 2025, https://toloka.ai/blog/history-of-llms/

说明

本研究由Gemini Deep Research 2.5 协助完成,经人审阅,用作参考,若有错误,请关注公众号留言指出,万分感谢。