AI大模型发展史：从Transformer到GPT-4

2017

Google发表《Attention Is All You Need》论文，提出Transformer架构，首次引入自注意力机制，彻底改变了自然语言处理的格局。

                    核心突破：完全抛弃RNN/CNN，仅使用注意力机制，实现并行计算，大幅提升训练效率
                

注意力机制并行计算 Encoder-Decoder

2018

Google发布BERT，首次实现双向上下文理解，在多项NLP基准测试中刷新记录。

核心突破：双向预训练+微调范式，一个模型可适配多种任务

双向上下文预训练-微调 Masked LM

2019

OpenAI发布GPT-2，拥有15亿参数，展示了惊人的文本生成能力，因担忧被滥用而延迟完全开源。

核心突破：生成式预训练+零样本学习，展现涌现能力

生成式AI 零样本学习涌现能力

2020

OpenAI发布GPT-3，拥有1750亿参数，首次展示强大的少样本学习能力，引发大模型军备竞赛。

核心突破：1750亿参数规模，少样本学习突破，API经济兴起

1750亿参数 API经济涌现能力

2022-2023

OpenAI发布ChatGPT，首次实现流畅对话交互，用户数突破1亿，成为史上增长最快的消费级应用。

                    核心突破：RLHF人类反馈强化学习，对话交互范式，AI原生应用井喷
                

RLHF 对话AI AI原生应用

2024

GPT-4V、Gemini等支持多模态理解，AI Agent概念兴起，AI开始具备规划、工具使用、多步骤推理能力。

核心突破：多模态融合，Agent自主规划，AGI曙光初现

多模态 AI Agent 工具使用

AI大模型发展史