AI学习路线图：大模型发展演进

奠基时代：BERT 与 GPT-2

2018-2019 年是 Transformer 架构大放异彩的时期，以 BERT 和 GPT-2 为代表的模型确立了两条主要的技术路线。

BERT (2018)

核心贡献：通过“掩码语言模型”实现了真正的双向上下文理解，在多项自然语言理解 (NLU) 基准测试中取得了革命性突破，成为理解式任务的标杆。

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

text = "Paris is the capital of France."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
# outputs.last_hidden_state 包含了每个词的深度双向表示
                        

GPT-2 (2019)

核心贡献：证明了通过大规模数据训练一个巨大的单向（自回归）Transformer 模型，可以获得惊人的文本生成能力。GPT-2 能够生成连贯、有逻辑的长篇段落，展示了生成式 AI 的巨大潜力。

from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')

prompt = "In a shocking finding, scientists discovered a herd of unicorns"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
# ... 解码 outputs 得到生成的文本
                        

爆发时代：GPT-4, LLaMA, Gemini 等

进入 2020 年代，大语言模型 (LLM) 的发展进入快车道，主要呈现出以下趋势：

规模巨大化：参数量从亿级跃升至万亿级，训练数据量也达到了前所未有的规模。
能力涌现：模型在达到一定规模后，会“涌现”出之前没有的复杂能力，如推理、代码生成等。
指令微调与对齐：通过指令微调 (Instruction Tuning) 和人类反馈强化学习 (RLHF) 等技术，使模型能更好地理解和遵循人类指令。
多模态：模型不再局限于文本，开始能够理解和处理图像、音频、视频等多种模态的信息。

GPT-4

展现了强大的通用问题解决能力和多模态理解能力，是闭源模型的技术高峰。

LLaMA

由 Meta 发布，其开源版本极大地推动了社区的研究和应用发展，催生了大量优秀的开源模型。

Gemini

由 Google DeepMind 开发，从一开始就基于多模态进行设计，在跨模态推理方面表现出色。