奠基时代:BERT 与 GPT-2

2018-2019 年是 Transformer 架构大放异彩的时期,以 BERT 和 GPT-2 为代表的模型确立了两条主要的技术路线。

BERT (2018)

核心贡献:通过“掩码语言模型”实现了真正的双向上下文理解,在多项自然语言理解 (NLU) 基准测试中取得了革命性突破,成为理解式任务的标杆。

from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased') text = "Paris is the capital of France." inputs = tokenizer(text, return_tensors='pt') outputs = model(**inputs) # outputs.last_hidden_state 包含了每个词的深度双向表示

GPT-2 (2019)

核心贡献:证明了通过大规模数据训练一个巨大的单向(自回归)Transformer 模型,可以获得惊人的文本生成能力。GPT-2 能够生成连贯、有逻辑的长篇段落,展示了生成式 AI 的巨大潜力。

from transformers import GPT2LMHeadModel, GPT2Tokenizer tokenizer = GPT2Tokenizer.from_pretrained('gpt2') model = GPT2LMHeadModel.from_pretrained('gpt2') prompt = "In a shocking finding, scientists discovered a herd of unicorns" inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate(**inputs, max_length=50) # ... 解码 outputs 得到生成的文本

爆发时代:GPT-4, LLaMA, Gemini 等

进入 2020 年代,大语言模型 (LLM) 的发展进入快车道,主要呈现出以下趋势:

  • 规模巨大化:参数量从亿级跃升至万亿级,训练数据量也达到了前所未有的规模。
  • 能力涌现:模型在达到一定规模后,会“涌现”出之前没有的复杂能力,如推理、代码生成等。
  • 指令微调与对齐:通过指令微调 (Instruction Tuning) 和人类反馈强化学习 (RLHF) 等技术,使模型能更好地理解和遵循人类指令。
  • 多模态:模型不再局限于文本,开始能够理解和处理图像、音频、视频等多种模态的信息。

GPT-4

展现了强大的通用问题解决能力和多模态理解能力,是闭源模型的技术高峰。

LLaMA

由 Meta 发布,其开源版本极大地推动了社区的研究和应用发展,催生了大量优秀的开源模型。

Gemini

由 Google DeepMind 开发,从一开始就基于多模态进行设计,在跨模态推理方面表现出色。