发展演进:从 BERT、GPT-2 到现代大模型
Transformer 架构的诞生开启了自然语言处理的新纪元。在此基础上,一系列模型不断涌现,推动着 AI 能力的飞速发展,其核心趋势是模型规模的急剧扩张和能力的持续涌现。
奠基时代:BERT 与 GPT-2
2018-2019 年是 Transformer 架构大放异彩的时期,以 BERT 和 GPT-2 为代表的模型确立了两条主要的技术路线。
BERT (2018)
核心贡献:通过“掩码语言模型”实现了真正的双向上下文理解,在多项自然语言理解 (NLU) 基准测试中取得了革命性突破,成为理解式任务的标杆。
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
text = "Paris is the capital of France."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
# outputs.last_hidden_state 包含了每个词的深度双向表示
GPT-2 (2019)
核心贡献:证明了通过大规模数据训练一个巨大的单向(自回归)Transformer 模型,可以获得惊人的文本生成能力。GPT-2 能够生成连贯、有逻辑的长篇段落,展示了生成式 AI 的巨大潜力。
from transformers import GPT2LMHeadModel, GPT2Tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')
prompt = "In a shocking finding, scientists discovered a herd of unicorns"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
# ... 解码 outputs 得到生成的文本
爆发时代:GPT-4, LLaMA, Gemini 等
进入 2020 年代,大语言模型 (LLM) 的发展进入快车道,主要呈现出以下趋势:
- 规模巨大化:参数量从亿级跃升至万亿级,训练数据量也达到了前所未有的规模。
- 能力涌现:模型在达到一定规模后,会“涌现”出之前没有的复杂能力,如推理、代码生成等。
- 指令微调与对齐:通过指令微调 (Instruction Tuning) 和人类反馈强化学习 (RLHF) 等技术,使模型能更好地理解和遵循人类指令。
- 多模态:模型不再局限于文本,开始能够理解和处理图像、音频、视频等多种模态的信息。
GPT-4
展现了强大的通用问题解决能力和多模态理解能力,是闭源模型的技术高峰。
LLaMA
由 Meta 发布,其开源版本极大地推动了社区的研究和应用发展,催生了大量优秀的开源模型。
Gemini
由 Google DeepMind 开发,从一开始就基于多模态进行设计,在跨模态推理方面表现出色。