这个仓库用于记录学习大语言模型(Large Language Models, LLMs)相关知识的笔记。
├── 01-fundamentals/ # 基础知识
│ ├── attention/ # 注意力机制
│ ├── transformer/ # Transformer架构
│ └── tokenization/ # 分词技术
├── 02-architectures/ # 模型架构
│ ├── gpt/ # GPT系列
│ ├── bert/ # BERT及其变体
│ └── others/ # 其他架构
├── 03-training/ # 训练方法
│ ├── pre-training/ # 预训练技术
│ ├── fine-tuning/ # 微调方法
│ └── optimization/ # 优化技术
├── 04-applications/ # 应用场景
│ ├── nlp-tasks/ # NLP任务
│ └── domain-specific/ # 领域特定应用
└── 05-advanced/ # 进阶主题
├── scaling-laws/ # 缩放定律
├── alignment/ # 对齐技术
└── efficiency/ # 效率优化
-
基础知识
- Transformer架构详解
- 注意力机制原理
- 分词方法与实现
-
核心技术
- 预训练方法与策略
- 模型架构演进
- 训练技巧与优化
-
进阶主题
- 模型扩展与效率
- 对齐与安全
- 最新研究进展
- 每个主题都会包含详细的笔记和代码示例
- 推荐按照学习路线顺序学习
- 欢迎通过Issues讨论和提问
- 论文阅读清单
- 推荐学习资源
- 相关项目链接
欢迎通过以下方式贡献:
- 提交Issue讨论想法
- 提交Pull Request完善内容
- 分享学习经验和建议