模块一:深究大语言模型原理 | | | ||
课节 | 主要内容 | 课程目标 | ||
1. 预训练+微调的训练范式 开源生态和OpenAI的差异详解 | 1. 预训练阶段和SFT阶段并没有拉开差距 2. RLHF为何追不上OpenAI a. 首席科学家Ilya Sutskever 的主要成就 b. Instruct GPT的论文中公开了哪些RLHF的具体细节 c. 尝试Reward Model时的常见问题 d. Proximal Policy Optimization的实操复杂度 3. 开源生态的另辟蹊径 a. Direct Preference Optimization的重要尝试 b. Reinforced Token Optimization的关键进步 4. 开源生态如何成功追赶OpenAI 5. 可私有化部署的开源中小模型,性能究竟如何 | 1. 了解开源生态发展史,深入解读开源模型复现GPT进程及其效果差距 2. 掌握不同开源模型与闭源模型技术差异及其原因 3. 具备项目负责人对模型选型的基础能力 | ||
2. 探索神经网络的奥秘 | 1. 设计数学模型的主要工作是设计数学公式 a. 一个公式识别鳄鱼与蛇 b. y=ax+b 就是一条直线 c. 参数a控制直线旋转,参数b控制直线平移 d. 人类数学家如何确定a和b的值 2. 设计数学公式的人类极限 3. 万金油公式 - 神经网络 a. 神经网络经典定义 b. 模拟人脑神经元的电信号传导 4. 案例:基于MNIST数据库的图像识别 a. 预处理图片数据 b. 设定神经网络公式结构 c. 设计神经网络参数提取特征数据 d. 多层网络提取深度特征 5. 神经网络与机器学习 a. 损失函数评定当前模型水平 b. 梯度下降确定模型迭代方向 c. 一次迭代提升模型精准程度 | 1. 打开黑盒,让专属于算法科学家们的神秘模型,用最通俗易懂的方式展现在众人面前 2. 深入理解方案专家必备的原理知识,设计方案时游刃有余,也让产品和应用方向更具长期性 3. 理解算法工程师、算法科学家到底在做什么样的工作,为跨部门多角色协作奠定基础 | ||
3. 揭秘Transformer的真面目1 | 1. 一段法律咨询场景中的对话内容 2. Tokenization - 将对话内容变成Token a. 词元化与子词 b. 汉字与英文单词的区别 c. 效果演示:ChatGPT的Tokenization 3. Embedding - 将Token变成向量 a. 数学对AI的突出贡献 - 空间与向量 b. 基数理解One-Hot编码 c. 空间的稀疏、稠密、距离、数学逻辑关系 d. Word2Vec Model e. OpenAI Embedding Model f. OpenAI Clip - 文字与图片的多模态Encoder g. 效果演示:OpenAI Embedding 4. Encoder & Decoder a. Encoder理解你的指令 b. Decoder回答你的问题 c. 基于循环神经网络的Encoder & Decoder 5. Transformer Encoder & Decoder a. 带有Attention机制的Transformer Encoder b. 带有Attention机制的Transformer Decoder c. Multi-Head Self Attention | 1. 深入理解当下最流行的LLM大语言模型的底层原理、核心机制 2. 理解重要概念-向量,初步掌握基于数学空间的AI思维方式 3. 开始接触Embedding与Encoder,为未来掌握重要应用技术RAG奠定基础 | ||
4. 揭秘Transformer的真面目2 | 1. Position Encoding 2. Cross Attention 3. Linear 4. Softmax 5. Encoder only & Decoder only | | ||
5. Fine-tuning微调艺术:SFT与RLHF的完美结合 | 1. 什么情况下模型需要微调 2. 微调后的模型有哪些能力的提升 a. 电商咨询场景 b. 法律咨询场景 c. 旅游咨询场景 3. 使用Hugging Face 进行SFT 微调 a. Hugging Face 的作用 b. SFT 微调的数据准备 c. 使用Prompt Tuning 进行微调 d. 使用P-Tuning 进行微调 e. 使用Prefix tuning 进行微调 f. 使用LoRA 进行微调 g. 使用QLoRA 进行微调 4. 什么情况下模型需要RLHF | 1. 3个案例直观对比微调的前后差异 2. 具有微调技术解读和统筹能力,能够精准选择项目应用技术 | ||
【赠送】揭秘视觉模型的奇妙世界 | | | ||
课节 | 主要内容 | 课程目标 | ||
【赠送】核心拓展1 | DeepSeek 模型创新 | | ||
【赠送】核心拓展2 | 从GPT 到GPT-4的华丽升级 | | ||
| 1. Google 与 OpenAI 的路线之争 2. GPT:2018,没有大量标注好的数据也可以训练1.17亿参数大模型,开启无监督预训练 + 下游任务微调的全新工作模式 3. GPT-2:2019,通过Zero-shot完成下游任务,Prompt结构初见雏形,15亿参数量级开启大力出奇迹的军备竞赛 4. GPT-3:2020,96层Transformer,直接飙到1750亿参数的非稀疏模型,模型大10倍的泛化性 + 依靠Attention机制的Few-shot Prompt结构,开启现代Prompt历史新篇章 5. Instruct-GPT:2022,预训练 + SFT微调 + RLHF基于人类反馈的强化学习,用户意图对齐大幅度降低胡乱生成的幻觉问题,ChatGPT终于火爆全球 6. gpt-4、gpt-4o升级原理的大胆猜想 | 1. 通过GPT的进化史进一步深化神经网络、机器学习、Transformer等重要概念 2. 深入理解Prompt指令工程背后的模型逻辑,可以从模型层来解释为什么有些Prompt好用或不好用 3. 超越99.99%同事的大模型知识体系,绝大多数CTO都讲不清楚的历史沿革,塑造绝对AI专家形象 | ||
【赠送】核心拓展3 | 超级引擎:英伟达GPU与CUDA相关的必备知识点 | | ||
| 1. 训练模型为什么要使用GPU,而不是CPU a. GPU与CPU 计算核心的区别对比 b. 特定类型的计算适合运行到GPU c. 1000倍以上的速度提升带来算法设计模式的巨大变化 2. 如何在GPU上做并行计算 a. 启动普通CPU应用程序 b. 将数据加载到内存 c. 将数据从内存copy到显存 d. 运行GPU应用程序完成大规模计算 e. 将计算结果存储到显存 f. 将计算结果从显存copy到内存 3. 英伟达整套体系为什么这么强大 a. 18年积淀的CUDA体系及开发者生态 b. TensorFlow和PyTorch等人工智能框架的深度集成 c. 试错成本过高带来的迁移困难 4. 大模型私有化部署的必备知识 | 1. 深入了解更加底层的技术知识,有助于加深理解“模型训练”过程中部分处理方式的设计初衷 2. 掌握GPU相关知识可以更好地把握和统筹整个AI项目 3. 掌握方案专家必不可少的高级谈资 | ||
【赠送】核心拓展4 | 多模态领域的Transformer —— 创意生成的基座原理 | | ||
| 1. CNN —— 卷积神经网络 2. ViT —— Vision Transformer 3. ViLT —— Vision-and-Language Transformer 4. CLIP —— Contrastive Language-Image Pre-training | 1. 充分了解多模态领域的Transformer的进化路线 2. 掌握不同阶段Transformer的工作原理及效果 | ||
【赠送】核心拓展5 | 视觉识别奥秘 —— 揭开文字、人脸、精密零件、无人驾驶的智能识别面纱 | | ||
| 1. 安防视觉识别模型原理 2. 零件缺陷检测模型原理 3. 医疗诊断识别模型原理 4. 无人驾驶视觉模型原理 5. 视觉识别技术与大模型的关系 | 1. 基于ViT的视觉识别领域的技术飞跃和实现原理 2. 4大领域的ViT识别技术障碍及原因 3. 掌握视觉识别技术与大模型的关系 | ||
【赠送】核心拓展6 |