LMCC-T 备考笔记
_acat_
·
·
科技·工程
本文总结自 LMCC 大纲,不包含成年组。
一、人工智能基础概念
1. 人工智能相关概念定义
核心知识点
- 智能:生物对环境的感知与自适应能力;人工智能(AI):通过机器模拟人类智能的技术。
- 机器学习:AI 的核心分支,让模型从数据中自动学习规律(无需显式编程)。
- 模型:机器学习的
工具,通过参数存储学习到的规律;训练:用数据调整模型参数的过程。
关键分类:有监督学习 & 无监督学习
| 类型 |
定义 |
典型任务 |
示例 |
| 有监督学习 |
用标注好答案的数据训练(如图 1 是猫) |
分类、回归 |
垃圾邮件识别(分类)、房价预测(回归) |
| 无监督学习 |
用无标注数据自动发现规律 |
聚类、降维 |
用户分群(聚类)、高维词向量可视化(降维) |
考核方式:概念
2. 机器学习流程及经典模型
核心流程
- 数据预处理:解决数据
脏乱差问题,包括:
::::info[1) 数据清洗]{open}
删除异常值(如年龄 =200 岁)、填补缺失值(如用平均年龄补全)。
::::
::::info[2) 数据变换]{open}
归一化(如将像素值 0 ~ 255 缩放到 0 ~ 1)、独热编码(如红 =[1,0,0])。
::::
::::info[3) 数据工程]{open}
构造新特征(如从点击日志提取 7 天高频商品)。
::::
- 模型训练:用处理后的数据调整参数;
- 验证与测试:用新数据评估模型性能(避免
背答案);
- 经典模型:神经网络(深度学习的基础,由多层
神经元组成)。
考核方式:概念
3. 验证及评测
核心指标
- 交叉验证:
将数据分成多组,轮流用一组当测试集,避免单次测试的偶然性。
- 精确率:
预测为
正的结果中,实际为正的比例(如识别垃圾邮件时,误判正常邮件的概率)。
- 召回率:
实际为
正的样本中,被正确预测的比例(如漏判垃圾邮件的概率)。
- ROC 曲线:
衡量模型在
精确率与召回率间的平衡能力。
关键问题:过拟合
- 定义:模型在训练数据上表现极好(如准确率 99\%),但在新数据上表现差(如准确率 60\%);
- 本质:模型
死记硬背训练数据的噪声,未学会通用规律;
- 缓解方法:增加数据量、提前停止训练、随机关闭部分神经元。
考核方式:概念
4. 人工智能常见应用领域
- 自然语言理解(NLP):处理人类语言,如聊天机器人、文本摘要;
- 计算机视觉(CV):识别图像或视频,如人脸识别、车牌检测;
- 扩展领域:智能检索(语义级搜索,如
报销流程匹配费用申请文档)、推荐系统(如抖音根据点赞推荐视频)。
考核方式:概念
二、大模型基础概念
1. 自然语言的基础概念
- 定义:人类日常交流的语言(如中文、英文),具有抽象性、歧义性、上下文依赖性;
- 与其他信息的区别:
::::info[1) 图像或音频]{open}
连续信号(如相邻像素相关)。
::::
::::info[2) 代码]{open}
语法严格(错一个符号即报错)。
::::
::::info[3) 自然语言]{open}
离散符号(如
苹果可指水果或公司)。
::::
考核方式:概念、简答题
2. 基本定义:大语言模型(LLM)
- 定义:参数规模达数十亿或万亿级,通过海量文本预训练获得通用语言能力的模型;
- 核心范式:
::::info[1) 生成]{open}
按顺序产出文本(如写文章、聊天)。
::::
::::info[2) 理解]{open}
分析文本含义(如情感分析、问答)。
::::
-
| 与传统 NLP 模型的区别: |
维度 |
传统NLP模型(如 BERT-base) |
大模型(如GPT-3) |
| 参数规模 |
数百万-数亿 |
数十亿-万亿 |
| 训练方式 |
单任务单独训练 |
预训练+提示或微调(通用适配) |
| 泛化能力 |
仅适配训练任务 |
零样本适配新任务(如没训过翻译也能做) |
考核方式:概念、简答题
3. 发展历程与现状
四代语言模型
- 统计语言模型:基于概率统计(如 n-gram),无法理解语义;
- 神经网络语言模型:用 RNN 或 CNN 建模,处理短文本;
- 预训练语言模型:BERT 或 GPT-1,首次实现
预训练+微调;
- 大语言模型:GPT-2 及以后,参数超百亿,涌现复杂能力(如推理)。
关键里程碑
- GPT-3(1750 亿参数):证明
规模带来质变,零样本能力显著;
- Llama、Qwen 或 DeepSeek:开源大模型,降低企业落地成本;
- BERT:双向建模(看前后文),提升理解类任务效果。
考核方式:概念、简答题
4. 扩展法则
核心法则对比
| 法则 |
核心思想 |
工程意义 |
| KM 法则(2020) |
固定计算下,提升性能更依赖增大模型规模 |
早期大模型(如 GPT-3)侧重扩参数 |
| Chinchilla 法则(2022) |
最优策略是参数与数据同步扩大(如参数翻倍,数据也翻倍) |
用700亿参数 +1.4 万亿词,效果超 GPT-3(1750 亿参数 +3000 亿词) |
考核方式:概念、计算题(如给定计算资源,分配参数与数据量)
5. 大模型代表能力(涌现能力)
- 上下文学习(ICL):输入中给几个示例(如1+1=2,2+2=4),模型无需改参数就能学会新任务(如3+3=6);
- 指令微调:用
指令—回答对(如总结:文本 → 摘要)微调,让模型更听话;
- 逐步推理(CoT):生成中间步骤再给答案,如小明有 5 苹果,吃 2 个 → 剩 3 个,买 3 个 → 共 6 个,提升数学或逻辑题准确率。
考核方式:概念、案例分析、API 调用
三、模型架构
1. 注意力机制
核心原理:Query-Key-Value(QKV)
- 把每个词转化为 Q(查询)、K(键)、V(值);
- 通过计算 Q 与所有 K 的相似度(用 softmax 归一化),给相关词的 V 更高权重,实现关注重点。
关键类型
- 自注意力:同一序列内的词互相关注(如
苹果手机的苹果关注手机);
- 交叉注意力:两个序列间关注(如翻译时,中文
我关注英文I)。
考核方式:概念、计算(如简单 QKV 相似度计算)
2. 主流架构与任务适配
| 架构类型 |
特点 |
适配任务 |
示例模型 |
| 因果解码器 |
只能看当前词之前的内容(单向) |
生成类(写文章、聊天) |
GPT 系列 |
| 编码器 |
能看整个序列(双向) |
理解类(分类、问答) |
BERT 系列 |
| 编码器-解码器 |
双向理解+单向生成 |
转换类(翻译、摘要) |
T5 系列 |
考核方式:概念、架构对比分析
3. Transformer 模型的基本结构组成
核心组件
- 输入编码:将词转化为向量(词嵌入);
- 位置编码:解决 Transformer
不懂词序的问题,如区分猫追狗和狗追猫;
- 变体:绝对位置编码(固定标签)、相对位置编码(关注词间距)、旋转位置编码(RoPE,支持长文本);
- 多头自注意力:多个注意力头并行关注不同维度(如一个头关注语法,一个关注语义);
- 前馈网络(FFN):对每个词的向量单独处理,增强表达能力;
- 编码器或解码器:堆叠多层上述组件(如 GPT-3 有 96 层)。
考核方式:概念、公式、代码实现(基础理解)
四、预训练技术
1. 核心学习范式
自监督学习
- 定义:从数据本身构造标签(无需人工标注);
- 典型方法:
::::info[1) 掩码预测]{open}
BERT 的 MLM:遮盖
猫,让模型猜猫。
::::
::::info[2) 自回归]{open}
GPT:从左到右预测下一个词.
::::
::::info[3) 对比学习]{open}
SimCLR:将同一张图的不同裁剪视为相似,不同图视为不相似。
::::
监督学习 & 自监督学习
- 区别:监督学习依赖人工标签,自监督学习从数据自动生成标签;
- 联系:大模型用
自监督预训练(学通用规律)+ 监督微调(适配具体任务)范式,如 BERT 先预训练,再在问答数据集微调。
考核方式:概念、公式、简答
2. 预训练任务
- 下一个词元预测:最基础任务(如今天天气 → 预测好);
- 去噪自编码:BERT 的 MLM,遮盖部分词让模型还原;
- 下N个词元预测:扩展任务(如预测接下来 5 个词),增强长文本建模能力;
- 多任务学习:同时训练多个任务(如预测词 + 判断句子顺序),提升泛化能力。
考核方式:概念、公式、实现(基础)
3. 优化设置
批次数据训练
- Batch Size:每次训练输入的数据量;
- 影响:Batch Size 越大,训练越稳定,但显存占用越高;
- 动态调整策略:显存不足时减小 Batch Size,训练后期增大以降低梯度噪声。
学习率
- 定义:模型参数更新的
步长(太大易震荡,太小收敛慢);
- 调度策略:
::::info[1) Warm-up]{open}
初期从 0 线性增大学习率,避免梯度不稳定;
::::
::::info[2) 余弦衰减]{open}
后期按余弦曲线减小学习率,精细调参。
::::
- 示例:Llama 训练用 2000 步 Warm-up + 余弦衰减。
优化器
- 主流选择:
::::info[1) Adam]{open}
结合动量和自适应学习率,收敛快。
::::
::::info[2) AdamW]{open}
Adam 的改进版,修正权重衰减,大模型标配(如 GPT-3 用 AdamW)。
::::
::::info[3) SGD]{open}
基础优化器,收敛慢但泛化性可能更好。
::::
考核方式:概念、实现
4. 计算与资源估算
参数量计算
- 标准 Transformer:参数量 ≈ 注意力层参数 + 前馈网络参数 + 词嵌入参数;
- 示例:7B 模型(70 亿参数),单卡显存需 24GB 以上(全参数训练)。
训练运算量(FLOPs)
- 公式:
::::info[1) 单次前向计算量]{open}
::::
::::info[2) 总计算量]{open}
$≈$ 前向计算量 $\times 3$(前向 $+~$ 反向 $+$ 优化器更新)$\times$ 总训练词数。
::::
- 示例:700 亿参数模型 +3 万亿词训练,需约 3 \times 10^{24} 次浮点运算(3 ZFLOPs)。
考核方式:计算题
五、指令微调
1. 基础概念
- 指令微调:用指令—回答对(如翻译:Hello→ 你好)微调模型,让模型理解并遵循人类指令;
- 与多任务学习的关系:指令微调是
结构化多任务学习,所有任务统一为指令 + 输入 → 输出格式,提升泛化能力。
考核方式:概念
2. 指令数据集构建
- 基础方法:
::::info[1) 数据合成]{open}
人工写指令(如用 300 字总结《红楼梦》)。
::::
::::info[2)筛选清洗]{open}
剔除模糊指令(如写一篇好文章)、修正错误回答。
::::
- 提升策略:
::::info[1)指令进化]{open}
从种子指令改写或扩展(如总结文章 → 总结科技文章)。
::::
::::info[2)自引导增强]{open}
用当前模型生成回答,筛选高质量样本再训练。
::::
考核方式:概念、实现(基础)
六、人类对齐
1. 背景与标准
- 背景:大模型可能生成有害 或 无用内容(如歧视言论、错误信息),需对齐人类价值观;
- 核心标准:无害性(不伤害人)、有用性(帮用户解决问题)、诚实性(不编造信息);
- 扩展标准:语言自然(符合人类表达习惯)、道德一致(符合文化伦理)。
考核方式:概念
2. 关键问题:幻觉
- 定义:模型生成看似合理但事实错误的内容;
- 分类:
- 逻辑性幻觉(如所有 A 是 B,这个 A 不是 B);
- 缓解方法:
::::info[1)检索增强]{open}
RAG:从知识库查事实再生成。
::::
::::info[2)自我验证]{open}
生成后检查逻辑一致性。
::::
::::info[3)对齐训练]{open}
用 DPO 或 RLHF 惩罚幻觉回答。
(抖 m 来了)
::::
考核方式:概念、实现(基础)
七、解码与部署
1. 解码方法
基础方法
- 贪心搜索:每步选概率最高的词,速度快但易局部最优(如生成重复内容);
- 束搜索:保留 Top-K 个候选(如 K=5),选整体概率最高的,提升生成质量;
- 超参数调优:束宽(K=3-10)、长度归一化(避免偏好短句)、重复惩罚(避免
我我我)。
随机采样策略
| 策略 |
原理 |
应用场景 |
| 温度采样 |
调节温度 T:T→0 选高概率词,T>1 增加多样性 |
创意写作(T=1.2)、客服(T=0.7) |
| Top-k 采样 |
从概率 Top-K 个词中随机选 |
排除低概率荒谬词(如儿童故事) |
| Top-p 采样 |
选累积概率达 p(如 0.9)的最小词集 |
平衡质量与多样性(GPT 默认 p=0.9) |
考核方式:概念、公式
2. 低资源部署
- 量化:将 32 位浮点数转为 8 位或 4位整数,减少显存占用(如 INT8 量化可省 75\% 显存);
- 模型压缩:
::::info[1)蒸馏]{open}
用大模型(老师)教小模型(学生),如 DistilBERT 体积缩小 40\%.
::::
::::info[2)剪枝]{open}
移除不重要的神经元或连接,保留核心结构。
::::
考核方式:概念、实现(基础)
八、提示学习
1. 提示工程基础
- 定义:设计输入文本(提示)引导模型输出期望结果;
- 目的:无需微调,通过提示激活模型能力(如总结:文本 →3 句话摘要);
- 适用场景:任务简单、知识在训练数据中(如客服问答);
- 不适用场景:需实时信息(如 2025 年新闻)、高度专业领域(如医疗诊断)。
考核方式:概念、简答
2. 上下文学习(ICL)
- 定义:输入中给示例(如 1+1=2,2+2=4),模型学会新任务(如 3+3=6);
- 增强策略:
::::info[1)示例选择]{open}
选与当前任务相似的示例。
::::
::::info[2)示例排序]{open}
把相关示例放最后(模型对近期内容更敏感)。
::::
- 底层机制:模型预训练时学会
从例子归纳规则的能力,属于涌现能力。
考核方式:概念、实现(基础)
3. 思维链提示(CoT)
- 定义:要求模型输出中间推理步骤,再给答案;
- 基本模板:
::::info[问题]{open}
小明有5苹果,吃 2 个,买 3 个,现在有几个?
::::
::::info[答案]{open}
第一步 5-2=3,第二步 3+3=6,最终答案 6。
::::
- 优化策略:自洽性(生成多条思维链,选出现次数最多的答案)、自动 CoT(用
一步步思考触发推理)。
考核方式:概念、实现(基础)
九、复杂推理
1. 认知推理基础
- 三者区别:
::::info[1)感知]{open}
提取基础特征(如识别句子中的字)。
::::
::::info[2)认知]{open}
理解语义(如
苹果指水果或公司)。
::::
::::info[3)推理]{open}
逻辑推导(如下雨带伞,今天下雨 → 带伞)。
::::
- 长思维链模型:通过输出完整推理步骤,解决数学、逻辑、代码等复杂任务(如 GSM8K 数学题,CoT 提示后准确率从 17\%→58\%)。
考核方式:概念、实现(基础)
2. 基于搜索的推理
- 核心思想:探索多个推理路径,选最优解;
- 方法:
::::info[1)自洽性]{open}
生成多条思维链,投票选答案。
::::
::::info[2)思维树]{open}
将推理建模为树,扩展有希望的分支(如 24 点游戏,成功率从 4\%→74\%)。
::::
考核方式:概念、实现(基础)
十、智能体(Agent)
1. 基础组件
- 身份与角色设置:定义智能体的身份、知识范围(如 19 世纪医生不应提抗生素),通过系统提示保持一致性;
- 记忆机制:
::::info[1)显式记忆]{open}
结构化存储(如数据库记
用户对花生过敏)。
::::
::::info[2)隐式记忆]{open}
编码在模型参数或上下文(临时记忆)。
::::
::::info[3)长期记忆]{open}
用向量数据库存储,解决上下文窗口有限问题。
::::
考核方式:概念、实现(基础)
2. 工具使用与多智能体
- 工具使用:智能体自动选择工具(如用计算器算数学题),优化方法包括参数自动填充(如算 15\% 小费 → 金额 =100)、错误恢复(API 报错时重试);
- 多智能体通信:
- 典型结构:中心化(一个协调者 + 多个执行者)、去中心化(直接协作);
- 示例:斯坦福 AI 小镇,25 个智能体模拟人类社交、工作。
考核方式:概念、实现(基础)
十一、模型评测
1. 核心流程与指标
- 评测流程:数据集划分(训练或验证或测试)→ 评估泛化能力(在新数据上的表现);
- 常见指标:
- 精确率或召回率或 F1(分类任务);
- 困惑度(Perplexity,语言模型预测能力);
- BLEU或ROUGE(生成任务,如翻译或摘要);
- 指标局限性:BLEU 只看词重合度,无法判断语义正确(如
猫追狗和狗追猫BLEU 可能高,但语义相反)。
考核方式:概念、公式、实现(基础)
2. 公开评测集
- 中文常用:C-Eval(覆盖人文、理工等领域);
- 英文常用:MMLU(57 个学科多选题)、BIG-Bench(200+ 非常规任务);
- 数据污染:模型预训练时见过评测题,导致分数虚高,需检测训练数据与评测题的重叠度。
考核方式:概念
十二、模型伦理与安全
1. 核心问题与解决
- 模型偏见:对特定群体的不公平倾向(如招聘模型将
工程师与男性强关联),根源是训练数据含社会偏见,缓解方法是平衡数据分布、加入反偏见损失;
- 隐私保护:
::::info[1)差分隐私]{open}
训练时加噪声,无法定位单条数据。
::::
::::info[2)联邦学习]{open}
数据留在本地,只传模型更新。
::::
- 数据安全:防止数据泄露(如成员推断攻击:判断某条数据是否在训练集),措施包括数据加密、访问控制(基于角色限制权限)。
考核方式:概念、案例分析