LMCC-T 备考笔记

_acat_ · 2025-11-05 10:08:20 · 科技·工程

本文总结自 LMCC 大纲，不包含成年组。

一、人工智能基础概念

1. 人工智能相关概念定义

核心知识点

智能：生物对环境的感知与自适应能力；人工智能（AI）：通过机器模拟人类智能的技术。
机器学习：AI 的核心分支，让模型从数据中自动学习规律（无需显式编程）。
模型：机器学习的工具，通过参数存储学习到的规律；训练：用数据调整模型参数的过程。

关键分类：有监督学习 & 无监督学习

类型	定义	典型任务	示例
有监督学习	用标注好答案的数据训练（如图 1 是猫）	分类、回归	垃圾邮件识别（分类）、房价预测（回归）
无监督学习	用无标注数据自动发现规律	聚类、降维	用户分群（聚类）、高维词向量可视化（降维）

考核方式：概念

2. 机器学习流程及经典模型

核心流程

数据预处理：解决数据脏乱差问题，包括： ::::info[1）数据清洗]{open} 删除异常值（如年龄 =200 岁）、填补缺失值（如用平均年龄补全）。 :::: ::::info[2）数据变换]{open} 归一化（如将像素值 0 ~ 255 缩放到 0 ~ 1）、独热编码（如红 =[1,0,0]）。 :::: ::::info[3）数据工程]{open} 构造新特征（如从点击日志提取 7 天高频商品）。 ::::
模型训练：用处理后的数据调整参数；
验证与测试：用新数据评估模型性能（避免背答案）；
经典模型：神经网络（深度学习的基础，由多层神经元组成）。

考核方式：概念

3. 验证及评测

核心指标

交叉验证： 将数据分成多组，轮流用一组当测试集，避免单次测试的偶然性。
精确率： 预测为正的结果中，实际为正的比例（如识别垃圾邮件时，误判正常邮件的概率）。
召回率： 实际为正的样本中，被正确预测的比例（如漏判垃圾邮件的概率）。
ROC 曲线： 衡量模型在精确率与召回率间的平衡能力。

关键问题：过拟合

定义：模型在训练数据上表现极好（如准确率 99\%），但在新数据上表现差（如准确率 60\%）；
本质：模型死记硬背训练数据的噪声，未学会通用规律；
缓解方法：增加数据量、提前停止训练、随机关闭部分神经元。

考核方式：概念

4. 人工智能常见应用领域

自然语言理解（NLP）：处理人类语言，如聊天机器人、文本摘要；
计算机视觉（CV）：识别图像或视频，如人脸识别、车牌检测；
扩展领域：智能检索（语义级搜索，如报销流程匹配费用申请文档）、推荐系统（如抖音根据点赞推荐视频）。

考核方式：概念

二、大模型基础概念

1. 自然语言的基础概念

定义：人类日常交流的语言（如中文、英文），具有抽象性、歧义性、上下文依赖性；
与其他信息的区别： ::::info[1）图像或音频]{open} 连续信号（如相邻像素相关）。 :::: ::::info[2）代码]{open} 语法严格（错一个符号即报错）。 :::: ::::info[3）自然语言]{open} 离散符号（如苹果可指水果或公司）。 ::::

考核方式：概念、简答题

2. 基本定义：大语言模型（LLM）

定义：参数规模达数十亿或万亿级，通过海量文本预训练获得通用语言能力的模型；
核心范式： ::::info[1）生成]{open} 按顺序产出文本（如写文章、聊天）。 :::: ::::info[2）理解]{open} 分析文本含义（如情感分析、问答）。 ::::

与传统 NLP 模型的区别：	维度	传统NLP模型（如 BERT-base）	大模型（如GPT-3）
参数规模	数百万-数亿	数十亿-万亿
训练方式	单任务单独训练	预训练+提示或微调（通用适配）
泛化能力	仅适配训练任务	零样本适配新任务（如没训过翻译也能做）

考核方式：概念、简答题

3. 发展历程与现状

四代语言模型

统计语言模型：基于概率统计（如 n-gram），无法理解语义；
神经网络语言模型：用 RNN 或 CNN 建模，处理短文本；
预训练语言模型：BERT 或 GPT-1，首次实现预训练+微调；
大语言模型：GPT-2 及以后，参数超百亿，涌现复杂能力（如推理）。

关键里程碑

GPT-3（1750 亿参数）：证明规模带来质变，零样本能力显著；
Llama、Qwen 或 DeepSeek：开源大模型，降低企业落地成本；
BERT：双向建模（看前后文），提升理解类任务效果。

考核方式：概念、简答题

4. 扩展法则

核心法则对比

法则	核心思想	工程意义
KM 法则（2020）	固定计算下，提升性能更依赖增大模型规模	早期大模型（如 GPT-3）侧重扩参数
Chinchilla 法则（2022）	最优策略是`参数与数据同步扩大`（如参数翻倍，数据也翻倍）	用700亿参数 +1.4 万亿词，效果超 GPT-3（1750 亿参数 +3000 亿词）

考核方式：概念、计算题（如给定计算资源，分配参数与数据量）

5. 大模型代表能力（涌现能力）

上下文学习（ICL）：输入中给几个示例（如1+1=2，2+2=4），模型无需改参数就能学会新任务（如3+3=6）；
指令微调：用指令—回答对（如总结：文本 → 摘要）微调，让模型更听话；
逐步推理（CoT）：生成中间步骤再给答案，如小明有 5 苹果，吃 2 个 → 剩 3 个，买 3 个 → 共 6 个，提升数学或逻辑题准确率。

考核方式：概念、案例分析、API 调用

三、模型架构

1. 注意力机制

核心原理：Query-Key-Value（QKV）

把每个词转化为 Q（查询）、K（键）、V（值）；
通过计算 Q 与所有 K 的相似度（用 softmax 归一化），给相关词的 V 更高权重，实现关注重点。

关键类型

自注意力：同一序列内的词互相关注（如苹果手机的苹果关注手机）；
交叉注意力：两个序列间关注（如翻译时，中文我关注英文I）。

考核方式：概念、计算（如简单 QKV 相似度计算）

2. 主流架构与任务适配

架构类型	特点	适配任务	示例模型
因果解码器	只能看当前词之前的内容（单向）	生成类（写文章、聊天）	GPT 系列
编码器	能看整个序列（双向）	理解类（分类、问答）	BERT 系列
编码器-解码器	双向理解+单向生成	转换类（翻译、摘要）	T5 系列

考核方式：概念、架构对比分析

3. Transformer 模型的基本结构组成

核心组件

输入编码：将词转化为向量（词嵌入）；
位置编码：解决 Transformer不懂词序的问题，如区分猫追狗和狗追猫；
- 变体：绝对位置编码（固定标签）、相对位置编码（关注词间距）、旋转位置编码（RoPE，支持长文本）；
多头自注意力：多个注意力头并行关注不同维度（如一个头关注语法，一个关注语义）；
前馈网络（FFN）：对每个词的向量单独处理，增强表达能力；
编码器或解码器：堆叠多层上述组件（如 GPT-3 有 96 层）。

考核方式：概念、公式、代码实现（基础理解）

四、预训练技术

1. 核心学习范式

自监督学习

定义：从数据本身构造标签（无需人工标注）；
典型方法： ::::info[1）掩码预测]{open} BERT 的 MLM：遮盖猫，让模型猜猫。 :::: ::::info[2）自回归]{open} GPT：从左到右预测下一个词. :::: ::::info[3）对比学习]{open} SimCLR：将同一张图的不同裁剪视为相似，不同图视为不相似。 ::::

监督学习 & 自监督学习

区别：监督学习依赖人工标签，自监督学习从数据自动生成标签；
联系：大模型用自监督预训练（学通用规律）+ 监督微调（适配具体任务）范式，如 BERT 先预训练，再在问答数据集微调。

考核方式：概念、公式、简答

2. 预训练任务

下一个词元预测：最基础任务（如今天天气 → 预测好）；
去噪自编码：BERT 的 MLM，遮盖部分词让模型还原；
下N个词元预测：扩展任务（如预测接下来 5 个词），增强长文本建模能力；
多任务学习：同时训练多个任务（如预测词 + 判断句子顺序），提升泛化能力。

考核方式：概念、公式、实现（基础）

3. 优化设置

批次数据训练

Batch Size：每次训练输入的数据量；
影响：Batch Size 越大，训练越稳定，但显存占用越高；
动态调整策略：显存不足时减小 Batch Size，训练后期增大以降低梯度噪声。

学习率

定义：模型参数更新的步长（太大易震荡，太小收敛慢）；
调度策略： ::::info[1） Warm-up]{open} 初期从 0 线性增大学习率，避免梯度不稳定； :::: ::::info[2）余弦衰减]{open} 后期按余弦曲线减小学习率，精细调参。 ::::
示例：Llama 训练用 2000 步 Warm-up + 余弦衰减。

优化器

主流选择： ::::info[1） Adam]{open} 结合动量和自适应学习率，收敛快。 :::: ::::info[2） AdamW]{open} Adam 的改进版，修正权重衰减，大模型标配（如 GPT-3 用 AdamW）。 :::: ::::info[3） SGD]{open} 基础优化器，收敛慢但泛化性可能更好。 ::::

考核方式：概念、实现

4. 计算与资源估算

参数量计算

标准 Transformer：参数量 ≈ 注意力层参数 + 前馈网络参数 + 词嵌入参数；
示例：7B 模型（70 亿参数），单卡显存需 24GB 以上（全参数训练）。

训练运算量（FLOPs）

公式： ::::info[1）单次前向计算量]{open} :::: ::::info[2）总计算量]{open} $≈$ 前向计算量 $\times 3$（前向 $+~$ 反向 $+$ 优化器更新）$\times$ 总训练词数。 ::::
示例：700 亿参数模型 +3 万亿词训练，需约 3 \times 10^{24} 次浮点运算（3 ZFLOPs）。

考核方式：计算题

五、指令微调

1. 基础概念

指令微调：用指令—回答对（如翻译：Hello→ 你好）微调模型，让模型理解并遵循人类指令；
与多任务学习的关系：指令微调是结构化多任务学习，所有任务统一为指令 + 输入 → 输出格式，提升泛化能力。

考核方式：概念

2. 指令数据集构建

基础方法： ::::info[1）数据合成]{open} 人工写指令（如用 300 字总结《红楼梦》）。 :::: ::::info[2）筛选清洗]{open} 剔除模糊指令（如写一篇好文章）、修正错误回答。 ::::
提升策略： ::::info[1）指令进化]{open} 从种子指令改写或扩展（如总结文章 → 总结科技文章）。 :::: ::::info[2）自引导增强]{open} 用当前模型生成回答，筛选高质量样本再训练。 ::::
考核方式：概念、实现（基础）

六、人类对齐

1. 背景与标准

背景：大模型可能生成有害或无用内容（如歧视言论、错误信息），需对齐人类价值观；
核心标准：无害性（不伤害人）、有用性（帮用户解决问题）、诚实性（不编造信息）；
扩展标准：语言自然（符合人类表达习惯）、道德一致（符合文化伦理）。

考核方式：概念

2. 关键问题：幻觉

定义：模型生成看似合理但事实错误的内容；
分类：
- 逻辑性幻觉（如所有 A 是 B，这个 A 不是 B）；
缓解方法： ::::info[1）检索增强]{open} RAG：从知识库查事实再生成。 :::: ::::info[2）自我验证]{open} 生成后检查逻辑一致性。 :::: ::::info[3）对齐训练]{open} 用 DPO 或 RLHF 惩罚幻觉回答。~~（抖 m 来了）~~ ::::
考核方式：概念、实现（基础）

七、解码与部署

1. 解码方法

基础方法

贪心搜索：每步选概率最高的词，速度快但易局部最优（如生成重复内容）；
束搜索：保留 Top-K 个候选（如 K=5），选整体概率最高的，提升生成质量；
- 超参数调优：束宽（K=3-10）、长度归一化（避免偏好短句）、重复惩罚（避免我我我）。

随机采样策略

策略	原理	应用场景
温度采样	调节温度 T：T→0 选高概率词，T>1 增加多样性	创意写作（T=1.2）、客服（T=0.7）
Top-k 采样	从概率 Top-K 个词中随机选	排除低概率荒谬词（如儿童故事）
Top-p 采样	选累积概率达 p（如 0.9）的最小词集	平衡质量与多样性（GPT 默认 p=0.9）

考核方式：概念、公式

2. 低资源部署

量化：将 32 位浮点数转为 8 位或 4位整数，减少显存占用（如 INT8 量化可省 75\% 显存）；
模型压缩： ::::info[1）蒸馏]{open} 用大模型（老师）教小模型（学生），如 DistilBERT 体积缩小 40\%. :::: ::::info[2）剪枝]{open} 移除不重要的神经元或连接，保留核心结构。 ::::

考核方式：概念、实现（基础）

八、提示学习

1. 提示工程基础

定义：设计输入文本（提示）引导模型输出期望结果；
目的：无需微调，通过提示激活模型能力（如总结：文本 →3 句话摘要）；
适用场景：任务简单、知识在训练数据中（如客服问答）；
不适用场景：需实时信息（如 2025 年新闻）、高度专业领域（如医疗诊断）。

考核方式：概念、简答

2. 上下文学习（ICL）

定义：输入中给示例（如 1+1=2，2+2=4），模型学会新任务（如 3+3=6）；
增强策略： ::::info[1）示例选择]{open} 选与当前任务相似的示例。 :::: ::::info[2）示例排序]{open} 把相关示例放最后（模型对近期内容更敏感）。 ::::
底层机制：模型预训练时学会从例子归纳规则的能力，属于涌现能力。

考核方式：概念、实现（基础）

3. 思维链提示（CoT）

定义：要求模型输出中间推理步骤，再给答案；
基本模板： ::::info[问题]{open} 小明有5苹果，吃 2 个，买 3 个，现在有几个？ :::: ::::info[答案]{open} 第一步 5-2=3，第二步 3+3=6，最终答案 6。 ::::
优化策略：自洽性（生成多条思维链，选出现次数最多的答案）、自动 CoT（用一步步思考触发推理）。

考核方式：概念、实现（基础）

九、复杂推理

1. 认知推理基础

三者区别： ::::info[1）感知]{open} 提取基础特征（如识别句子中的字）。 :::: ::::info[2）认知]{open} 理解语义（如苹果指水果或公司）。 :::: ::::info[3）推理]{open} 逻辑推导（如下雨带伞，今天下雨 → 带伞）。 ::::
长思维链模型：通过输出完整推理步骤，解决数学、逻辑、代码等复杂任务（如 GSM8K 数学题，CoT 提示后准确率从 17\%→58\%）。

考核方式：概念、实现（基础）

2. 基于搜索的推理

核心思想：探索多个推理路径，选最优解；
方法： ::::info[1）自洽性]{open} 生成多条思维链，投票选答案。 :::: ::::info[2）思维树]{open} 将推理建模为树，扩展有希望的分支（如 24 点游戏，成功率从 4\%→74\%）。 ::::

考核方式：概念、实现（基础）

十、智能体（Agent）

1. 基础组件

身份与角色设置：定义智能体的身份、知识范围（如 19 世纪医生不应提抗生素），通过系统提示保持一致性；
记忆机制： ::::info[1）显式记忆]{open} 结构化存储（如数据库记用户对花生过敏）。 :::: ::::info[2）隐式记忆]{open} 编码在模型参数或上下文（临时记忆）。 :::: ::::info[3）长期记忆]{open} 用向量数据库存储，解决上下文窗口有限问题。 ::::

考核方式：概念、实现（基础）

2. 工具使用与多智能体

工具使用：智能体自动选择工具（如用计算器算数学题），优化方法包括参数自动填充（如算 15\% 小费 → 金额 =100）、错误恢复（API 报错时重试）；
多智能体通信：
- 典型结构：中心化（一个协调者 + 多个执行者）、去中心化（直接协作）；
- 示例：斯坦福 AI 小镇，25 个智能体模拟人类社交、工作。

考核方式：概念、实现（基础）

十一、模型评测

1. 核心流程与指标

评测流程：数据集划分（训练或验证或测试）→ 评估泛化能力（在新数据上的表现）；
常见指标：
- 精确率或召回率或 F1（分类任务）；
- 困惑度（Perplexity，语言模型预测能力）；
- BLEU或ROUGE（生成任务，如翻译或摘要）；
指标局限性：BLEU 只看词重合度，无法判断语义正确（如猫追狗和狗追猫BLEU 可能高，但语义相反）。

考核方式：概念、公式、实现（基础）

2. 公开评测集

中文常用：C-Eval（覆盖人文、理工等领域）；
英文常用：MMLU（57 个学科多选题）、BIG-Bench（200+ 非常规任务）；
数据污染：模型预训练时见过评测题，导致分数虚高，需检测训练数据与评测题的重叠度。

考核方式：概念

十二、模型伦理与安全

1. 核心问题与解决

模型偏见：对特定群体的不公平倾向（如招聘模型将工程师与男性强关联），根源是训练数据含社会偏见，缓解方法是平衡数据分布、加入反偏见损失；
隐私保护： ::::info[1）差分隐私]{open} 训练时加噪声，无法定位单条数据。 :::: ::::info[2）联邦学习]{open} 数据留在本地，只传模型更新。 ::::
数据安全：防止数据泄露（如成员推断攻击：判断某条数据是否在训练集），措施包括数据加密、访问控制（基于角色限制权限）。

考核方式：概念、案例分析