Clinical Education Insights

欢迎来到 Clinical Education Insights。
这是一个专注于临床医学教育研究的垂直领域平台。我们致力于：
分享洞见：深入探讨临床教学中的核心问题与前沿思考。
夯实基础：系统梳理医学教育学的核心概念与理论框架。
方法论：分享科学的研究方法、实证工具与教学实施策略。
无论您是临床带教老师、医学教育研究生，还是对医学教育感兴趣的同仁，希望这里的内容能为您带来启发。

在临床教育领域，教学论文是否需要严谨的数据支撑，一直是一个值得深思的问题。有人认为教学研究属于"软科学"，不必像基础医学研究那样追求数据的精确性；也有人认为，缺乏数据支撑的教学论文无异于经验之谈，难以称之为真正的学术研究。作为一名临床教育研究者，我想从几个维度谈谈自己的看法。

引言：临床大夫眼里的“评价”为什么总等于考试？

很多科室一谈“评价”，默认指向两件事：

期末理论考、出科理论考
一次性技能考核（穿刺、心肺复苏、缝合……）

这当然重要，但它解决的是“你有没有达标”（Summative Assessment，终结性评价）。而住培真正难的是：如何把一个人从“勉强会”带到“稳定会、独立会、能迁移”。这靠的不是期末那一下，而是过程中的“每天一点点”。

这篇文章想做三件事：

用大白话讲清楚：形成性评价（Formative Assessment）到底好在哪、为什么更有效。
给你一套在临床忙碌环境也能落地的方案：越简单越有效的形成性评价“最小可行包”。
把这种做法提炼成“可发表”的教学研究方法论：如何设计、收集哪些数据、怎么分析、怎么写论文。

第一部分：形成性评价是什么？一句话说清楚

终结性评价像“期末考试”：打分、排名、过不过线。

形成性评价像“带教中的体检+纠偏”：不为了淘汰谁，而是为了让他下一次做得更好。它的核心不是“给分”，而是“给方向”。

你可以把形成性评价理解为一句非常实用的话：

“我看见你怎么做了（证据），我告诉你哪里做得好（保留），哪里要改（下一步动作），你下次再试一次（循环）。”

第二部分：为什么形成性评价更有效？（临床大夫能立刻感受到的优势）

优势1：把“学习”变成连续动作，而不是一次冲刺

一次考试只能告诉你“这次表现如何”。形成性评价能做到：

每周都有方向
每次都有改进点
每个月都能看见成长曲线

对住培来说，成长是“曲线”，不是“瞬间”。

优势2：更贴近真实临床能力（不是只测知识和动作）

临床胜任力往往体现在：

关键时刻的决策顺序
信息收集是否完整且有重点
能否向病人解释清楚并取得配合
能否在不确定性下做出安全选择

这些不是一张卷子或一次技能站能完整覆盖的。形成性评价可以把评价“搬到真实场景”里。

优势3：反馈越及时，改得越快

很多科室的问题不是“没有评价”，而是评价太晚：

两个月轮转结束了才说：“你沟通不行。”

学员只会觉得冤。形成性评价强调“当场/当日反馈”，让错误在还没固化之前就被纠正。

优势4：对带教者更省力——因为它减少返工

听上去反直觉：评价怎么会省力？

原因很简单：你如果每周都用一句话纠偏，学员会越来越“省心”；你如果放任到最后再批评，你会一直重复同样的带教内容，永远在补漏洞。

优势5：学员更愿意学，因为它不吓人

终结性评价天然带压力。形成性评价“低风险、高频率”，更容易让学员：

承认自己不会
主动问问题
更愿意尝试

这对住培这种“必须敢上手”的培训尤其关键。

第三部分：临床大夫最常见的误解（以及一句话纠正）

误解1：“形成性评价不就是随口点评吗？”

纠正：随口点评是“感觉”；形成性评价需要“证据+下一步动作”。

不要说：“你不够熟练。”
要说：“你今天腹穿前没有口头核对凝血指标和抗凝药史（证据）。下次你在铺无菌单前，用20秒把这两项说出来（动作）。我下次再听一次（循环）。”

误解2：“我太忙了，没时间做这些”

纠正：形成性评价不等于写长表格。最有效的形成性评价，很多时候只要60–120秒。

误解3：“没有分数就不算评价”

纠正：形成性评价的核心不是分数，而是“让下一次更好”。必要时可以用极简等级（比如1–4级）辅助记录，但分数不是目的。

误解4：“形成性评价太主观，没法研究”

纠正：主观不等于不可研究。你只要把“评价标准、记录方式、频次、反馈结构”做规范，就可以形成可分析的数据，并且更贴近真实教育过程。

第四部分：形成性评价的“最小可行包”（Busy临床也能落地）

如果你只想从明天开始做，先把下面这套“极简版”用起来。

1）一分钟形成性评价：三句结构化反馈（建议作为科室统一口径）

每次床旁/操作/病例讨论后，用三句话：

你做得最好的一个点是：____（具体行为）
你最需要改的一个点是：____（具体行为）
下次你就这样做：____（可执行动作，最好可观察）

关键原则：一次只抓一个改进点。别把反馈变成“背书清单”。

2）超轻量记录：1个等级 + 1句备注（用于形成可追踪数据）

每次评价只记录两项：

等级（1–4）：1需要全程指导 / 2需要频繁提示 / 3偶尔提示 / 4可独立完成
一句备注：本次最关键的下一步动作

这两个字段足以形成学习轨迹，也足够做教学研究。

引言：为什么你讲得很认真，学员还是“学不进去”？

住培带教里最常见的挫败感之一，是这种场景：

“我都讲到嗓子哑了，学员点头如捣蒜；转头让他处理同样的问题，他还是不会。”

很多时候，问题不在于你讲得不对，而在于：学员当时的“大脑带宽”已经满了，或者他并不觉得这件事和自己有关。

这篇文章把两个看似“学院派”的理论，变成你可以立刻拿去用的带教工具：

学习负荷理论（Cognitive Load Theory, CLT）：解决“学不进去/听不懂/记不住”的问题。
成人学习理论（Adult Learning Theory / Andragogy）：解决“学员不主动/不投入/学完不改”的问题。

我们会从住培真实情境出发：床旁教学、操作带教、病例讨论、OSCE/模拟训练、线上课程，把每个理论落到“你下一次带教该怎么说、怎么做、怎么评估”。

第一部分：学习负荷理论——大脑不是无限内存

把学员的大脑想象成一台电脑：

工作记忆（Working memory） 很小，像电脑的内存（RAM），一次只能装很少东西。
长期记忆（Long-term memory） 很大，像硬盘，真正的“能力”都在这里（临床模式识别、处置路径）。

学习负荷理论讲的是：如果你在教学时让学员的“内存”爆了，他就无法把新知识写进“硬盘”。

CLT通常把负荷分成三类，你可以把它们当成三种“占内存”的来源：

1）内在负荷（Intrinsic Load）：这件事本来就难

同一个内容，对不同水平的学员“难度”不一样。

让刚入科的PGY1处理“上消化道出血复苏+用药+镜下止血指征”，内在负荷极高。
让总住解释“PPI为什么要静推+持续泵入”，内在负荷较低。

内在负荷的核心变量不是你讲多少，而是：学员的先验知识 vs 任务复杂度。

2）外在负荷（Extraneous Load）：你让他白白耗脑子了

外在负荷来自教学呈现方式的“浪费”：

PPT一页塞满字，你边讲边翻，学员一直在“找重点”。
你讲处置流程时不断插入八卦、历史沿革、罕见并发症，学员主线被打断。
床旁教学时，病房嘈杂+多人插话+同时查别的检验单，信息碎片化。

外在负荷最可惜：它占内存，却不产生学习收益。

3）促成负荷/建构负荷（Germane Load）：把精力用在“长本事”上

这是学员用来“建模”的那部分脑力：总结规则、形成临床脚本、把零散知识连成路径。

例如你问：

“你刚才为什么先补液再上升压？说出你的判断依据。”
“如果把这个病例换成肝硬化患者，你的处置路径哪里要改？”

这种“逼他解释/迁移”的过程，促成负荷会上升，但这是有效负荷。

带教的目标不是把总负荷压到最低，而是：降低外在负荷，合理控制内在负荷，把节省出来的脑力转给促成负荷。

第二部分：成人学习理论——住培学员不是“被动学生”

住培学员是典型的成人学习者。成人学习理论（常用的是Knowles的成人学习原则）有几个非常“接地气”的要点：

1）要知道“为什么学”

成人学习者不太吃“将来有用”。他更吃“今天值班就要用”。

带教开场把“用处”说清楚，比先讲定义更有效：

“今天这10分钟，我们只解决一件事：你在夜班遇到呕血，先做哪三步能把病人稳住。”

2）希望有自主权（自我导向）

成人更愿意对自己的学习负责。你越是让他“自己选”，他越投入。

“你想优先练‘腹穿无菌流程’还是‘穿刺前评估与禁忌证’？”

3）自带经验，经验既是资源也是偏见

他过往处理过的病例，会成为新学习的“框架”。但也可能带来刻板印象。

你的任务是把经验“显性化”，让他看见自己在用什么规则：

“你刚才说‘年轻人呕血问题不大’，这个判断来自你以前见过的哪些病例？”

4）以问题为中心，而不是以知识为中心

成人学习更适合“解决问题”的结构：

不要从“胃食管静脉曲张的定义”讲起。
从“眼前这个呕血+低血压的病人，你怎么做”讲起。

5）动机更偏内部（成就感、胜任感、被尊重）

住培的学习动力很大部分来自：被信任、能独立、被认可。

所以反馈要具体、可执行、带尊重：

“你这次复苏流程很稳，下一次我希望你把‘先问抗凝药史’提前到第一轮提问里。”

第三部分：把两个理论揉进住培带教——五个高频场景的“即用模板”

下面每个场景，都给你一套“怎么讲/怎么做/怎么评估”的快速打法。

引言：统计分析的“瑞士军刀”来了！

作为一名医学教育研究者，你是否也曾为这些事头疼：

“SPSS太贵，R语言太难，Excel只能算个平均数……我就想比较一下两种教学方法的效果，怎么就那么费劲？” “审稿人要求报告贝叶斯因子，我连贝叶斯是什么都还没搞懂！” “好不容易做完分析，怎么把结果表复制到Word里格式全乱套了？”

如果你也有这些烦恼，那么今天介绍的这款软件，可能会成为你的“救命稻草”——JASP (Jeffreys’ Amazing Statistics Program)。

JASP是一款完全免费、开源的统计软件，由阿姆斯特丹大学开发。它最大的特点就是**“简单”**：

界面友好：像SPSS一样，点菜单、拖变量就能分析，零代码基础也能上手。
双模分析：同一个分析（比如t检验），既能给出传统的频率学派结果（p值、置信区间），也能给出贝叶斯学派结果（贝叶斯因子、可信区间）。一次操作，两份报告。
APA格式一键输出：结果表格和图表都自动符合APA出版格式，可以直接复制粘贴到论文里。
功能强大：从基础的描述统计、t检验，到高级的混合模型、元分析、结构方程模型，医学教育研究常用的方法基本都涵盖。

更重要的是，JASP的最新版本（0.19.3，2025年7月发布） 在稳定性和功能上都有了很大提升，配套的教程（如《Statistical Analysis in JASP: A Guide for Students》）也更新得非常及时。

今天，我们就以住培（住院医师规范化培训）教学研究中最常见的几种数据设计为例，手把手带你用JASP完成从数据整理到结果解读的全过程。我们的目标是：让统计不再可怕，让数据自己说话。

第一部分：住培教学研究，你的数据应该长什么样？

在打开JASP之前，我们先要搞清楚：你的研究问题，决定了你的数据应该怎么收集。

场景一：横断面调查 (Cross-sectional Survey)

研究问题：某院住培医师的职业倦怠水平与带教老师支持度有关吗？
数据设计：
- 在同一时间点，对全院200名住培医师进行问卷调查。
- 收集两个变量：职业倦怠得分（连续变量，0-100分）、感知到的老师支持度得分（连续变量，0-100分）。
分析目标：分析两个连续变量之间的相关性（Pearson’s r）。

场景二：前后测设计 (Pre-post Design)

研究问题：新的“翻转课堂”教学方法，能否提高住培医师的临床决策能力？
数据设计：
- 选取同一批学员（如30人）。
- 干预前：进行一次临床决策能力测试（前测，Pretest）。
- 实施“翻转课堂”教学（干预）。
- 干预后：进行同样的测试（后测，Posttest）。
分析目标：比较同一批人前后两次得分的差异，使用配对样本t检验。

场景三：嵌套数据设计 (Nested Data Design) —— 这才是“大坑”！

研究问题：不同带教老师的督导风格，会影响其组内学员的Mini-CEX评分吗？
数据设计：
- 20位带教老师，每位老师带4-8名学员（共100名学员）。
- 每位学员都接受了Mini-CEX评估，得到一个评分。
- 数据具有嵌套结构：学员（水平1）嵌套在老师（水平2）之下。
分析挑战：学员的评分可能更相似（因为受同一位老师影响）。如果无视嵌套结构，直接用普通回归或t检验，就会犯**“伪重复”** 的错误。
分析目标：使用线性混合模型 (Linear Mixed Models)，把“老师”作为随机效应。

场景四：随机对照试验 (Randomized Controlled Trial, RCT)

研究问题：基于VR的穿刺训练，是否比传统模型训练更有效？
数据设计：
- 将60名学员随机分配到两组：
  - 实验组 (n=30)：接受VR穿刺训练。
  - 对照组 (n=30)：接受传统模型训练。
- 训练结束后，所有人参加同一项穿刺操作考核，记录操作得分和完成时间。
分析目标：比较两组在得分和时间上的差异，使用独立样本t检验或曼-惠特尼U检验（如果数据不符合正态分布）。

小结：把你的研究对号入座，明确你的数据属于哪种“长相”。这决定了你在JASP里该点哪个菜单。

在住院医师规范化培训（住培）的督导管理中，我们常常面临这样的数据困境：同一名带教老师评估了多位学员，同一科室有多位老师，同一医院又有多个科室。这些数据天然存在“嵌套”结构——学员嵌套于老师，老师嵌套于科室，科室嵌套于医院。

如果强行用传统的线性回归（如 t 检验、ANOVA）去分析，会犯一个严重的统计学错误：忽视组内相关性。这就像把同一个家庭里的兄弟姐妹当作完全独立的个体去比较，而忽略了他们共享的家庭环境。结果就是，p 值可能变得异常“显著”，导致我们得出错误的结论。

线性混合模型（Linear Mixed Models, LMM），又称多水平模型（Multilevel Models）或层次线性模型（Hierarchical Linear Models, HLM），正是为解决这类嵌套数据而生。本文将带你一步步理解 HLM 的核心思想，并手把手教你如何将其应用到住培督导管理的研究中。

一、为什么传统方法会“失灵”？——从一个真实场景说起

假设我们想评估一项新的“督导反馈培训”对带教老师评分质量的影响。我们招募了 20 位老师，其中 10 位接受培训（实验组），10 位维持常规（对照组）。培训后，每位老师对自己指导的 5 名学员进行临床胜任力评分（满分 100 分）。

错误做法：将 100 条评分记录（20 位老师 × 5 名学员）直接扔进独立样本 t 检验，比较实验组和对照组的评分差异。

问题所在：来自同一位老师的 5 个评分高度相关（这位老师手松，分数普遍偏高；那位老师手紧，分数普遍偏低）。这 100 条数据并非 100 个独立观测，而是 20 个“簇”。t 检验要求的“独立性”假设被严重违反。

HLM 的解决思路：明确承认数据的两层结构。

水平 1 (学员层)：学员的评分。
水平 2 (老师层)：老师所属的组别（实验/对照）、老师自身的风格等。

HLM 会同时估计两个层面的效应：既看组别差异（固定效应），也允许每位老师有自己的“基线分数”（随机截距）。这样，分析结果才真实可靠。

二、 HLM 核心概念：固定效应 vs. 随机效应

理解 HLM，关键在于分清 固定效应 和 随机效应。

固定效应：你感兴趣、想要直接估计和检验的效应。通常是我们研究的自变量。
- 例子：督导培训（有 vs. 无）、学员性别、轮转时长。我们关心这些因素对评分的影响有多大，并且这个影响在整个研究群体中是一致的。
随机效应：描述数据层次结构中更高层次的变异来源。我们不关心每个具体个体的值，但承认它们的存在会影响模型。
- 随机截距：允许每组（如每位老师）有自己的起点。比如，王老师整体评分比李老师高 5 分。
- 随机斜率：允许自变量（如培训效果）对每组的影响不同。比如，培训对王老师带的学员效果特别好，但对李老师带的学员效果一般。

一个生动的比喻：想象研究不同施肥方案（固定效应：方案A、B）对玉米产量的影响。试验田分布在 5 个不同的村庄（随机效应：村庄）。HLM 会告诉我们：1) 平均来看，方案A比方案B增产多少（固定效应检验）；2) 不同村庄之间的基础产量差异有多大（随机截距方差）；3) 增产效果是否因村庄而异（随机斜率方差）。