欢迎来到 Clinical Education Insights

这是一个专注于临床医学教育研究的垂直领域平台。我们致力于:

  • 分享洞见:深入探讨临床教学中的核心问题与前沿思考。
  • 夯实基础:系统梳理医学教育学的核心概念与理论框架。
  • 方法论:分享科学的研究方法、实证工具与教学实施策略。

无论您是临床带教老师、医学教育研究生,还是对医学教育感兴趣的同仁,希望这里的内容能为您带来启发。


教育研究实战系列三:JASP在医学教育数据分析中的傻瓜式操作指南

Dr. Ma

引言:统计分析的“瑞士军刀”来了!

作为一名医学教育研究者,你是否也曾为这些事头疼:

“SPSS太贵,R语言太难,Excel只能算个平均数……我就想比较一下两种教学方法的效果,怎么就那么费劲?” “审稿人要求报告贝叶斯因子,我连贝叶斯是什么都还没搞懂!” “好不容易做完分析,怎么把结果表复制到Word里格式全乱套了?”

如果你也有这些烦恼,那么今天介绍的这款软件,可能会成为你的“救命稻草”——JASP (Jeffreys’ Amazing Statistics Program)

JASP是一款完全免费、开源的统计软件,由阿姆斯特丹大学开发。它最大的特点就是**“简单”**:

  • 界面友好:像SPSS一样,点菜单、拖变量就能分析,零代码基础也能上手
  • 双模分析:同一个分析(比如t检验),既能给出传统的频率学派结果(p值、置信区间),也能给出贝叶斯学派结果(贝叶斯因子、可信区间)。一次操作,两份报告。
  • APA格式一键输出:结果表格和图表都自动符合APA出版格式,可以直接复制粘贴到论文里。
  • 功能强大:从基础的描述统计、t检验,到高级的混合模型、元分析、结构方程模型,医学教育研究常用的方法基本都涵盖。

更重要的是,JASP的最新版本(0.19.3,2025年7月发布) 在稳定性和功能上都有了很大提升,配套的教程(如《Statistical Analysis in JASP: A Guide for Students》)也更新得非常及时。

今天,我们就以住培(住院医师规范化培训)教学研究中最常见的几种数据设计为例,手把手带你用JASP完成从数据整理到结果解读的全过程。我们的目标是:让统计不再可怕,让数据自己说话。


第一部分:住培教学研究,你的数据应该长什么样?

在打开JASP之前,我们先要搞清楚:你的研究问题,决定了你的数据应该怎么收集。

场景一:横断面调查 (Cross-sectional Survey)

  • 研究问题:某院住培医师的职业倦怠水平与带教老师支持度有关吗?
  • 数据设计
    • 在同一时间点,对全院200名住培医师进行问卷调查。
    • 收集两个变量:职业倦怠得分(连续变量,0-100分)、感知到的老师支持度得分(连续变量,0-100分)。
  • 分析目标:分析两个连续变量之间的相关性(Pearson’s r)。

场景二:前后测设计 (Pre-post Design)

  • 研究问题:新的“翻转课堂”教学方法,能否提高住培医师的临床决策能力?
  • 数据设计
    • 选取同一批学员(如30人)。
    • 干预前:进行一次临床决策能力测试(前测,Pretest)。
    • 实施“翻转课堂”教学(干预)。
    • 干预后:进行同样的测试(后测,Posttest)。
  • 分析目标:比较同一批人前后两次得分的差异,使用配对样本t检验

场景三:嵌套数据设计 (Nested Data Design) —— 这才是“大坑”!

  • 研究问题:不同带教老师的督导风格,会影响其组内学员的Mini-CEX评分吗?
  • 数据设计
    • 20位带教老师,每位老师带4-8名学员(共100名学员)。
    • 每位学员都接受了Mini-CEX评估,得到一个评分
    • 数据具有嵌套结构:学员(水平1)嵌套在老师(水平2)之下。
  • 分析挑战:学员的评分可能更相似(因为受同一位老师影响)。如果无视嵌套结构,直接用普通回归或t检验,就会犯**“伪重复”** 的错误。
  • 分析目标:使用线性混合模型 (Linear Mixed Models),把“老师”作为随机效应。

场景四:随机对照试验 (Randomized Controlled Trial, RCT)

  • 研究问题:基于VR的穿刺训练,是否比传统模型训练更有效?
  • 数据设计
    • 将60名学员随机分配到两组:
      • 实验组 (n=30):接受VR穿刺训练。
      • 对照组 (n=30):接受传统模型训练。
    • 训练结束后,所有人参加同一项穿刺操作考核,记录操作得分完成时间
  • 分析目标:比较两组在得分和时间上的差异,使用独立样本t检验曼-惠特尼U检验(如果数据不符合正态分布)。

小结:把你的研究对号入座,明确你的数据属于哪种“长相”。这决定了你在JASP里该点哪个菜单。

教育研究实战系列二:线性混合模型在住培督导管理中的应用指南

在住院医师规范化培训(住培)的督导管理中,我们常常面临这样的数据困境:同一名带教老师评估了多位学员,同一科室有多位老师,同一医院又有多个科室。这些数据天然存在“嵌套”结构——学员嵌套于老师,老师嵌套于科室,科室嵌套于医院。

如果强行用传统的线性回归(如 t 检验、ANOVA)去分析,会犯一个严重的统计学错误:忽视组内相关性。这就像把同一个家庭里的兄弟姐妹当作完全独立的个体去比较,而忽略了他们共享的家庭环境。结果就是,p 值可能变得异常“显著”,导致我们得出错误的结论。

线性混合模型(Linear Mixed Models, LMM),又称多水平模型(Multilevel Models)或层次线性模型(Hierarchical Linear Models, HLM),正是为解决这类嵌套数据而生。本文将带你一步步理解 HLM 的核心思想,并手把手教你如何将其应用到住培督导管理的研究中。

一、 为什么传统方法会“失灵”?——从一个真实场景说起

假设我们想评估一项新的“督导反馈培训”对带教老师评分质量的影响。我们招募了 20 位老师,其中 10 位接受培训(实验组),10 位维持常规(对照组)。培训后,每位老师对自己指导的 5 名学员进行临床胜任力评分(满分 100 分)。

错误做法:将 100 条评分记录(20 位老师 × 5 名学员)直接扔进独立样本 t 检验,比较实验组和对照组的评分差异。

问题所在:来自同一位老师的 5 个评分高度相关(这位老师手松,分数普遍偏高;那位老师手紧,分数普遍偏低)。这 100 条数据并非 100 个独立观测,而是 20 个“簇”。t 检验要求的“独立性”假设被严重违反。

HLM 的解决思路:明确承认数据的两层结构。

  • 水平 1 (学员层):学员的评分。
  • 水平 2 (老师层):老师所属的组别(实验/对照)、老师自身的风格等。

HLM 会同时估计两个层面的效应:既看组别差异(固定效应),也允许每位老师有自己的“基线分数”(随机截距)。这样,分析结果才真实可靠。

二、 HLM 核心概念:固定效应 vs. 随机效应

理解 HLM,关键在于分清 固定效应随机效应

  • 固定效应:你感兴趣、想要直接估计和检验的效应。通常是我们研究的自变量。
    • 例子:督导培训(有 vs. 无)、学员性别、轮转时长。我们关心这些因素对评分的影响有多大,并且这个影响在整个研究群体中是一致的。
  • 随机效应:描述数据层次结构中更高层次的变异来源。我们不关心每个具体个体的值,但承认它们的存在会影响模型。
    • 随机截距:允许每组(如每位老师)有自己的起点。比如,王老师整体评分比李老师高 5 分。
    • 随机斜率:允许自变量(如培训效果)对每组的影响不同。比如,培训对王老师带的学员效果特别好,但对李老师带的学员效果一般。

一个生动的比喻: 想象研究不同施肥方案(固定效应:方案A、B)对玉米产量的影响。试验田分布在 5 个不同的村庄(随机效应:村庄)。HLM 会告诉我们:1) 平均来看,方案A比方案B增产多少(固定效应检验);2) 不同村庄之间的基础产量差异有多大(随机截距方差);3) 增产效果是否因村庄而异(随机斜率方差)。

教育研究实战系列一:OSCE出科考核与传统出科考核成效分析

Dr. Ma

引言:为什么要做这个研究?

作为一名消化内科的带教老师,你是否遇到过这样的困惑:

“小王平时查房问答对答如流,理论考试也能拿85分,怎么一到真正面对消化道出血的病人,连问诊都不利索,查体也漏项?”

这其实是传统出科考核模式的通病——“高分低能”。传统的“一张卷子+一个操作(如腹穿)”模式,往往只能考出学生的记忆力(Knows)和单项操作规范(Knows How),却很难评估他们在复杂临床情境下的综合应对能力(Shows How)。

为了解决这个问题,很多教学基地开始引入 OSCE(客观结构化临床考试)。但引入OSCE之后效果到底怎么样?是仅仅形式上热闹了,还是真的能考出不一样的东西?这就需要我们通过教育研究来回答。

今天,我们就以**“住培消化内科出科考核:OSCE vs 传统模式”**为例,手把手教你如何设计并执行一项高质量的医学教育对比研究。


1. 研究设计复盘:给考试“照镜子”

理论武器:Miller’s Pyramid (米勒金字塔)

做研究不能“拍脑袋”,得有理论支撑。在这个研究中,我们的理论基石是 Miller’s Pyramid

  • 传统理论考试:主要在金字塔底部的 Knows(知识)和 Knows How(知道如何做)层面打转。
  • 传统单项技能:虽然涉及操作,但往往是脱离情境的(比如在模型上做腹穿,不需要和病人沟通)。
  • OSCE考核:通过SP(标准化病人)和案例设计,致力于评估 Shows How(演示如何做),更接近真实的临床能力。

方案设计:自身前后对照

为了让对比更有说服力,我们推荐采用 自身前后对照设计 (Self-Controlled Design)

  • 对象:同一批消化内科轮转学员(例如80人)。
  • 干预:所有学员均参加 传统出科考核(理论+单项技能) 和 OSCE出科考核(多站式)。
  • 优势:排除了学员个体差异(如学霸在两种考试中可能分都高),能更纯粹地比较两种考核工具本身的差异。

2. 统计学实战:数据会说话

收集完数据后,我们该怎么分析?这里有几个关键的统计学“招式”:

招式一:配对t检验 (Paired t-test) —— 到底谁更难?

很多老师一听到“检验”就头大。其实配对t检验的原理非常简单,它就是用来“找茬”的。

  • 小白原理: 想象一下,我们让同一个学生小明,左手画圆(传统考试),右手画方(OSCE)。如果这两种考试难度完全一样,那么小明两只手的分数差应该接近 0。 配对t检验做的事情,就是把全班80个同学的“分数差”都算出来,求个平均值,然后用数学公式算算:这个平均分差,到底是不是因为偶然运气才出现的?
  • P值 (P-value) 怎么看? P值就是“运气值”或“巧合率”。
    • 如果 P < 0.05:意思是“这种分数的差异,只有不到5%的可能性是瞎猫碰死耗子撞出来的”。换句话说,这种差异是实实在在存在的(统计学显著)
    • 如果 P > 0.05:意思是“这差别可能就是误差或者运气”,我们就不能硬说两种考试有区别。

招式二:相关性分析 (Pearson Correlation) —— 它们是一家人吗?

  • 小白原理: 这个分析是看两个分数是不是“穿一条裤子”。 比如身高和体重,通常个子越高越重,这就叫正相关。如果一个高分,另一个反而低分,那就叫负相关
  • r值 (相关系数) 怎么算? r值是一个从 -1 到 +1 的数字,代表关系的“铁”程度。
    • r = 1 (完全正相关):完全同步。传统考多少分,OSCE就按比例考多少分。警惕! 这说明你费劲搞两种考试其实是在做重复劳动,OSCE完全没有提供新信息。
    • r = 0 (无相关):毫无关系。传统考满分,OSCE可能不及格。这通常说明考核体系出问题了,甚至可能存在信度问题。
    • r = 0.4 ~ 0.6 (中度相关)这是最理想的结果! 说明它们**“和而不同”**。它们都在考医学水平(所以有相关性),但侧重点不一样(一个考背书,一个考动手),这正是OSCE存在的价值——它考出了传统考试没考出的能力(如沟通、应变)。

招式三:胜任力雷达图 (Competency Radar) —— 能力的“营养成分表”

  • 小白原理: 总分有时候会骗人。两个人都考80分,A是“理论满分+操作0分”,B是“理论操作各40分”,能力完全不同。 雷达图就像食品包装上的营养成分表,把一个干巴巴的总分,拆解成临床思维、操作规范、医患沟通、人文关怀这几个维度的“营养含量”。
  • 怎么用? 在图上画两个圈,一个代表传统考核,一个代表OSCE。 预期发现:你通常会看到,传统考核的圈在“操作规范”这一角拉得很长,但在“医患沟通”这一角几乎是塌陷的;而OSCE的圈能把“沟通”和“思维”这两个角撑开,图形更饱满。这图往PPT上一放,教学改革的成效一目了然。

3. 避坑指南:这些坑千万别踩

坑一:变量定义不清

  • 错误示范

    学员张三:考核通过(Pass)

分段演示与完整演示在深静脉穿刺技能培训中的有效性比较:一项随机对照试验

本文是一篇由AI生成的范文,用于演示上一篇文章中提到的第一个理论"基于认知负荷理论的随机对照试验,探讨分段演示策略在复杂临床技能教学中的应用效果及神经机制。“这种写法最终成文的效果。内容包括摘要、方法、结果、结论等均为AI自动生成,目的是告诉大家这类研究项目成稿之后是什么样子,中间用到哪些统计学方法,请勿直接抄袭。

摘要 (Abstract)

背景:深静脉穿刺置管术是临床高风险、高复杂度的核心技能,初学者常因信息过载而难以掌握。既往教学多采用连续完整演示,可能超出学习者的认知负荷阈值。本研究基于认知负荷理论(Cognitive Load Theory, CLT),旨在比较分段演示(Segmented Modeling)与完整演示(Whole Modeling)在技能习得中的有效性。

方法:采用单盲、平行组随机对照试验设计。纳入60名无深静脉穿刺经验的医学实习生,随机分配至分段演示组(n=30)和完整演示组(n=30)。分段组将操作分解为6个关键步骤进行针对性教学;完整组接受等时长的连续完整演示。主要结局指标为教学结束后2小时的客观结构化临床考试(OSCE)成绩;次要指标包括技能保持度(1周及1个月)、认知负荷(NASA-TLX量表)及学习满意度。

结果:分段组在即时OSCE考核中的得分显著高于完整组 [ (85.4±4.2) vs (76.8±5.1), P<0.001, Cohen’s d=1.84 ],且在1个月后的技能保持测试中优势依然显著。NASA-TLX结果显示,分段组的心理需求及努力程度评分显著低于完整组 (P<0.01)。

结论:分段演示策略通过有效降低内在认知负荷,显著提升了深静脉穿刺技能的学习成效与保持度,优于传统的完整演示教学模式。

试验注册号:ChiCTR-TRC-24000XXXX(预注册占位)


1. 引言 (Introduction)

深静脉穿刺置管术(Deep Vein Puncture)是急救与重症监护领域的关键技术。然而,该操作涉及解剖定位、超声图像判读、手眼协调及无菌操作等多重任务的并行处理,具有极高的内在认知负荷(Intrinsic Cognitive Load)。传统的“完整演示-练习”模式(Whole-Task Approach)倾向于一次性展示全流程,初学者往往因工作记忆(Working Memory)瞬间过载而产生“认知拥塞”,导致关键步骤遗漏或操作不规范。

认知负荷理论指出,当学习材料的复杂性超过学习者的认知资源总量时,学习将无法发生。分段演示策略(Segmentation Principle)主张将复杂任务分解为若干独立的组块(Chunks),允许学习者在进入下一组块前充分整合当前信息,从而释放工作记忆空间以构建图式(Schema)。

本研究提出以下假设:相较于连续的完整演示,分段演示能显著降低学习者在深静脉穿刺学习过程中的内在认知负荷,从而提升技能考核成绩(即时及延时)与学习满意度。

2. 方法 (Methods)

本研究遵循CONSORT指南进行报告,并已获得医院伦理委员会批准(IRB编号:XY-2024-03-12)。所有受试者均签署知情同意书。

2.1 研究对象与样本量

纳入标准:① 临床医学专业实习生或第一年规范化培训医师;② 无深静脉穿刺实际操作经验。排除标准:① 有上肢或颈部活动障碍者;② 既往参加过类似模拟培训者。

样本量计算基于G*Power 3.1软件。设定双尾检测,α=0.05,统计功效(Power)=0.80。参考既往类似研究,预计分段教学能产生中到大的效应量(Effect size d=0.75)。计算得出每组需至少29人。考虑10%的脱落率,最终招募66人,随机分为两组。

2.2 研究设计与分组

采用随机数字表法将受试者按1:1比例分配至分段演示组(Intervention Group)和完整演示组(Control Group)。分组序列由非研究团队成员密封保存,直至干预开始前揭盲。

2.3 教学方案 (Intervention)

两组均由同一名具有5年以上教学经验的主治医师授课,总教学时长均为45分钟(含练习),使用同款超声引导深静脉穿刺模型。

  • 分段演示组(Segmented Group): 将穿刺流程解构为6个独立模块,采取“演示一段-练习一段”的模式:

    1. 超声评估与定位(3 min):重点讲解血管鉴别(动脉搏动 vs 静脉压闭)。
    2. 消毒铺巾与无菌准备(3 min):强调最大无菌屏障建立。
    3. 局部麻醉与试穿(3 min):负压进针手感。
    4. 超声引导下穿刺入针(3 min):平面外技术(Out-of-plane)进针轨迹。
    5. 导丝置入与扩皮(3 min):此时强调“见血回抽”与导丝无阻力感。
    6. 导管置入与固定(3 min):防空气栓塞细节。 每一步骤演示后,学员立即进行3分钟针对性练习,教师予以即时纠错。
  • 完整演示组(Whole Group): 教师进行连续15分钟的完整操作演示(含讲解),中途不打断。随后学员进行30分钟的自主完整练习,教师在旁巡视指导。

拒绝“裸奔”!临床教学研究必备的5件“学术外衣”

“我的研究结果明明很有用,为什么审稿人总说‘缺乏理论深度’?”

这是一个非常典型的临床医生困惑。我们擅长发现问题,也擅长解决问题,但往往不擅长解释问题

理论(Theory)并不是为了让文章看起来高深莫测的装饰品,而是连接“个案经验”与“普适规律”的桥梁。如果把你的教学创新比作一个身材很好的模特,那么理论就是一件合体的“外衣”——它能让你的研究在学术舞台上看起来体面、专业且有逻辑。

今天,我们精选了 5 件最适合临床医生的“学术外衣”,并附上穿搭指南。

第一件外衣:认知负荷理论 (Cognitive Load Theory)

适用场景

  • 学生抱怨“内容太多记不住”。
  • 操作演示时学生手忙脚乱,顾头不顾尾。
  • PPT 密密麻麻,学生听完一脸茫然。

理论核心: 人的工作记忆(Working Memory)是有限的。教学设计的核心目标是:

  1. 减少外在负荷(Extraneous Load):去掉花哨的动画、无关的噪音。
  2. 优化内在负荷(Intrinsic Load):把复杂任务拆解成小块(Chunking)。
  3. 增加相关负荷(Germane Load):促进图式(Schema)的构建。
graph LR A[教学内容] --> B{认知负荷通道} B -->|太难/太乱| C[💥 认知超载] B -->|设计合理| D[🧠 有效学习] style C fill:#f9f,stroke:#333,stroke-width:2px style D fill:#bbf,stroke:#333,stroke-width:2px

穿搭指南(研究思路)

  • 对比研究:对比“分段演示(降低内在负荷)”与“完整演示”在深静脉穿刺教学中的效果。
  • 测量工具:针对深静脉穿刺这一具体任务,我们设计了如下的**《深静脉穿刺技能学习认知负荷量表》**。建议在学生观看演示并进行首次模拟操作后立即填写。

深静脉穿刺技能学习认知负荷量表

指导语:请根据刚才的学习和操作体验,圈选最符合您真实感受的分数。

评估维度具体的自我提问 (Self-Reflection)评分 (1-9分)
1=极低, 9=极高
1. 任务难度
(内在负荷)
深静脉穿刺这个操作本身(如解剖定位、穿刺角度掌握)对我来说有多难?1 2 3 4 5 6 7 8 9
2. 教学干扰
(外在负荷)
理解刚才的教学演示(步骤讲解、视频展示)让我感到费劲吗?1 2 3 4 5 6 7 8 9
3. 学习投入
(相关负荷)
我为了真正掌握穿刺的核心技巧(而不只是模仿动作)付出了多少脑力?1 2 3 4 5 6 7 8 9

计分说明:总认知负荷 = 维度1 + 维度2 + 维度3。若对比研究中“分段演示组”的维度2(教学干扰)得分显著低于“完整演示组”,则证明教学改良有效。