医師の働き方改革が進む中、医療教育の現場でも効率化と質の担保の両立が課題となっている。AIを活用した仮想患者による問診評価について、指導医による評価と比較した研究が発表された。AIの評価は指導医と高い一致を示し、評価時間は6割以上短縮されたという。研究は、順天堂大学医学部総合診療科の髙橋宏瑞氏らによるもので、詳細は2月17日付の「JMIR Medical Education」に掲載された。適切な臨床面接は正確な診断と患者との信頼関係構築に不可欠であり、従来は実際の患者や模擬患者との実習と指導医の指導によって習得されてきた。近年は、「何年経験したか」ではなく「何ができるようになったか」で評価する能力基盤型医学教育(CBME)が広がり、評価や記録業務の負担が課題となっている。こうした中、大規模言語モデル(LLM)を用いた生成AIによる仮想患者と自動評価の仕組みが登場しているが、専門家評価との一致や妥当性の検証は十分ではない。本研究では、AIによる臨床面接評価と指導医による評価の一致度を比較し、AIが代替可能かを検証するとともに、評価時間の短縮効果や経験差による影響を検討した。標準化された「脚の脱力」の症例をAIの仮想患者として設定し、医学生2人、研修医3人、指導医2人の計7人がそれぞれ問診を行った。面接内容を書き起こしたテキストを、25項目からなる評価尺度を用いて採点した。評価は3つの方法で比較した。まず、GPT-o1 ProとGPT-5 Proは、同じ条件(同じプロンプト)で各テキストを5回ずつ評価し、ハルシネーションや評価のばらつきを確認した。次に、別の臨床指導医5人が同じ基準で独立に採点した。一致度はPearson相関係数(r)や級内相関係数(ICC)などで評価し、1件あたりの所要時間と時間短縮率も算出した。平均面接スコアは、AIによる評価と指導医による評価でほぼ同程度だった(GPT-o1 Proを用いたAI評価:平均52.1±6.9点、GPT-5 Proを用いたAI評価:平均53.2±9.2点、人間による評価:平均53.7±6.8点)。 AI評価と人間評価の一致度は高く(r=0.90、Linの一致相関係数=0.88)、評価の偏りも小さかった(GPT-o1 Pro:平均差0.4±2.7点、GPT-5 Pro:平均差1.5±5.2点。Bland–Altman解析の一致限界はそれぞれ-4.9~5.7、-8.6~11.7)。信頼性を示すCronbachのα係数は、GPT-o1 Proで0.81、GPT-5 Proで0.86、人間評価で0.80といずれも高水準だった。一方、ICC(評価者間の一致度を示す指標)はAI評価で0.77および0.82と良好だったのに対し、人間評価では0.38にとどまった。さらに、評価のばらつきを示す変動係数はAI評価が6.6%で、人間評価(13.9%)の約半分だった。処理時間は、AIが3~4分程度で完了したのに対し、医師は約10分を要し、最大で約68%の時間短縮に相当した。著者らは、GPT-o1 ProおよびGPT-5 Proによる評価が指導医と同等の精度とより高い一貫性を示し、評価時間も大幅に短縮できたと報告している。その上で、「AIは人間評価者を補完または一部代替し得る可能性があるとしつつ、教育現場での活用には慎重な設計と継続的な人間の監督が不可欠だ」と強調している。なお、本研究は単一の模擬症例を対象とした小規模な検討にとどまる。著者らは、より多様な症例での検証や学習効果・費用対効果の評価に加え、実際の診療能力との関連を検証する必要があると指摘する。また、高い一致度が直ちに公平性を保証するわけではなく、性別や文化的背景などに関する潜在的なバイアスへの検証も不可欠だとしている。(HealthDay News 2026年4月6日) Abstract/Full Texthttps://mededu.jmir.org/2026/1/e81673/ Copyright © 2026 HealthDay. All rights reserved.Photo Credit: Adobe Stock