CASE STUDY 事例

次世代医療基盤法に基づく匿名加工医療情報を利用した入院後敗血症の予測モデルの開発における課題と対策の検討機械学習 / 深層学習を用いた予測モデル

著者： 松田敦義 (ログビー), 池田遼太郎 (ログビー), 荒木賢二 (ヘルスシステム研), 松尾亮輔 (ライフデータイニシアティブ)

抄録：

■背景と目的次世代医療基盤法に基づく匿名加工医療情報の活用が期待されている。しかし、その安全性と、AI活用などにおける有用性についての知見は少ない。本研究では、匿名加工医療情報の安全性を担保しながら機械学習モデルの開発を行い、プロセスの検証を行った。

■方法千年カルテに登録された20の医療機関の2015〜2021年度のDPCを使用した。対象の入院時疾患はICD10におけるC00-D48 新生物＜腫瘍＞とし、入院後敗血症の発症を予測する機械学習モデル（Random Forests：以下、RFと表記）を開発し、RFの予測結果と特徴重要度の評価を行った。解析環境には、コンテナ型の仮想環境（Docker）を利用した。

■結果予測精度の評価指標としてAUCおよびF値、再現率、適合率を用いた。本研究グループが2020年度に発表したRFを用いた敗血症の予測モデルと、本研究における敗血症の予測モデルの評価指標の比較を行った結果、本研究の精度が高い結果となった。解析におけるLDIとのEメールのやり取りは100回近くに及んだ。

■考察多施設の匿名加工医療情報を活用した研究では、これまで難しかった多施設間での比較や大規模な予測モデルの開発、希少疾患の分析への活用などの可能性が考えられる。

本研究の進め方において、以下の課題がある。・個票データの確認ができないため、データを確認しながらの特徴量の統計量の確認と取捨選択、表記ゆれの把握などができない。・解析プログラムのエラーをデバッグしながら確認ができない。・プログラムによる出力内容の変更時には、承認が必要となりスピード感を持った解析が難しい。

課題の対策として、以下が考えられる。・データの構造や内容について予め理解・推測し、前処理を設計、実装する。・異常系処理とログ出力を予め設計し、実装する。・手戻りがないように予め網羅的に分析プログラムを設計する。

■結語 2020年度の研究と本研究の評価指標の比較から、多施設のデータを利用することにより、単一の医療機関のデータを用いた機械学習モデルよりも予測精度を向上できる可能性が示唆された。匿名加工医療情報のデータの安全性の担保と、AI開発の進めやすさは少なからずトレードオフの関係があり、それを改善する施策や仕組みの検討が必要である。

英文タイトル： Discussion of solutions for issues in developing a prediction model for post-hospital sepsis using Anonymized Medical Data based on Next Generation Medical Infrastructure Law

英文抄録：

Using Anonymized Medical Data in Millennial Medical Record, we developed a machine learning model to predict post-hospital sepsis. We discussed solutions for issues in the process to develop the machine learning model with the safety rule for using Anonymized Medical Data in Millennium Medical Record. We discussed the issues in two points of view. One is the accuracy of machine learning model, and another is the time required for research. We proposed two solutions for the issues. One is preparing a test environment, and another is providing templates for data aggregation or machine learning model development. We compared the evaluation indices of prediction model using Random Forests in our past research in 2020 and in this research. All evaluation indices (AUC: 0.769, F-measure: 0.528, precision: 0.536, recall: 0.523) in this research was higher than indices in the past research in 2020. However, further effort is necessary to improve the indices for predicting post-hospital sepsis. This study was approved by the Institutional Review Board of Life Data Initiative, (# 2021_MIL_0007_A002).

機械学習 / 深層学習を用いた予測モデルへ戻る

CASE STUDY 事例

次世代医療基盤法に基づく匿名加工医療情報を利用した入院後敗血症の予測モデルの開発における課題と対策の検討 機械学習 / 深層学習を用いた予測モデル

次世代医療基盤法に基づく匿名加工医療情報を利用した入院後敗血症の予測モデルの開発における課題と対策の検討機械学習 / 深層学習を用いた予測モデル