2022年10月13日木曜日

マシンラーニング:心電図で糖尿病予測する文献を参考に・・・

Machine-learning algorithm to non-invasively detect diabetes and pre-diabetes from electrocardiogram 

Anoop R Kulkarni, et al.

Kulkarni AR, et al. BMJ Innov 2022;0:1–11. doi:10.1136/bmjinnov-2021-000759

https://innovations.bmj.com/content/bmjinnov/early/2022/07/06/bmjinnov-2021-000759.full.pdf

【目的】 2型糖尿病や糖尿病予備軍の予防には、早期発見が極めて重要である。これらの疾患の診断は、経口ブドウ糖負荷試験とヘモグロビンA1cの推定に依存しており、これらは侵襲的で大規模なスクリーニングには困難である。我々は、心電図の非侵襲性と機械学習の能力を組み合わせて、糖尿病と糖尿病予備軍を検出することを目的とした。


【方法】 本研究のデータは、インド中央部の民族的に内地であるシンド族を対象としたDiabetes in Sindhi Families in Nagpur研究によるものである。最終的なデータセットには、1262人の臨床データと、デジタルで記録された10461の時間的に整列した心拍が含まれています。データセットは、トレーニングセット、検証セット、独立したテストセット(それぞれ8892、523、1046拍)に分割された。ECG記録は、中央値フィルタリング、バンドパスフィルタリング、標準スケーリングで処理された。トレーニング開始前に、トレーニングデータセットのバランスをとるために、少数派のオーバーサンプリングが実施された。信号処理された心電図を入力とし、「糖尿病なし」、「糖尿病予備軍」、「2型糖尿病」(米国糖尿病学会基準による)のいずれかに属するかを予測する分類器の訓練には、Extreme Gradient boosting(XGBoost)が使用された。


【結果】 2型糖尿病および糖尿病予備軍の有病率はそれぞれ30%および14%であった。学習はスムーズかつ迅速に行われた(40エポック以内に収束した)。独立したテストセットにおいて、DiaBeatsアルゴリズムは、97.1%の精度、96.2%の再現率、96.8%の精度、96.6%のF1スコアでクラスを予測した。較正されたモデルは低い較正誤差(0.06)であった。特徴量重要度マップは、III、aVL(augmented Vector Left)、V4、V5、V6が分類性能に最も寄与していることを示した。この予測は、糖尿病における心疾患の生物学的メカニズムに基づく臨床的な予想と一致した。


【結論 】ECG信号データを用いた機械学習ベースのDiaBeatsアルゴリズムは、糖尿病関連クラスを正確に予測した。このアルゴリズムは、外部データセットで強固な検証を行った後、糖尿病および糖尿病前症の早期発見に役立つ可能性がある。


www.DeepL.com/Translator(無料版)で翻訳しました。



内容そのものより手法に興味がある

心電図検査
試験参加者全員に、標準的な12誘導心電図を提供した。すべての心電図は、BPL Medical Technologies社のデジタル心電図装置(Cardiart 6208)を用いて記録した。記録時間10秒、12ビット以上のアナログ・デジタル変換器、0.05~150 Hzの帯域幅、1000 Hzのサンプリング周波数という仕様である。記録はすべてdicomファイルとして保存され、非識別化された状態で解析に使用された。


データの前処理
図1は、本研究で使用した全体的な分析パイプラインと前処理ステップ(図1中のオレンジ色の枠)を示している。本研究の解析単位は心拍である。dicomファイルから抽出された生のECG信号は、まずメディアンフィルタリング(カーネルサイズ11)、次にバンドパスフィルタリング(5~40Hzの範囲)、そして標準スケーリングが施された。これらの前処理された信号は、次にすべてのRピークを識別するQRS-detectorアルゴリズムに通された。抽出されたすべての拍動が利用可能な特徴の完全なセットを有することを確実にするために、検出されたRピークのリストをトリミングして最初と最後の(不完全である可能性のある)拍動を除外した。これらの拍動は、Rピークが常に0.8秒幅の窓の中心を表すように位置合わせされた。これらの抽出された拍動を訓練と検証に使用した。
MLアルゴリズムの学習
このようにして得られた拍動は、125Hzの周波数にダウンサンプリングされた。このようにして得られたビートレベルの波形は、1リードあたり合計100のユニークな特徴を有していた。これらの特徴を水平方向に連結し、1心拍あたり1200特徴(12リード×100特徴)を生成した。この特徴量を用いて、MLアルゴリズムの学習と検証を行った。図1に示すように、抽出された心拍の全特徴セットは、トレーニングセット(85%)、検証セット(5%)、独立したテストセット(10%)に分割された。

まず、5 つの ML アルゴリズム—component-wise boosting, multilayer perceptron, probabilistic neural network, random forest and extreme gradient boosting (XGBoost) algorithm の予測性能の比較検討を行った。これらのMLアルゴリズムは、臨床の分類タスクで一般的に使用されている。この比較は、10回クロスバリデーションのシナリオで行われ、あらかじめ決められた10回の反復の間、トレーニングセットのみに制限された。これらの手法の中から、最も性能の良い手法(最小の誤分類エラー、低いBrierスコア、高い分類信頼度に基づく)を選択し、さらにトレーニングを行った。比較のために、3つのメトリクス(誤分類エラー、Brierスコア、予測信頼度)を使用した。これらの分析に基づいて、我々は、最小の誤分類エラー、最小のBrierスコア、および最高の信頼性を提供する技術を選択した。

次に、多クラス対数損失を最小化し、多クラス分類精度を最大化することを目標に、(グリッドサーチを用いて)ハイパーパラメータを広範囲にチューニングすることにより、学習が行われた。訓練は損失と精度の指標がプラトー(忍耐レベル5)になるまで続けられた。最小の損失と最大の精度を持つ最良のモデルが、最終モデルとして選択された。

www.DeepL.com/Translator(無料版)で翻訳しました。





役立った




結局、前処理が問題だな

0 件のコメント:

コメントを投稿

noteへ実験的移行

禁煙はお早めに! 米国における人種・民族・性別による喫煙・禁煙での死亡率相違|Makisey|note 日常生活内の小さな身体活動の積み重ねが健康ベネフィットをもたらす:VILPA|Makisey|note