banner

ニュース

Jan 16, 2024

FracAtlas: 筋骨格系 X 線写真の骨折分類、位置特定、セグメンテーションのためのデータセット

Scientific Data volume 10、記事番号: 521 (2023) この記事を引用

2 オルトメトリック

メトリクスの詳細

デジタル X 線撮影は、骨折の診断において最も一般的で費用対効果の高い標準の 1 つです。 このような診断には専門家の介入が必要であり、時間がかかり、厳しい訓練が必要です。 最近のコンピュータ ビジョン アルゴリズムの成長に伴い、コンピュータ支援診断への関心が高まっています。 アルゴリズムの開発には、適切なアノテーションを備えた大規模なデータセットが必要です。 既存の X 線データセットは小さいか、適切なアノテーションが欠如しているため、機械学習アルゴリズムの開発や、分類、位置特定、セグメンテーションのためのアルゴリズムの相対的なパフォーマンスの評価が妨げられています。 バングラデシュの 3 つの主要病院から収集された画像から厳選された X 線スキャンの新しいデータセットである FracAtlas を紹介します。 私たちのデータセットには、オープンソースのラベル付けプラットフォーム makesense.ai を使用する 2 人の放射線科医と整形外科医の協力を得て、骨折の分類、位置特定、セグメンテーションのために手動で注釈が付けられた 4,083 枚の画像が含まれています。 922 件の骨折例を含む 717 枚の画像があります。 各フラクチャ インスタンスには独自のマスクと境界ボックスがありますが、スキャンには分類タスク用のグローバル ラベルもあります。 このデータセットは、骨折診断のための機械学習アルゴリズムの開発と評価に興味のある研究者にとって貴重なリソースになると考えています。

ここ数十年で、コンピュータ支援診断 (CAD) システムの需要が急増しています。 さらに、最近、医学のさまざまな分野で、大規模なデータセットと高度な機械学習アルゴリズムを活用した診断の自動化プロセスが急速に発展しています1、2。 畳み込みニューラル ネットワーク (CNN)3、You Only Look Once (YOLO)4、U-NET5 などのモデルは、X 線スキャンからの異常検出において専門家のようなパフォーマンスを実現できます。 このようなモデルをトレーニングするには、大規模で十分に注釈が付けられたデータセットが必要です6、7、8。 病院や診断センターからそのようなデータを収集することは困難です。 アノテーションのプロセスは、偏見や人的ミスを取り除くための合意形成のために複数の医師や放射線科医の関与が必要なため、非常にコストがかかる可能性があります。 医療データは機密性が高いため、取得したデータを一般公開することも非常に困難です。 要約すると、このようなデータセットの作成にはコストと時間がかかります2,9。

一般に公開されており、異常に焦点を当てたよく知られた X 線データセットには、MURA10、MedPix11、GRAZPEDWRI-DX12、IIEST1、MOST13、VinDr-CXR2、VinDr-SpineXR14、ChestX-ray1415 などがあります。 これらのデータセットのうち、MURA は、肘、指、前腕、手、上腕骨、肩、手首などのさまざまな領域からの 40,561 枚の画像を含む 2D 筋肉骨格 X 線写真のコレクションです10。 各画像には「正常」または「異常」というラベルが付けられ、分類タスクに適していますが、位置特定とセグメンテーションのための適切な注釈がありません。 MedPix は、さまざまな疾患の 2D および 3D 医療スキャンのオンライン データベースで、キーワード「骨折」でフィルタリングすると 954 枚の画像が得られます。 これらの画像には、X 線、実画像、磁気共鳴画像法 (MRI)、コンピューター断層撮影 (CT) スキャン、および超音波画像法が含まれます。 ただし、このデータセットには、整理されていないアノテーションや誤ってラベル付けされた画像、一部のスパム画像などの問題があります。 GRAZPEDWRI-DX は最近リリースされたデータセットで、6,091 人の患者から収集された位置特定の注釈が付いた 20,327 件のスキャンが含まれています。 これは適切な大規模なデータセットですが、手首の骨折のみをカバーしており、人体の残りの部分は省略されています。 IIEST は 217 枚の画像を含む 2D X 線の小さなデータセットで、そのうち 49 枚は健康な画像、99 枚は骨折、69 枚は癌性骨スキャンです。 このデータセットは非常に小さいため、機械学習アクティビティには不十分です。 MOST は、ケルグレン・ローレンス (KL) 等級付けシステム 16 によってラベル付けされた 4,446 件の X 線および MRI スキャンを含むデータセットで、グレード 0 からグレード 4 までの 5 つのクラスがあり、1 つずつ重症度が増加します。 このデータセットは、資金不足と閉鎖のため、パブリック ドメインでは利用できなくなりました。 膝関節骨折のみも対象となります。 VinDr-CXR も最近公開されたデータセットで、位置特定のための手動の注釈が付いた 18,000 枚の胸部 X 線 (CXR) 画像が含まれています。 このデータセットには、28 種類の胸部疾患および異常のサンプルが含まれています。 これは胸部疾患の特定には適したデータセットですが、骨折の特定には適していません。 同様に、VinDr グループには、同様の理由で骨折研究には適さない他のデータセット VinDr-Mammo17、VinDr-SpineXR14、PediCXR18 があります。 ChestX-ray14 は、112,000 件の CXR スキャンを含むラジオ グラフのデータセットです。 このデータセットには胸部疾患のサンプルのみが含まれているため、骨折の研究にも適していません。 表 1 では、人体の X 線写真のいくつかの著名なデータセットを FracAtlas データセット 19 と比較しています。

共有