UCSC-VLAAチームによる大規模マルチモーダルデータセット「MedTrinity-25M」が正式にリリースされました。このデータセットは、2500万枚の医療画像と詳細な注釈を含んでいます。医療分野における重要な革新と言えるもので、多粒度の注釈により、研究者は医療データの理解と応用を深め、医療マルチモーダル大規模モデルのトレーニングに役立てることができます。

image.png

MedTrinity-25Mの構築プロセスは非常に複雑で、チームは綿密なデータ処理を行い、様々なデータから重要な情報を抽出し、メタデータを統合し、大まかなタイトルを作成し、関心領域を特定し、関連する医学知識を収集しました。さらに興味深いことに、彼らはこれらの情報を利用して、大規模言語モデル(MLLM)を用いて詳細な説明を生成しました。この手法はデータの可用性を向上させるだけでなく、医学研究に新たな方向性を拓きます。

image.png

リリースプロセスについてですが、MedTrinity-25Mのデモデータセットは2024年6月に既に公開されており、完全なデータセットは7月21日に正式に公開されました。そして最近、8月7日には関連論文も発表されました。

データセット自体に加え、チームはLLaVA-Med++などの、複数の医療タスクで優れた性能を示す一連の事前学習済みモデルも提供しています。研究者はこれらのツールを利用して、プロジェクトをより効率的に進めることができ、医学研究の効率を大幅に向上させることができます。

MedTrinity-25Mは医学界にとって貴重な資源であり、皆様がこのデータセットを最大限に活用して、医学研究の発展に貢献されることを期待しています。

プロジェクト入口:https://top.aibase.com/tool/medtrinity-25m