“ 人工知能のためのセルマップ(CM4AI)入門
人工知能のためのセルマップ(CM4AI)プロジェクトは、NIHのBridge2AIプログラム内の機能ゲノミクスデータ生成プロジェクトであり、生物医学AI研究に革命を起こすことを目指しています。その主な使命は、ヒト細胞株から収集されたマルチモーダルデータから派生した、倫理的でAI対応の細胞構造データセットを生成することです。この取り組みは、研究者に生物医学における革新的なAIアプリケーションを開発するために必要なツールとデータを提供することを目指しています。CM4AIは、データ、人材、倫理の3つの主要な柱に焦点を当て、データ取得、ツール、標準、スキル開発、チームワーク、倫理的考慮事項をカバーする6つのモジュールに編成されています。細胞構造の機械可読な階層マップを作成することにより、CM4AIは細胞プロセスとそのヒトの健康への影響についての深い理解を可能にします。
“ セルマップの理解:細胞構造の階層的ビュー
セルマップは、様々なスケールで細胞内のタンパク質の組織を表す階層的な有向非巡回グラフ(DAG)です。グラフの各ノードは、核やミトコンドリアのような大きな細胞コンパートメントから、より小さなタンパク質複合体に至るまで、近接したタンパク質の集合を表します。これらのマップは、がん細胞株や人工多能性幹細胞(iPSC)を含む、影響を受けた細胞株と影響を受けていない細胞株からのデータを使用して構築されます。アフィニティ精製質量分析(AP-MS)や免疫蛍光(IF)染色などの技術を使用して、タンパク質間相互作用ネットワークを生成し、タンパク質の局在を明らかにします。このデータを統合することにより、セルマップは遺伝子変異や突然変異の解釈の基盤を提供し、タンパク質集合体が細胞レベルの表現型の予測にどのように影響するかを理解するための、可視化機械学習のためのAIツールで使用できます。
“ 倫理的でAI対応の生物医学データ:主要原則
CM4AIは、AI対応生物医学データを、既知の由来を持つ完全に特徴付けられたFAIRデータであり、AIアプリケーションのために倫理的かつ信頼性の高い処理が施されたものと定義します。これには、使用されるモデルとソフトウェアが利用可能で、適切に記述され、検証されていること、そして行われた予測が説明可能で解釈可能であることが含まれます。主要な原則は次のとおりです。FAIR性(検索可能、アクセス可能、相互運用可能、再利用可能)、由来(計算グラフの利用可能性)、特徴付け(完全なスキーマとデータシート)、説明可能性(統計的特徴付けと限界)、および倫理的考慮事項(被験者の倫理的扱いと責任あるデータ分析)。CM4AIは、FAIRSCAPEフレームワークの拡張バージョンを使用して、AI対応の基盤を確立し、豊富なメタデータ、永続的な識別子、および検証手順に焦点を当てています。
“ 方法:細胞株とデータ取得技術
CM4AIは、倫理的に調達されたMDA-MB-468乳がん細胞株やKOLF2.1J iPSC株など、特定の細胞株を利用しています。データ取得には、AP-MSおよびSEC-MSを使用したタンパク質間相互作用(PPI)マッピング、免疫蛍光を使用した空間プロテオミクスマッピング、および単一細胞CRISPRスクリーニングを使用した遺伝子摂動マッピングが含まれます。PPIマッピングでは、クロマチン調節因子がタグ付けされ、それらの相互作用が異なる条件下で分析されます。空間プロテオミクスマッピングには、主要タンパク質の細胞内組織をマッピングするための自動固定および透過処理プロトコルが含まれます。遺伝子摂動マッピングでは、CRISPRスクリーニングを使用してクロマチン調節因子を摂動させ、結果のデータを分析します。
“ ツール:Multi-Scale Integrated Cell(MuSIC)パイプライン
Multi-Scale Integrated Cell(MuSIC)パイプラインは、複数の入力データストリームからデータを統合し、セルマップを生成するための主要なツールです。パイプラインには、PPIおよび画像データのダウンロード、ディープラーニングモデルを使用した埋め込みの生成、PPIと画像情報を統合するための共同埋め込み、タンパク質コミュニティ検出、階層作成、および階層評価のセグメントが含まれます。パイプラインはFAIRSCAPEインフラストラクチャと連携して入力を検証し、RO-Crateパッケージを作成します。統合構造モデリングも、MuSICコミュニティの理解を深めるために検討されています。
元のリンク: https://pmc.ncbi.nlm.nih.gov/articles/PMC11142054/
コメント(0)