更新日:2022/11/29
大規模公共トランスクリプトームデータを活用した疾患関連変異の新規スクリーニング手法の開発
国立研究開発法人国立がん研究センター研究所のゲノム解析基盤開発分野白石友一分野長は、がんRNA研究分野吉見昭秀分野長らとの共同研究により、公共データレポジトリに登録されている数十万検体を超える規模のトランスクリプトームデータを活用して、疾患に関連するゲノム変異を探索する新しい情報解析基盤の開発に成功した。
ゲノム解析の有効性が広く検証され、現在、世界的に国家規模のゲノムプロジェクトが進められており、ゲノム解析は医療システムに大きな変革をもたらすことが期待されている。その中で患者のゲノムシークエンスによって得られる膨大な変異の中から疾患に関連する変異を同定することは、ますます重要な課題となっている。
疾患に大きな影響を及ぼす変異の最も重要なクラスの1つは、スプライシングに異常を引き起こす変異であり、ヒトの疾患関連変異の15%から60%を占めると言われている。一方でスプライシングのメカニズムはまだ未解明なところが多く、スプライシング異常を引き起こすゲノム変異の予測、またデータベース化は十分に進んでいる。これまでのスプライシング変異の同定を目指した多くの研究では、ゲノムデータとトランスクリプトームデータの両方を使って、スプライシング異常とゲノム変異の有無の相関を見るアプローチが一般的であった。しかしながら、このアプローチのためにはゲノムとトランスクリプトームの両方のデータが提供されているデータセットが必要であり、こうした状況はさほど一般的ではなかった。その一方で、Sequence Read Archive などの公共データレポジトリには研究者が自由にアクセスできる数十万件規模のトランスクリプトームデータが配置されており、さらにデータの蓄積が加速度的に続いている。
膨大な公共トランスクリプトームデータを最大限に活用するために、トランスクリプトームシーケンスデータのみを用いて、スプライシング異常の一形態であるイントロン残存を引き起こすゲノム変異を同定できる新規のアルゴリズム、IRAVNetを開発した。この方法論は、ゲノム変異によりイントロン残存が生じた際に、トランスクリプトームシークエンスデータに該当のゲノム変異が観測されるという特性に着目して開発された。
さらに、SRAなどに登録されている大規模なトランスクリプトームに対してこの方法論を適用するために、我々はAmazon Web Servicesを利用したクラウドベースの解析プラットフォームと、国内研究機関(国立遺伝学研究所生命情報・DDBJ センター、東京大学医科学研究所ヒトゲノム解析センター)の計算クラスタを用いたプラットフォームの両方を開発した。特にクラウド上の解析基盤においては、各解析ステップにおいて最適なインスタンスタイプの選択、適切なブロックストレージの確保、スポットインスタンスの利用など、利用コストを抑えるための様々な工夫がなされている。クラウドは自由度が高く、きめ細やかなプラットフォーム構築が可能であること、開発したプラットフォームを世界中で共有することが比較的容易にできるという利点がある。一方で、構築・運用にはクラウドの知識が不可欠であり、また利用料金に手間がかかるという問題もあった。国内研究機関スパコンは、アカデミアの研究者にとっては比較的安価で、料金体系がクラウドに比べてシンプルで、気軽に利用できるといった利点がある。
今回の解析においては、イントロン残存変異を引き起こすゲノム変異に着目したが、現在はさらに別のタイプのスプライシング変異の同定を可能とする方法論の開発に着手しており、得られる疾患関連変異のクラスを広げることを目指して研究を進めている。本研究の一連の成果により、今後、がん・難病の全ゲノム解析プロジェクトが進む中で、意義不明変異の機能予測に役に立つことが期待される。また、本研究で開発された解析プラットフォームは高度に自動化がなされており、今後のデータ登録に併せて実行する仕掛けを施すことで、自律的に病的変異を蓄積するシステムの構築も十分に可能であり、今後も増加を続けるオミクスデータの利活用方法に対して一石を投じる研究成果となった。
(Medister 2022年11月28日 中立元樹)
<参考資料>
国立がん研究センタープレスリリース 大規模公共トランスクリプトームデータを活用した疾患関連変異の新規スクリーニング手法の開発 蓄積が進むオミクスデータからの自律的な知識獲得基盤の実装に向けて
IRAVNet