更新日:2023/07/23
病理組織デジタル標本画像から組織学的所見を推論し文章化する人工知能の開発に成功
デジタル病理支援ソリューション「PidPort」を提供するメドメイン株式会社 (本社:福岡県福岡市、代表取締役CEO:飯塚統、以下「メドメイン」)は、画像処理技術に自然言語処理を組み合わせることで、病理組織デジタル標本画像から組織学的所見を推論し文章化する人工知能の開発に成功した。
本研究成果のポイントは、従前の病理組織画像の分類処理だけでなく、自然言語(組織所見)を病理組織デジタル画像に組み合わせることで、自然言語と画像を組み合わせた基礎的研究が可能となり、研究開発の視野が格段に拓けた点である。また、Image to Captioningにより、胃の内視鏡生検病理組織デジタル画像から直接的に組織亜型(印環細胞癌、低分化腺癌など)の出力が可能になった点も重要である。これは、従来の分類型病理AIとは全く異なるアプローチによる組織亜型の推論であり、選択肢の決まった分類ではなく、自然言語処理と組み合わせることで直接的に組織型を推論する手法である。
本研究は、「Vision & Language(画像と言語)」と呼ばれる画像処理と自然言語処理の融合領域における基礎的な研究である。画像処理と自然言語処理は、それぞれ独立した技術であるが、2つの分野の技術をトランスレーショナルに駆使することで、双方向に交差する問題点の解決を試みた。画像と言語の両方を考慮して研究を行うことで、新規の課題に挑戦でき、全く新しいアプリケーションにアプローチすることが可能である。例えば、自然言語を入力し、物体を検出させたり、領域を分割させたり、画像を生成・編集させるなど、画像と自然言語の出入力の組み合わせで多様な試行ができる。
他方、Vision &Languageには大きく3つの難しさがある。1点目は、画像と自然言語情報(文章の情報)の対応付けが難しいことである。病理組織所見も同様であるが、一般的に、画像に関する説明文は、画像の中に含まれる代表的な物体(構造物)について説明がなされているため、モダリティ間の情報差を調整する必要がある。2点目は、画像と自然言語という2つのモダリティがあるため、データのバイアスを考慮しなければならない点である。3点目は、現実世界のデータを取得するのが必ずしも容易ではないことである。特に、病理画像と組織所見という2つの要素からなるデータを必要十分に満たす必要がある。
そこで、本研究では、Vision & Languageの中でも、「Image to Captioning (Image-captioning)」と呼ばれる手法で、胃の内視鏡生検病理組織デジタル標本(画像)から病理組織所見(自然言語)を出力する人工知能の開発を行うことにした。
本研究では、国内の医療機関から、胃の内視鏡生検HE染色病理組織標本および該当する症例の病理組織所見(日本語)の提供を受け、デジタルスライドスキャナーでデジタル標本(WSI: Whole Slide Image)を作成した。病理組織所見(日本語)は全て英語に翻訳し、研究に用いた。病理組織画像情報(Vision)は、convolutional neural networks (CNN)を、組織所見情報(Language)はrecurrent neural networks (RNN)を用いて、深層学習を行った。
本研究により、組織型の推論を極めて高精度(BLEUスコア0.8前後)に行うことが可能となった。これまでは候補の中から一つを選ぶという分類型のモデルであったが、本研究で開発したモデルでは、任意の病理組織デジタル画像を入力した際、「Signet ring cell carcinoma」や「Well differentiated adenocarcinoma」といった形で組織型を分類形式ではなく直接言語情報で出力することができた。他方、組織所見の文章としての推論作成については必ずしも全ての症例で完全に行うことはできなかったため、今後の課題と考えられる。
今後は本研究成果をもとに、画像と自然言語の融合領域の基礎的研究を展開し、病理組織デジタル標本の解析技術を人間の思考過程に近似させていく試みを継続する予定である。
(Medister 2023年7月19日 中立元樹)
<参考資料>
メドメイン株式会社プレスリリース 病理組織デジタル標本画像から組織学的所見を推論し文章化する人工知能の開発に成功 ~ Proceedings of Machine Learning Researchに論文が掲載 ~