見たもの、脳からAIがリアルに再現 「画像」と「意味」読み出す
人工知能(AI)を使って脳の視覚情報を解読し、ほぼ見た通りの画像を再現することに大阪大の研究チームが成功した。高性能の画像生成AIを「翻訳機」として活用し、複雑な脳の情報を効率よく読み取ることができたという。将来、頭に思い浮かべたイメージを解読するSF映画のような技術が実現するのだろうか?
大阪大の高木優助教と西本伸志教授のチームが昨年末、査読前の論文を投稿サイトに公開。その後、専門家による査読を経て、この分野の世界的な権威である国際会議CVPRに採択された。今年6月にカナダで開かれるCVPR2023で正式に発表する。
チームは、脳の血流から活動状況を調べる機能的磁気共鳴画像法(fMRI)の画像から視覚情報を読み取る研究を続けてきた。ほかの研究チームの成果も含めたこれまでの研究から、活発に働く脳の部位を写したスキャン画像のパターンを読み解くことで、見たイメージをある程度まで推測・再現できることがわかってきた。ただ、脳の情報は複雑すぎて解読の精度に限界があった。
高木さんは、昨年8月に英国のAIスタートアップ企業などが公開した画像生成AI「Stable Diffusion」(SD)に目を付けた。潜在拡散モデルと呼ばれる革新技術を採用し、ネット上にある膨大な画像データを学習させることで、どんな画像でも注文通りに描いたり、加工したりしてくれる注目の生成AI(Generative AI)の一つだ。
「(犬の)コーギーの写真を入力して、『サングラスをかけて』と文章で指示すると、顔の適切な位置にサングラスをつけたコーギーの画像を簡単に作ってくれる。この仕組みを脳のスキャン画像の解読にも使えるはずだと思いつきました」
脳が目から入った視覚情報を処理する際、まず後頭部にある初期視覚野と呼ばれる部分で輪郭や構図が認識される。さらに、情報は側頭部にある高次視覚野に引き継がれ、その物体が何かといった意味づけが行われるとされる。
今回の研究では、初期視覚野から読み取った粗い画像情報と、高次視覚野から解読した意味情報を、SDが理解できるように「翻訳」したうえで入力。SDは、サングラスをかけたコーギーの合成画像を作るように、画像と意味の2種類の情報をうまく組み合わせて解釈し、これまでにない高精度の再現画像を作ることができた。
実験では、米ミネソタ大が研究用に公開している大量の脳のスキャン画像から、ぬいぐるみ、列車や時計台など複数の対象について、fMRIを受けた人が見た画像をどれくらい正確に再現できているかを調べた。
AIによる再現画像を、ランダムに選んだ他の対象を再現した画像と比較。どちらが元画像に近いかを数値化するなどして評価したところ、AI画像の再現率は8割に達したという。例えばぬいぐるみを再現した画像なら、列車を再現した画像よりも、「ぬいぐるみっぽい」というわけだ。
阪大チームと似た研究をしているアムステルダム大のアイリス・グローエン助教授(認知脳科学)は「脳が見た画像をfMRIから読み取り、それを再構築できることはすでに示されていた。しかし、今回示された再現画像の精度の高さはすばらしい。画期的な能力をもつ画像生成AIを巧みに活用したことによるもので、ほかの脳画像の解読にも応用が広がりそうだ」としている。
高木さんは「AIを使って脳を新たな形でとらえられることができるようになった。脳を理解するという究極の目標に向けて、新たな挑戦が始まっている。今後は画像だけでなく、音楽や動画についても研究してみたい」と話している。
夢や思考を読み取るSFのような未来が来るのでしょうか? 究極の個人情報である脳の解読には、倫理的な問題もあります。記事後半では専門家たちの見方をお伝えします。
■実験は思いついたら「早い者…
新聞の親子読み 記事一覧はこちら
朝日小学生新聞から、あわせて読んでほしい記事をお届けします。[もっと見る]