メインコンテンツへスキップ
レッスン 3 / 4|5分で読めます

マルチモーダル — 画像+テキストで質問する

X線写真、検査結果のスクリーンショット、皮膚病変の写真。画像とテキストを組み合わせた質問の実践。

マルチモーダル — 画像+テキストで質問する

Geminiは画像を「見て」回答できる

Geminiに画像をアップロードして、テキストと組み合わせた質問ができる。これがマルチモーダルだ。

ChatGPTも画像対応しているが、Googleは医療画像の研究に最も投資しているプレイヤーだ。Med-Geminiの研究では胸部X線、病理、皮膚科、眼科、CT/MRIまで対応している [1]。


日常で使えるマルチモーダルの例

検査結果のスクリーンショット

{血液検査結果の画像をアップロード}

この血液検査の結果を解釈してください。
基準値を外れている項目を一覧にして、
考えられる原因を優先度順に3つ挙げてください。

手書きのメモや印刷された検査結果を写真で撮ってアップロードするだけで分析できる。

学会ポスターの要約

{学会ポスターの写真をアップロード}

このポスターの主要な知見を3行で要約してください。
方法と結果に分けて教えてください。

学会場を歩きながらポスターを撮影して、あとでまとめて要約させる使い方ができる。

薬剤の添付文書

{添付文書の写真をアップロード}

この薬剤の腎機能低下時の用量調整について教えてください。
eGFR 30-45の場合の推奨用量を抜き出してください。

研究レベルでの医療画像AI

一般ユーザーが使えるGeminiと、研究レベルのMed-Geminiは別物だが、方向性は知っておきたい。

胸部X線: Med-Gemini-2Dは、正常症例の96%で放射線科医と同等以上のレポートを生成。異常症例でも65%が同等以上 [1]。

3D CT/MRI: Med-Gemini-3Dは、3Dボリュームを直接解釈する初めてのLLM。放射線科医のレポートで見落とされていた病変を検出した事例が報告されている [1]。

ゲノム: Med-Gemini-Polygenicは、従来の線形多遺伝子リスクスコアを8つの健康アウトカムで上回った [1]。

これらが臨床に降りてくるのは時間の問題だ。MedGemmaとしてオープンソース化も始まっている [2]。

診断に使わない

一般ユーザー版のGeminiは医療機器ではない。画像をアップロードして質問することはできるが、その回答を診断の根拠にしてはいけない。あくまで学習・参考目的で使う。


Deep Research: 文献調査の自動化

Gemini Advancedには「Deep Research」機能がある。複雑な質問に対して、複数のウェブソースを自動的に調査し、構造化されたレポートを生成する。

2型糖尿病患者におけるGLP-1RAとSGLT2阻害薬の併用療法について、
2024-2025年に発表されたRCTを調査し、
心血管アウトカムと腎アウトカムに分けてまとめてください。

NotebookLMが「自分の資料から答える」ツールなら、Deep Researchは「ウェブ全体から調査してレポートを作る」ツール。補完関係にある。


まとめ

  • Geminiは画像+テキストのマルチモーダル質問が得意
  • 検査結果、ポスター、添付文書の写真をアップロードして分析できる
  • Med-Geminiは医療画像AIの研究を世界でリードしている
  • Deep Researchで複雑な文献調査を自動化できる
  • 一般版は診断には使えない。学習・参考目的で

参考文献

  1. Saab K, et al. Med-Gemini. arXiv:2404.18416, 2405.03162. 2024.
  2. Google DeepMind. MedGemma. Hugging Face, 2025.