マルチモーダル — 画像+テキストで質問する
Geminiは画像を「見て」回答できる
Geminiに画像をアップロードして、テキストと組み合わせた質問ができる。これがマルチモーダルだ。
ChatGPTも画像対応しているが、Googleは医療画像の研究に最も投資しているプレイヤーだ。Med-Geminiの研究では胸部X線、病理、皮膚科、眼科、CT/MRIまで対応している [1]。
日常で使えるマルチモーダルの例
検査結果のスクリーンショット
{血液検査結果の画像をアップロード}
この血液検査の結果を解釈してください。
基準値を外れている項目を一覧にして、
考えられる原因を優先度順に3つ挙げてください。
手書きのメモや印刷された検査結果を写真で撮ってアップロードするだけで分析できる。
学会ポスターの要約
{学会ポスターの写真をアップロード}
このポスターの主要な知見を3行で要約してください。
方法と結果に分けて教えてください。
学会場を歩きながらポスターを撮影して、あとでまとめて要約させる使い方ができる。
薬剤の添付文書
{添付文書の写真をアップロード}
この薬剤の腎機能低下時の用量調整について教えてください。
eGFR 30-45の場合の推奨用量を抜き出してください。
研究レベルでの医療画像AI
一般ユーザーが使えるGeminiと、研究レベルのMed-Geminiは別物だが、方向性は知っておきたい。
胸部X線: Med-Gemini-2Dは、正常症例の96%で放射線科医と同等以上のレポートを生成。異常症例でも65%が同等以上 [1]。
3D CT/MRI: Med-Gemini-3Dは、3Dボリュームを直接解釈する初めてのLLM。放射線科医のレポートで見落とされていた病変を検出した事例が報告されている [1]。
ゲノム: Med-Gemini-Polygenicは、従来の線形多遺伝子リスクスコアを8つの健康アウトカムで上回った [1]。
これらが臨床に降りてくるのは時間の問題だ。MedGemmaとしてオープンソース化も始まっている [2]。
診断に使わない
一般ユーザー版のGeminiは医療機器ではない。画像をアップロードして質問することはできるが、その回答を診断の根拠にしてはいけない。あくまで学習・参考目的で使う。
Deep Research: 文献調査の自動化
Gemini Advancedには「Deep Research」機能がある。複雑な質問に対して、複数のウェブソースを自動的に調査し、構造化されたレポートを生成する。
2型糖尿病患者におけるGLP-1RAとSGLT2阻害薬の併用療法について、
2024-2025年に発表されたRCTを調査し、
心血管アウトカムと腎アウトカムに分けてまとめてください。
NotebookLMが「自分の資料から答える」ツールなら、Deep Researchは「ウェブ全体から調査してレポートを作る」ツール。補完関係にある。
まとめ
- Geminiは画像+テキストのマルチモーダル質問が得意
- 検査結果、ポスター、添付文書の写真をアップロードして分析できる
- Med-Geminiは医療画像AIの研究を世界でリードしている
- Deep Researchで複雑な文献調査を自動化できる
- 一般版は診断には使えない。学習・参考目的で
参考文献
- Saab K, et al. Med-Gemini. arXiv:2404.18416, 2405.03162. 2024.
- Google DeepMind. MedGemma. Hugging Face, 2025.