大規模視覚言語モデルを用いた条件付き画像埋め込み

Published in Meeting on Image Recognition and Understanding, 2025

Recommended citation: 川原田将之, 山田康輔, Tejero-de-Pablos Antonio, 井上直人. (2025, July). 大規模視覚言語モデルを用いた条件付き画像埋め込み. In Meeting on Image Recognition and Understanding.

本稿は，大規模視覚言語モデルを用いて条件付き画像埋め込みを生成する「DIOR」フレームワークを提案する．DIOR は，画像を条件に関して一語で表すプロンプトを大規模視覚言語モデルに入力し，Transformer 最終層で得られるプロンプト末尾の隠れ状態ベクトルを条件付き画像埋め込みとし，追加学習を必要とせず推論のみで高品質な埋め込み表現を実現する．5 つのデータセットを用いた条件付き類似画像検索の実験では，DIOR は従来の埋め込み手法を上回る性能を示した．