VLM (Vision-Language Model) とは、画像とテキストを統合的に処理するAIモデルのことです。VLMの登場により、「画像を説明する文章生成」や「マルチモーダル検索」といった新しいタスクが可能になり、AIの応用範囲が大きく拡大しました。しかし、VLMを開発する際には以下のような課題もあります。大規模なデータが必要データを処理する計算コストがかかるこの記事では、VLMについての基礎知識と、これらの課題をどう解決すればよいかを解説しています。ぜひ参考にしてください。VLMとは視覚情報と言語情報を同時に処理するAIモデルのことVLM(Vision-Language Model)とは、視覚情報と言語情報の相互関係を取り扱うAIモデルのことです。日本語では「大規模視覚言語モデル」と言います。VLMをより深く理解するために、LLMと比較してみましょう。VLMとLLMとの違いVLMは画像認識と大規模言語モデル(LLM)の技術を組み合わせたAIモデルです。両者には以下のような違いがあります。LLMVLMデータの対象テキストデータテキストと画像特徴テキストデータのパターンや文脈を学習し、言語処理タスクを高精度で実行する画像とテキストの両方を統合的に理解することで、異種データ間の関係性を学習する主な用途・コード生成・文章要約・質問応答・テキスト分類・翻訳・画像キャプション生成・画像に基づく質問応答・マルチモーダル検索VLMは画像を説明する文章を生成する、画像キャプション生成「この画像に何が写っているか教えて」といった画像に基づく質問応答テキスト入力から画像の取得、または画像入力からテキストによる説明の取得、といった異なるデータ形式を組み合わせたマルチモーダル検索などの視覚と言語を組み合わせたタスクが可能で、LLMよりも広い用途に応用が可能です。VLMの活用事例VLMの具体的な活用事例をいくつか紹介します。自動運転技術VLMは、自動運転技術に活用されています。カメラ画像から交通標識や道路指示を読み取り、車両の行動指針に変換します。レコメンド機能メルカリでは、VLMのひとつである「SigLIP」を、メルカリの商品データ(画像とテキストのペア)でファインチューニングし、商品の類似画像検索の性能を大幅に改善しました。参考記事:Vision-Language Modelを活用した「見た目が近い商品」レコメンド改善の取り組み商品説明の自動生成商品画像を分析し、形状・色・素材・ブランドロゴなどの視覚的な特徴を識別し、その特徴を基に、自然言語処理技術を用いて商品説明文を生成します。例えば、画像から「長袖」「コットン素材」といった属性を自動的に識別し、説明文に反映することにより、大量の商品説明を短時間で生成できます。社内文書の有効活用VLMによって、図表つきドキュメントのQAに関する教師データの作成や、図表をRAGデータとして書き起こすことができ、社内文書の有効活用に繋げられます。RAGについては、下記記事で詳しく解説していますので、併せてご覧ください。関連記事:RAGとは?仕組みから活用例までわかりやすく解説VLMの学習手順VLMが学習する手順を簡単に解説します。1. 画像とテキストのペアデータを集める例えば画像: 動物の写真 (犬、猫など)テキスト: 「これは黒いラブラドールです」「茶色の猫が座っています」などといった学習用のデータを大量に収集します。2.画像とテキスト情報からそれぞれの特徴を抽出するAIは画像から色またはテクスチャなどの情報から特徴を抽出し、テキストからは単語または文脈などの情報から特徴を抽出します。3. 画像とテキストの相互関係を学習する2で抽出した特徴をもとに画像とテキストの相互関係を学習することで、様々な用途に合わせた処理を行えるようになります。例えば、猫が座っている画像と文章の相互関係を学習したAIは、その画像をもとに「猫が座っている」といったテキストを生成できるようになります。VLM開発における課題広い用途に応用が可能なVLMですが、開発には以下のような課題もあります。データを処理する計算コストがかかる大規模なデータが必要データを処理する計算コストがかかるVLMは、画像処理と自然言語処理の両方を扱う複雑なモデルです。画像の視覚的特徴を抽出する「画像エンコーダ」、テキストの言語的特徴を抽出する「テキストエンコーダ」、またそれら情報の相互関係を処理するモデルが複雑で、かつ視覚的情報と言語的情報と多くのデータを処理する必要があるため、計算コストがかかります。また、大量のデータセットを処理する計算コストもかかります。これらの計算コストが掛かる課題を解決する方法には、適切なモデルを選択する、モデルを軽量化する、データセットを見直すなどの選択肢があります。大規模なデータが必要幅広いタスクに応じたVLMを作成するためには、画像とテキストのペアデータが大量に必要です。そのため、VLMの開発には膨大な量のデータを収集し、アノテーションをしなければなりません。それらを社内で行う場合、多くのリソースを割く必要があります。この解決方法のひとつを、次の章で紹介します。「FastLabel」はVLM開発におけるデータ活用を支援していますFastLabelでは、VLM開発用データ支援として、以下のようなサービスを提供しています。画像・動画データの新規撮影収集するデータセットの販売・収集キャプションやQAなどのアノテーション代行マルチモーダルRAGデータの作成FastLabelのサービスをご利用いただくことにより、データ収集やアノテーション作業といったVLM開発において多くの時間を割かなければならない業務で、時間や人などのリソースを大幅に削減できます。また、VLMで利用するマルチモーダルRAG用のデータ作成もご支援します。リソースが足りない、AI開発を効率的に行いたい、AIの精度を高めたいといった課題がある場合は、ぜひご相談ください。まとめ本記事では、VLMについて解説してきました。最後にまとめをご覧ください。▼VLMとは画像や映像などの視覚情報と、テキストなどの言語情報を同時に処理するAIモデルのこと▼VLMとLLMの違いLLMVLMデータの対象テキストデータテキストと画像特徴テキストデータのパターンや文脈を学習し、言語処理タスクを高精度で実行する画像とテキストの両方を統合的に理解することで、異種データ間の関係性を学習する主な用途・コード生成・文章要約・質問応答・テキスト分類・翻訳・画像キャプション生成・画像に基づく質問応答・マルチモーダル検索▼VLM開発における課題データを処理する計算コストがかかる大規模なデータが必要VLMの開発では大量のデータ収集とアノテーションを行う必要があります。VLMを開発したいが、社内の既存データだけでは量が不足している大量の学習データが必要だが、データ作成の人的リソースが十分確保できない社内ドキュメントや画像・動画データをVLMで活用したいが、RAGデータを作成するための人的リソースが十分確保できないといった課題をお持ちの場合は、ぜひFastLabelにご相談ください。