Stability AIの日本語画像言語モデル「Japanese InstructBLIP Alpha」を試してみた！画像を理解して説明や質問に答えるAIの可能性とは？

はじめに

AI（人工知能）は、近年、さまざまな分野で活用されています。特に、自然言語処理（NLP）とコンピュータビジョン（CV）は、AIの中でも注目されている分野です。NLPは、人間の言語を理解したり生成したりする技術で、CVは、画像や動画を解析したり生成したりする技術です。これらの技術を組み合わせると、画像と言語の両方を扱えるAIが作れます。これが、画像言語モデル（VLM）と呼ばれるものです。

画像言語モデルは、画像からテキストを生成する画像キャプションや、テキストから画像を生成するテキストトゥイメージなどのタスクに使われます。しかし、これらのタスクは、単純な変換だけではありません。画像言語モデルは、画像とテキストの両方の情報を理解し、関連付けし、推論し、応答しなければなりません。例えば、画像についての質問に答える場合は、画像内の物体や場面や関係性を把握し、質問の意図や範囲を判断し、適切な回答を生成しなければなりません。

このように、画像言語モデルは、高度なAI技術を要求されます。しかし、その分、応用範囲も広くなります。例えば、教育や医療やエンターテイメントなどの分野で、画像言語モデルを使ってコンテンツを作ったり分析したりすることができます。また、人間と自然なコミュニケーションを取ることができるAIアシスタントやロボットも実現できます。

Stability AIとJapanese InstructBLIP Alpha

そんな画像言語モデルの中でも注目されているのが、「Stability AI」という会社が開発した「Japanese InstructBLIP Alpha」というモデルです ¹ ²。Stability AIは、日本のAIスタートアップで、画像生成や画像言語モデルなどの研究開発を行っています。その中でも、「Japanese InstructBLIP Alpha」は、日本語向けの画像言語モデルとして、初めて公開されたものです。

「Japanese InstructBLIP Alpha」は、その名の通り、画像言語モデルの「InstructBLIP」を用いており、画像エンコーダとクエリ変換器、日本語言語モデルの「Japanese StableLM Alpha 7B」で構成されています ³。このモデルは、画像を入力すると、その画像についての説明や質問に答えることができます。例えば、以下のようなことができます。

画像キャプション：画像からテキストを生成するタスクです。画像内の物体や場面や関係性などを認識し、簡潔かつ正確に表現します。例えば、以下の画像に対して、「桜と東京スカイツリー」というテキストを生成します。

画像質問応答：画像についての質問にテキストで答えるタスクです。画像内の情報を理解し、質問の意図や範囲を判断し、適切な回答を生成します。例えば、以下の画像に対して、「道路に書かれた制限速度は？」という質問に、「30km/h」という回答を生成します。

Japanese InstructBLIP Alphaの使い方

「Japanese InstructBLIP Alpha」は、Hugging FaceというAIコミュニティサイトで公開されており ⁴ ⁵ 、誰でも簡単に試すことができます。ただし、商用利用はできず、研究目的に限られます。また、Google Colab Pro/Pro+のA100 GPUで動作確認されていますが ⁶ 、他の環境ではメモリ不足などの問題が発生する可能性があります。

Hugging Faceで試す場合は、以下の手順で行います。

Hugging FaceのSpacesページにアクセスし、「Japanese Instructblip Alpha – a Hugging Face Space by stabilityai」というタイトルのページを開きます。
ページ下部にある「Upload an image and write a prompt」という欄に、任意の画像ファイルとテキストを入力します。テキストは空白でも構いませんが、何か入力するとより自然な応答が得られます。
「Submit」ボタンを押すと、「Output」という欄にAIの応答が表示されます。

まとめ

「Japanese InstructBLIP Alpha」は、Stability AIが開発した日本語画像言語モデルで、画像を入力すると、その画像についての説明や質問に答えることができます。このモデルは、画像エンコーダとクエリ変換器、日本語言語モデルの「Japanese StableLM Alpha 7B」で構成されており、Hugging FaceのSpacesで試すことができます。このモデルは、画像内の物体や場面や関係性を正確に認識し、自然な日本語で表現したり回答したりすることができます。特に、プロンプトへの反応は、想定外の質問や指示にも柔軟に対応してくれます。このモデルは、教育や医療やエンターテイメントなどの分野で、画像言語モデルを使ってコンテンツを作ったり分析したりすることができる可能性を示しています。また、人間と自然なコミュニケーションを取ることができるAIアシスタントやロボットも実現できるかもしれません。

「Japanese InstructBLIP Alpha」は、日本語向けの画像言語モデルとして、初めて公開されたものです。そのため、まだ改善の余地はあります。例えば、画像内の細かい情報やニュアンスを捉えられない場合や、不適切な回答を生成する場合があります。また、商用利用はできず、研究目的に限られます。しかし、その分、今後の発展に期待が持てます。「Japanese InstructBLIP Alpha」は、画像言語モデルの新しい可能性を開拓したものです。ぜひ一度試してみてください。