Phi-4-multimodal-instructオープンソースモデル - 画像、音声入力に対応し、簡単にテキスト内容を生成

ホーム

Phi 4 Multimodal Instruct

mjtechguyによって開発

Phi-4-multimodal-instructは、テキスト、画像、音声入力をサポートし、テキスト出力を生成する軽量オープンソースのマルチモーダル基盤モデルで、128Kトークンのコンテキスト長を備えています。

マルチモーダル融合

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダルインストラクション #軽量128Kコンテキスト #音声・視覚・テキスト融合

ダウンロード数 18

リリース時間 : 2/28/2025

モデル概要

このモデルは、Phi-3.5および4.0モデルの言語、視覚、音声研究データを統合し、教師あり微調整、直接選好最適化、人間フィードバック強化学習（RLHF）による強化プロセスを通じて、指示追従の正確性と安全対策において優れた性能を発揮します。

モデル特徴

マルチモーダルサポート

テキスト、画像、音声入力をサポートし、テキスト出力を生成、128Kトークンのコンテキスト長を備えています。

多言語サポート

多様な言語のテキスト、視覚、音声処理をサポートし、世界の主要言語をカバーします。

高性能

自動音声認識および音声翻訳タスクにおいてWhisperV3およびSeamlessM4T-v2-Largeを上回り、Huggingface OpenASRランキングで1位を獲得。

軽量

メモリ/計算リソースが制限された環境や遅延に敏感なシナリオに適しています。

モデル能力

テキスト生成

画像理解

音声認識

音声翻訳

音声要約

視覚的質問応答

光学文字認識

チャートと表の理解

複数画像の比較

複数画像または動画クリップの要約

音声理解

使用事例

ビジネスアプリケーション

インテリジェントカスタマーサービス

マルチモーダル入力による正確なカスタマーサービス応答を提供。

音声翻訳

音声を複数の言語にリアルタイムで翻訳し、異言語間コミュニケーションをサポート。

教育

視覚的数学問題解決

画像入力により複雑な数学問題を解決。

多言語学習

多言語テキストおよび音声の学習支援をサポート。

研究

マルチモーダル研究

マルチモーダルモデルの研究および開発に使用。

🚀 Phi-4-multimodal-instruct

Phi-4-multimodal-instructは、軽量でオープンなマルチモーダル基礎モデルです。Phi-3.5および4.0モデルに使用された言語、ビジョン、音声の研究とデータセットを活用しています。このモデルは、テキスト、画像、音声の入力を処理し、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。また、モデルは、教師付き微調整、直接的な嗜好最適化、およびRLHF（人間のフィードバックによる強化学習）を組み合わせた強化プロセスを経て、正確な命令遵守とセキュリティ対策をサポートしています。

各モーダルがサポートする言語は以下の通りです。

テキスト: アラビア語、中国語、チェコ語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ヘブライ語、ハンガリー語、イタリア語、日本語、韓国語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スウェーデン語、タイ語、トルコ語、ウクライナ語
ビジョン: 英語
音声: 英語、中国語、ドイツ語、フランス語、イタリア語、日本語、スペイン語、ポルトガル語

📰 Phi-4-multimodal Microsoft Blog
📖 Phi-4-multimodal Technical Report
🏡 Phi Portal
👩‍🍳 Phi Cookbook
🖥️ Azure、Nvidia Playgroudで試す
📱Huggingface Spaces Thoughts Organizer、 Stories Come Alive、 Phine Speech Translator

Phi-4: [multimodal-instruct | onnx]; mini-instruct;

Phi-4 Multimodalが話し言葉を分析し、シアトルへの旅行計画を支援する様子をご覧ください。これは、高度な音声処理と推薦機能を実証しています。

Phi-4 Multimodalが視覚入力を通じて複雑な数学問題に取り組む様子を見てみましょう。これは、画像に提示された方程式を処理して解く能力を実証しています。

Phi-4 Miniがインテリジェントエージェントとして機能し、複雑なシナリオでの推論とタスク実行能力を展示する様子を探索してみましょう。

🚀 クイックスタート

このセクションでは、Phi-4-multimodal-instructモデルの基本的な使い方や必要なセットアップ手順を説明します。

✨ 主な機能

主要な使用ケース

このモデルは、幅広い多言語およびマルチモーダルの商用および研究用途を想定しています。一般的なAIシステムやアプリケーションにおいて、以下の用途に使用できます。

メモリ/コンピュートが制約された環境
レイテンシが重要なシナリオ
強力な推論能力（特に数学と論理）
関数とツールの呼び出し
一般的な画像理解
光学文字認識
チャートとテーブルの理解
複数画像の比較
複数画像またはビデオクリップの要約
音声認識
音声翻訳
音声QA
音声要約
音声理解

このモデルは、言語およびマルチモーダルモデルの研究を加速し、生成AI機能の構成要素として使用することを目的として設計されています。

使用ケースの考慮事項

このモデルは、すべての下流用途に対して特別に設計または評価されているわけではありません。開発者は、言語モデルやマルチモーダルモデルの一般的な制限、および言語間の性能差を考慮し、使用ケースを選択し、特定の下流用途で使用する前に、精度、安全性、および公平性を評価して軽減策を講じる必要があります。特に、高リスクのシナリオにおいては、この点を十分に考慮する必要があります。

開発者は、自分の使用ケースに関連する適用可能な法律や規制（プライバシー、貿易コンプライアンス法などを含むがこれらに限定されない）を認識し、遵守する必要があります。

このモデルカードに含まれる内容は、モデルがリリースされたライセンスに対する制限または変更と解釈されることはありません。

📦 インストール

必要条件

Phi-4ファミリーはtransformersの4.48.2バージョンに統合されています。現在のtransformersバージョンは、pip list | grep transformersで確認できます。

必要なパッケージの例：

flash_attn==2.7.4.post1
torch==2.6.0
transformers==4.48.2
accelerate==1.3.0
soundfile==0.13.1
pillow==11.1.0
scipy==1.15.2
torchvision==0.21.0
backoff==2.2.1
peft==0.13.2

Phi-4-multimodal-instructは、Azure AI Studioでも利用可能です。

トークナイザー

Phi-4-multimodal-instructは最大200064トークンの語彙サイズをサポートしています。トークナイザーファイルには、下流の微調整に使用できるプレースホルダートークンがすでに用意されていますが、モデルの語彙サイズまで拡張することもできます。

入力フォーマット

学習データの性質上、Phi-4-multimodal-instructモデルは以下のチャット形式のプロンプトに最適です。

テキストチャット形式

この形式は、一般的な会話や命令に使用されます。

<|system|>You are a helpful assistant.<|end|><|user|>How to explain Internet for a medieval knight?<|end|><|assistant|>

ツール対応の関数呼び出し形式

この形式は、ユーザーがモデルに与えられたツールに基づいて関数呼び出しを提供させたい場合に使用されます。ユーザーは、システムプロンプトに利用可能なツールを<|tool|>と<|/tool|>トークンで囲んで提供する必要があります。ツールはJSON形式で指定し、JSONダンプ構造を使用します。例：

<|system|>You are a helpful assistant with some tools.<|tool|>[{"name": "get_weather_updates", "description": "Fetches weather updates for a given city using the RapidAPI Weather API.", "parameters": {"city": {"description": "The name of the city for which to retrieve weather information.", "type": "str", "default": "London"}}}]<|/tool|><|end|><|user|>What is the weather like in Paris today?<|end|><|assistant|>

ビジョン - 言語形式

この形式は、画像との会話に使用されます。

<|user|><|image_1|>Describe the image in detail.<|end|><|assistant|>

複数の画像の場合、ユーザーは以下のようにプロンプトに複数の画像プレースホルダーを挿入する必要があります。

<|user|><|image_1|><|image_2|><|image_3|>Summarize the content of the images.<|end|><|assistant|>

音声 - 言語形式

この形式は、さまざまな音声およびオーディオタスクに使用されます。

<|user|><|audio_1|>{task prompt}<|end|><|assistant|>

タスクプロンプトは、タスクによって異なります。自動音声認識：

<|user|><|audio_1|>Transcribe the audio clip into text.<|end|><|assistant|>

自動音声翻訳：

<|user|><|audio_1|>Translate the audio to {lang}.<|end|><|assistant|>

思考連鎖付きの自動音声翻訳：

<|user|><|audio_1|>Transcribe the audio to text, and then translate the audio to {lang}. Use <sep> as a separator between the original transcript and the translation.<|end|><|assistant|>

音声クエリ質問応答：

<|user|><|audio_1|><|end|><|assistant|>

ビジョン - 音声形式

この形式は、画像と音声を用いた会話に使用されます。音声には画像に関連するクエリが含まれる場合があります。

<|user|><|image_1|><|audio_1|><|end|><|assistant|>

複数の画像の場合、ユーザーは以下のようにプロンプトに複数の画像プレースホルダーを挿入する必要があります。

<|user|><|image_1|><|image_2|><|image_3|><|audio_1|><|end|><|assistant|>

ビジョン

一般的なRGB/グレースケールの画像形式（例：(".jpg", ".jpeg", ".png", ".ppm", ".bmp", ".pgm", ".tif", ".tiff", ".webp")）がサポートされています。
解像度はGPUメモリサイズに依存します。解像度が高く、画像が多いほどトークンが増え、GPUメモリの使用量が増えます。学習時には、最大64枚のクロップがサポートされます。正方形の画像の場合、解像度はおよそ(8448 by 8448)になります。複数画像の場合、最大64フレームがサポートされますが、入力フレームが増えると、各フレームの解像度を下げてメモリに収める必要があります。

音声

soundfileパッケージで読み込めるオーディオ形式はすべてサポートされています。
良好な性能を維持するために、最大音声長は40秒が推奨されます。要約タスクの場合は、最大音声長は30分が推奨されます。

モデルのローカル読み込み

Phi-4-multimodal-instructモデルのチェックポイントを取得した後、以下のサンプルコードを使用して推論を行うことができます。

import requests
import torch
import os
import io
from PIL import Image
import soundfile as sf
from transformers import AutoModelForCausalLM, AutoProcessor, GenerationConfig
from urllib.request import urlopen


# Define model path
model_path = "microsoft/Phi-4-multimodal-instruct"

# Load model and processor
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path, 
    device_map="cuda", 
    torch_dtype="auto", 
    trust_remote_code=True, 
    attn_implementation='flash_attention_2',
).cuda()

# Load generation config
generation_config = GenerationConfig.from_pretrained(model_path)

# Define prompt structure
user_prompt = '<|user|>'
assistant_prompt = '<|assistant|>'
prompt_suffix = '<|end|>'

# Part 1: Image Processing
print("\n--- IMAGE PROCESSING ---")
image_url = 'https://www.ilankelman.org/stopsigns/australia.jpg'
prompt = f'{user_prompt}<|image_1|>What is shown in this image?{prompt_suffix}{assistant_prompt}'
print(f'>>> Prompt\n{prompt}')

# Download and open image
image = Image.open(requests.get(image_url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors='pt').to('cuda:0')

# Generate response
generate_ids = model.generate(
    **inputs,
    max_new_tokens=1000,
    generation_config=generation_config,
)
generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]
response = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(f'>>> Response\n{response}')

# Part 2: Audio Processing
print("\n--- AUDIO PROCESSING ---")
audio_url = "https://upload.wikimedia.org/wikipedia/commons/b/b0/Barbara_Sahakian_BBC_Radio4_The_Life_Scientific_29_May_2012_b01j5j24.flac"
speech_prompt = "Transcribe the audio to text, and then translate the audio to French. Use <sep> as a separator between the original transcript and the translation."
prompt = f'{user_prompt}<|audio_1|>{speech_prompt}{prompt_suffix}{assistant_prompt}'
print(f'>>> Prompt\n{prompt}')

# Downlowd and open audio file
audio, samplerate = sf.read(io.BytesIO(urlopen(audio_url).read()))

# Process with the model
inputs = processor(text=prompt, audios=[(audio, samplerate)], return_tensors='pt').to('cuda:0')

generate_ids = model.generate(
    **inputs,
    max_new_tokens=1000,
    generation_config=generation_config,
)
generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]
response = processor.batch_decode(
    generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(f'>>> Response\n{response}')

💻 使用例

基本的な使用法

上記のコードサンプルは、Phi-4-multimodal-instructモデルをローカルで読み込み、画像と音声の入力に対する推論を行う基本的な方法を示しています。

高度な使用法

高度なシナリオでは、モデルのパラメータや入力形式を調整することで、より複雑なタスクを実行できます。例えば、複数の画像や音声を同時に入力したり、特定の言語やタスクに合わせてモデルを微調整したりすることができます。

📚 ドキュメント

このセクションでは、Phi-4-multimodal-instructモデルの詳細なドキュメントや技術レポートへのリンクを提供します。

🔧 技術詳細

モデル

アーキテクチャ: Phi-4-multimodal-instructは56億のパラメータを持つマルチモーダルトランスフォーマーモデルです。このモデルは、事前学習されたPhi-4-Mini-Instructをバックボーン言語モデルとし、高度なビジョンと音声のエンコーダーとアダプターを備えています。
入力: テキスト、画像、音声。チャット形式のプロンプトに最適です。
コンテキスト長: 128Kトークン
GPU: 512台のA100-80G
学習時間: 28日
学習データ: 5兆トークン、230万時間の音声、1.1兆の画像 - テキストトークン
出力: 入力に応じて生成されたテキスト
日付: 2024年12月から2025年1月の間に学習されました。
サポート言語:
- テキスト: アラビア語、中国語、チェコ語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ヘブライ語、ハンガリー語、イタリア語、日本語、韓国語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スウェーデン語、タイ語、トルコ語、ウクライナ語
- ビジョン: 英語
- 音声: 英語、中国語、ドイツ語、フランス語、イタリア語、日本語、スペイン語、ポルトガル語
リリース日: 2025年2月

学習データセット

Phi-4-multimodal-instructの学習データは、幅広いソースから構成され、合計で5兆のテキストトークンを含んでいます。以下のデータの組み合わせです。

品質がフィルタリングされた公開ドキュメント、選択された高品質の教育データ、およびコード
数学、コーディング、常識的な推論、世界の一般知識（科学、日常活動、マインド理論など）を教える目的で新たに作成された合成的な「教科書のような」データ
チャット形式の高品質の人間ラベル付きデータ
選択された高品質の画像 - テキストインターリーブデータ
合成および公開されている画像、複数画像、およびビデオデータ
匿名化された社内の音声 - テキストペアデータ（強/弱な文字起こし付き）
選択された高品質の公開および匿名化された社内の音声データ（タスク固有の監督付き）
選択された合成音声データ
合成ビジョン - 音声データ

データの質に重点を置き、モデルの推論能力を向上させることを目指しました。公開ドキュメントは、好ましいレベルの知識を含むようにフィルタリングされました。例えば、特定の日のプレミアリーグの試合結果は、大規模な基礎モデルの良い学習データかもしれませんが、Phi-4-multimodal-instructではこのような情報は削除され、モデルの小さなサイズに合わせて推論能力により多くの容量を割り当てました。

データ収集プロセスでは、公開ドキュメントから情報を収集し、望ましくないドキュメントや画像をフィルタリングすることに重点を置きました。プライバシーを保護するために、画像とテキストのデータソースは、学習データから潜在的な個人情報を削除またはスクラブするようにフィルタリングされました。

汚染除去プロセスでは、データセットを正規化してトークナイズし、ターゲットデータセットとベンチマークデータセットの間でn-gramを生成して比較しました。閾値を超える一致するn-gramを持つサンプルは、汚染されたとしてフラグが立てられ、データセットから削除されました。詳細な汚染レポートが生成され、一致するテキスト、一致率、およびフィルタリング結果が要約され、さらなる分析のために提供されます。

微調整

音声とビジョンの教師付き微調整（SFT）の基本的な例がそれぞれ提供されています。

📄 ライセンス

このモデルはMITライセンスの下でライセンスされています。

商標

このプロジェクトには、プロジェクト、製品、またはサービスの商標やロゴが含まれている場合があります。Microsoftの商標やロゴの許可された使用は、Microsoftの商標とブランドガイドラインに従う必要があります。このプロジェクトの修正バージョンでMicrosoftの商標やロゴを使用する場合は、混乱を招いたり、Microsoftの後援を暗示したりしてはなりません。第三者の商標やロゴの使用は、それらの第三者のポリシーに従う必要があります。

付録A: ベンチマーク方法論

このセクションでは、ベンチマークの方法論について説明します。特に、プロンプトの最適化について考える方法について解説します。

理想的には、ベンチマークでプロンプトを変更せず、異なるモデルを比較する際に常に公平な比較を行うことが望ましいです。実際、これまでに実行したほとんどのモデルでは、これがデフォルトのアプローチとなっています。

ただし、いくつかの例外があります。場合によっては、モデルが出力形式を尊重しないため、特定の評価で予想よりも低い性能を示すことがあります。例えば：

モデルが（明らかな理由なく）質問に答えることを拒否したり、コーディングタスクでは応答の先頭に「Sure, I can help with that. …」などを付けることでパーサーが壊れることがあります。このような場合、異なるシステムメッセージ（例：「You must always respond to a question」や「Get to the point!」）を試すことにしています。
いくつかのモデルでは、few-shotが実際にモデルの性能を低下させることが観察されました。この場合、すべてのケースで0-shotでベンチマークを実行することを許可しています。
チャットAPIとコンプリーションAPIの間を変換するツールがあります。チャットプロンプトをコンプリーションプロンプトに変換する際、いくつかのモデルは異なるキーワード（例：Human vs User）を持っています。このような場合、チャットからコンプリーションプロンプトへのモデル固有のマッピングを許可しています。

ただし、以下のことは行いません。

異なるfew-shotの例を選択することはありません。異なるモデルを比較する際、few-shotは常に同じです。
プロンプトの形式を変更することはありません。例えば、A/B/C/Dの選択肢がある多肢選択問題の場合、これを1/2/3/4の選択肢に変更することはありません。

ビジョンベンチマーク設定

ベンチマークの設定の目的は、一般ユーザーがビジュアル入力を伴うタスクでこれらのモデルを使用する際の性能を測定することです。このため、9つの人気のある公開された単一フレームのデータセットと3つのマルチフレームのベンチマークを選択しました。これらは、幅広い難しいトピックやタスク（数学、OCRタスク、チャートの理解など）をカバーしています。また、一連の高品質なモデルも使用しました。

ベンチマークの設定では、ゼロショットのプロンプトを使用し、すべてのモデルに対して同じプロンプト内容を使用しました。ただし、モデルのプロンプトAPIに合わせてプロンプト内容をフォーマットしました。これにより、テストしたモデル間で公平な評価が行われます。多くのベンチマークでは、モデルが提示された選択肢から応答を選択する必要があります。そのため、プロンプトの最後に、すべてのモデルが正しいと思われる選択肢の文字を選択するように指示を含めています。

ビジュアル入力に関しては、ベンチマークの元のデータセットからの画像を使用しました。必要なモデル（例：GPTV、Claude Sonnet 3.5、Gemini 1.5 Pro/Flash）に対しては、これらの画像をJPEGエンコーディングを使用してbase-64に変換しました。他のモデル（例：Llava Interleave、InternVL2 4Bおよび8B）に対しては、Huggingfaceインターフェースを使用し、PIL画像またはローカルに保存されたJPEG画像を渡しました。画像をスケーリングしたり、他の方法で前処理したりすることはありません。

最後に、すべてのモデルに対して同じコードを使用して回答を抽出し、評価しました。これにより、回答の品質を公平に評価することができます。

音声ベンチマーク設定

このベンチマークの設定の目的は、一般ユーザーが音声およびオーディオ理解タスクでモデルを使用する際の性能を評価することです。このため、いくつかの最先端のオープンソースおよびクローズドソースのモデルを選択し、幅広い公開および社内のベンチマークで評価を行いました。これらのベンチマークは、多様で難しいトピックをカバーしており、自動音声認識（ASR）、自動音声翻訳（AST）、音声クエリ質問応答（SQQA）、音声理解（AU）、および音声要約などが含まれています。

結果は、同一のテストデータで評価され、さらなる説明は行われていません。すべての結果は、推論時にサンプリングを行わずに取得されました。公平な比較のために、異なるタスクでモデルに対して一貫したプロンプトを使用しましたが、一部のモデルAPI（例：GPT-4o）は特定のタスクのプロンプトに応答を拒否することがあります。

最後に、すべてのモデルに対して均一なコードを使用して回答を抽出し、評価しました。このアプローチにより、回答の品質を公平に評価することができました。

ベンチマークデータセット

このモデルは、幅広い公開および社内のベンチマークで評価され、複数のタスクや条件下での能力を理解することができます。ほとんどの評価は英語を使用していますが、多言語のベンチマークも組み込まれ、特定の言語での性能をカバーしています。具体的には、

ビジョン:
- 人気のある集約ベンチマーク:
  - MMMUおよびMMMU-Pro: 大学レベルの学科知識と意識的な推論に関する大規模な多分野タスク。
  - MMBench: 知覚と推論能力を評価する大規模なベンチマーク。
- ビジュアル推論:
  - ScienceQA: 科学に関するマルチモーダルなビジュアル質問応答。
  - MathVista: ビジュアル数学推論。
  - InterGPS: ビジュアル2D幾何学推論。
- チャート推論:
  - ChartQA: チャートに関するビジュアルおよび論理的な推論。
  - AI2D: 図解の理解。
- ドキュメントインテリジェンス:
  - TextVQA: 画像内のテキストを読み、推論して質問に答える。
  - InfoVQA: 任意のアスペクト比の高解像度のインフォグラフィック画像を読み、推論して質問に答える。
  - DocVQA: 密集したテキストや手書きテキストを含むドキュメント画像を読み、推論して質問に答える。
  - OCRBench: 多様なテキスト関連画像でOCRとQA能力をテストする。
- ビジョン音声マルチモーダル理解:
  - s_AI2D: 音声を質問形式とした図解の理解。
  - s_ChartQA: 音声を質問形式としたチャートに関するビジュアルおよび論理的な推論。
  - s_InfoVQA: 音声を質問形式とした高解像度のインフォグラフィック画像を読み、推論して質問に答える。
  - s_DocVQA: 音声を質問形式とした密集したテキストや手書きテキストを含むドキュメント画像を読み、推論して質問に答える。
- RAI & セキュリティベンチマーク:
  - VLGuardExt: VLGuardは、欺瞞、差別、プライバシー、危険な行動（アドバイス、性的内容、暴力、政治的内容）に関するモデルの安全性を扱うビジョン - 言語命令遵守の公開データセットです。これは、子供の安全や選挙の重要情報などのいくつかの社内カテゴリに拡張されました。
  - RTVLM: ビジョン - 言語モデルの真実性、プライバシー、安全性、および公平性に関するレッドチーミングの公開ベンチマーク。
  - GPTV-RAI: Azure AIからリリースされたGPT-4V用の社内ベンチマークで、有害性（性的内容、暴力、憎悪、不公平な内容など）、プライバシー、ジェイルブレイク、誤情報を測定します。
音声:
- CommonVoice v15は、Mozillaによって開発されたオープンソースの多言語音声データセットです。世界中のボランティアによって寄贈され、検証された133の言語で33,000時間以上の音声データが含まれています。評価は、サポートされている8つの言語で行われました。
- Hugging FaceのOpenASRリーダーボードは、英語のASRモデルの堅牢性をベンチマークし、評価するために設計されています。リーダーボードのデータセットは、読み上げ音声、会話、会議などの多様な音声ドメインをカバーしています。
- CoVoST2は、MozillaのCommon Voiceプロジェクトから派生した多言語音声 - テキスト翻訳データセットです。音声翻訳に利用可能な最大のオープンデータセットの1つで、Xから英語への翻訳（X→En）と英語からXへの翻訳（En→X）の両方をサポートしています。サポートされている言語の方向について、テストセットで評価されました。
- FLEURSは、幅広い言語で音声認識と音声 - テキスト翻訳モデルを評価するために設計された多言語音声データセットです。音声認識と翻訳タスクのテストセットは、サポートされている8つの言語で評価されました。
- MT Bench（マルチターンベンチマーク）は、AIモデルのマルチターン質問応答（QA）シナリオにおける会話および命令遵守能力を評価するために特別に設計されています。音声質問をサポートするために、テキストが音声に合成されます。
- MMMLU（多言語大規模多タスク言語理解）は、幅広い科目にわたるAIモデルの一般知識と推論能力を評価するために設計された大規模なベンチマークです。音声質問をサポートするために、テキストが音声に合成されます。このテストセットでは、サポートされている8つの言語でモデルが評価されました。
- AIR-Bench Chat（オーディオ命令と応答ベンチマーク）は、大規模オーディオ言語モデル（LALMs）の機能をテストするために設計された包括的な評価フレームワークです。ファウンデーションベンチマークとチャットベンチマークの両方が含まれています。チャットベンチマークは、オープンエンドの音声能力の質問応答に選択されました。
- MMAU（大規模多タスク音声理解）は、マルチモーダルモデルの音声ベースの理解と推論タスクにおける機能を評価するために設計された包括的なデータセットです。テストセットは、音楽、音声、および音声のカテゴリをカバーする複数選択QAの形式です。
- Golden3は、実世界の会議データセットで、108の会議録音と対応する文字起こしが含まれており、平均で6分ずつです。30の会議室で録音され、4 - 8人の参加者がいます。データセットは主に英語で、幅広いトピックをカバーしています。GPT4を使用して、部分的または全体の会話を要約するか、出力のスタイル/長さ/構造を制御する要約命令が生成されます。
- AMI（拡張多者対話）は、約100時間のデータを含む包括的な会議録音のコレクションです。テスト分割には、平均32分の20の会議録音が含まれています。モデルは、近接話しの音声バージョンでテストされました。GPT4を使用して、部分的または全体の会話を要約するか、出力のスタイル/長さ/構造を制御する要約命令が生成されます。
安全性とRAI:
- 単ターンの信頼性評価:
  - DecodingTrust: DecodingTrustは、8つの異なる視点からの信頼性ベンチマークのコレクションです。
  - XSTest: XSTestは、誇張された安全性評価です。
  - Toxigen: Toxigenは、敵対的および憎悪言語の検出です。
- レッドチーム:
  - MicrosoftのAIレッドチームによって提供されたプロンプトに対する応答