G

Gemma 3 4b It Speech

junneiによって開発
Gemma-3-MMはGemma-3-4b-itを拡張したマルチモーダル指示モデルで、音声処理能力を追加し、テキスト、画像、音声入力を処理してテキスト出力を生成できます。
ダウンロード数 383
リリース時間 : 3/22/2025

モデル概要

オープンソースのマルチモーダル指示モデルで、Gemma-3を基に音声処理能力を拡張し、英語と韓国語の音声認識と翻訳タスクをサポートします。

モデル特徴

マルチモーダル処理能力
テキスト、画像、音声入力を同時に処理し、テキスト出力を生成可能
長文コンテキストサポート
128Kトークンのコンテキスト長をサポート(1Bモデルは32K)
音声アダプター
596BパラメータのLoRAアダプターを追加して音声処理機能を拡張
多言語サポート
英語と韓国語の音声認識と翻訳をサポート

モデル能力

テキスト生成
音声認識
音声翻訳
マルチモーダル理解

使用事例

音声書き起こし
英語音声転写
英語音声をテキストに変換
LibriSpeechクリーン版テストセットで94.28 BLEUスコアを達成
韓国語音声転写
韓国語音声をテキストに変換
Zerothテストセットで94.91 BLEUスコアを達成
音声翻訳
英語-韓国語翻訳
英語音声を韓国語テキストに翻訳
Covost2テストセットで31.55 BLEUスコアを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase