G

Granite Speech 3.3 2b

ibm-graniteによって開発
Granite-speech-3.3-2bはIBMが開発したコンパクトで効率的な音声言語モデルで、自動音声認識(ASR)と自動音声翻訳(AST)に特化して設計され、双方向設計を採用してモジュール性とセキュリティを向上させています。
ダウンロード数 4,363
リリース時間 : 4/28/2025

モデル概要

このモデルは音声をテキストに変換する(ASR)ことと音声翻訳(AST)に特化しており、モジュール化設計を採用し、初回呼び出しで音声を文字起こしし、2回目の呼び出しでテキストを処理し、多言語タスクをサポートします。

モデル特徴

双方向設計
単方向統合モデルとは異なり、まず音声を独立して文字起こしし、その後テキストを処理することで、モジュール性とセキュリティを向上させます。
マルチタスクサポート
音声認識と音声翻訳タスクを同時にサポートし、様々なアプリケーションシーンに対応します。
効率的なアーキテクチャ
Conformerエンコーダ、q - formerダウンサンプラー、Granite大規模言語モデルを組み合わせ、性能と効率をバランスさせます。
LoRA適合
ランク64のLoRAアダプターを使用してクエリと値の投影行列を最適化し、モデルの柔軟性を向上させます。

モデル能力

音声をテキストに変換
異言語音声翻訳
長い音声処理(128kコンテキストをサポート)

使用事例

音声文字起こし
会議記録の自動化
会議の録音をリアルタイムで文字記録に変換
高い精度の英語文字起こし出力
リアルタイム翻訳
多言語音声翻訳
英語の音声を7つの目標言語にリアルタイムで翻訳
ドイツ語/スペイン語/フランス語/イタリア語/日本語/ポルトガル語/中国語の出力をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase