G

Granite Speech 3.2 8b

ibm-graniteによって開発
Granite-speech-3.2-8b は、自動音声認識(ASR)と自動音声翻訳(AST)向けに設計されたコンパクトで効率的な音声言語モデルです。
ダウンロード数 3,335
リリース時間 : 3/26/2025

モデル概要

このモデルは2段階設計を採用しており、最初の呼び出しで音声ファイルをテキストに変換し、さらにテキストを処理する必要がある場合は、基盤となるGranite言語モデルを再度呼び出します。エンタープライズ級の音声入力処理アプリケーションに適しています。

モデル特徴

2段階設計
最初の呼び出しで音声をテキストに変換し、基盤となる言語モデルを明示的にトリガーしてさらなる処理を行うことで、モジュール性とセキュリティを向上させます。
モーダルアライメント技術
音声入力とテキスト目標を含むコーパスで音声適応トレーニングを行い、音声処理能力を最適化します。
効率的なアーキテクチャ
Conformerブロック、ウィンドウクエリ変換器、LoRAアダプターを組み合わせ、効率的な音声処理を実現します。

モデル能力

英語音声からテキストへの変換
英語から他の言語への音声翻訳
自動音声認識
自動音声翻訳

使用事例

音声処理
エンタープライズ級音声文字起こし
会議の録音やカスタマーサポート通話などの英語音声コンテンツをテキストに変換します。
高精度な英語音声からテキストへの変換
クロスランゲージ音声翻訳
英語音声をフランス語、スペイン語、イタリア語、ドイツ語、ポルトガル語、日本語、または中国語に翻訳します。
多言語音声翻訳をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase