Soundwaveオープンソース音声テキスト変換モデル - 音声とテキストの境界を突破し、効率的に音声翻訳を完了

ホーム

Soundwave

FreedomIntelligenceによって開発

Soundwaveは音声とテキストの境界を突破した音声からテキストへの変換モデルで、わずか1万時間のデータで訓練するだけで、音声翻訳とAIR - Bench音声タスクで卓越した性能を発揮します。

音声認識

Safetensors

英語オープンソースライセンス:Apache-2.0 #高効率な音声からテキストへの変換 #少ないデータでの訓練 #多言語翻訳

ダウンロード数 169

リリース時間 : 3/4/2025

モデル概要

Soundwaveは音声とテキストの架け橋となる音声からテキストへの変換モデルで、高効率なデータ戦略と独自のアーキテクチャを採用し、対話でもスマートさを保ち、対話型タスクに最適な選択肢です。

モデル特徴

高効率なデータ戦略

わずか1万時間の訓練データで卓越した性能を達成できます

音声とテキストの架け橋

音声とテキストの間の高効率な変換の架け橋を築きます

スマートな対話能力

対話でもスマートさを保ち、対話型タスクに適しています

モデル能力

音声からテキストへの変換

音声翻訳

音声理解

対話型インタラクション

使用事例

音声翻訳

多言語音声翻訳

ある言語の音声をリアルタイムで別の言語のテキストに翻訳します

音声翻訳タスクで卓越した性能を発揮します

スマート対話

音声アシスタント

スマートな音声アシスタントを構築し、ユーザーの音声命令を理解して応答します

対話でもスマートさを保ち、対話型タスクに最適な選択肢です

プロパティ	詳細
モデルタイプ	音声テキスト変換モデル
学習データ	カスタムデータセット（10k時間）
評価指標	WER、BLEU、AIR - Bench

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Soundwave

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Soundwave: Less is More for Speech - Text Alignment in LLMs

🚀 クイックスタート

✨ 主な機能

📄 ライセンス

📚 ドキュメント

モデル情報

📖 引用