Ultravox v0.5オープンソース音声テキスト変換モデル - Llama-3に基づく最適化、効率的な音声書き起こしタスク処理

ホーム

Ultravox V0 5 Llama 3 2 1b GGUF

ggml-orgによって開発

Ultravox v0.5はLlama-3 2.1Bアーキテクチャを最適化した音声テキスト変換モデルで、音声書き起こしタスクの効率的な処理に特化しています。

音声認識オープンソースライセンス:MIT #音声からテキストへ #軽量モデル #リアルタイム処理

ダウンロード数 421

リリース時間 : 5/21/2025

モデル概要

このモデルは主に音声コンテンツをテキストに変換するために使用され、音声認識、字幕生成などのシナリオに適しています。Llama-3アーキテクチャをベースに最適化されており、高い精度を維持しながら処理効率を向上させています。

モデル特徴

効率的な音声書き起こし

音声認識タスク向けに最適化されたアーキテクチャで、効率的な音声テキスト変換機能を提供

Llama-3ベース

Llama-3 2.1Bアーキテクチャをベースとしており、優れた言語理解能力を継承

軽量なデプロイ

比較的小さなモデルサイズ(2.1Bパラメータ)で、デプロイと使用が容易

モデル能力

音声認識

音声からテキストへ

リアルタイム書き起こし

多言語音声処理(推論)

使用事例

メディア制作

動画字幕生成

動画コンテンツに正確な字幕を自動生成

字幕制作効率の向上、手動書き起こし時間の削減

会議記録

会議リアルタイム書き起こし

会議の音声内容をリアルタイムで文字記録に変換

会議後の参照や議事録整理が容易

属性	详情
モデルタイプ	音声テキスト変換モデル
ベースモデル	fixie-ai/ultravox-v0_5-llama-3_2-1b
パイプラインタグ	音声テキスト変換

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Ultravox V0 5 Llama 3 2 1b GGUF

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声テキスト変換モデル

🚀 クイックスタート

📄 ライセンス