AudioSangrahaオープンソース音声文字変換モデル - 無料で音声翻訳とテキスト生成をサポート

ホーム

Audiosangraha Audio To Text

AqeelShafy7によって開発

openai/whisper-smallをファインチューニングした音声からテキストへの変換モデルで、音声翻訳とテキスト生成タスクをサポートします。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声からテキストへの変換 #多言語翻訳 #低リソース最適化

ダウンロード数 224

リリース時間 : 2/1/2024

モデル概要

このモデルは、特定のデータセットでopenai/whisper-smallをファインチューニングしたバージョンで、主に音声からテキストへの変換タスクに使用されます。

モデル特徴

効率的な音声処理

Whisper-smallアーキテクチャを基に最適化され、音声からテキストへの変換タスクを効率的に処理できます

ファインチューニング最適化

特定のデータセットでファインチューニングされており、特定の分野でより良い性能を発揮する可能性があります

マルチタスクサポート

翻訳とテキスト生成タスクを同時にサポートします

モデル能力

音声認識

音声翻訳

テキスト生成

使用事例

音声文字起こし

会議議事録の文字起こし

会議の録音を自動的に文字記録に変換します

ポッドキャストコンテンツの文字起こし

ポッドキャストの音声コンテンツを原稿に変換します

翻訳サービス

多言語音声翻訳

外国語の音声コンテンツを対象言語のテキストに翻訳します

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.1036	3.91	1000	0.2257	55.1779
0.007	7.81	2000	0.3071	52.3227

属性	详情
モデルタイプ	オーディオからテキストへの変換モデル
学習データ	Noneデータセット

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Audiosangraha Audio To Text

モデル概要

モデル特徴

モデル能力

使用事例

🚀 AudioSangraha-Audio_to_Text

📚 ドキュメント

モデルの概要

想定される用途と制限事項

学習と評価データ

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス