wav2vec2-base-10k-voxpopuliオープンソース音声認識モデル

ホーム

Wav2vec2 Base 10k Voxpopuli

facebookによって開発

VoxPopuliコーパスの1万時間の未ラベルデータで事前学習された音声認識ベースモデル、多言語音声処理をサポート

音声認識

Transformers

その他#多言語音声認識 #教師なし事前学習 #VoxPopuliコーパス

ダウンロード数 2,504

リリース時間 : 3/2/2022

モデル概要

Facebookが開発したWav2Vec2音声認識ベースモデル、自己教師あり学習により生の音声から音響特徴を抽出、多言語自動音声認識タスクに適応

モデル特徴

多言語サポート

VoxPopuli多言語コーパスで学習、複数言語の音声認識をサポート

自己教師あり事前学習

1万時間の未ラベル音声データを使用した自己教師あり学習により、効果的に音響特徴を捕捉

ファインチューニング可能なアーキテクチャ

ベースモデルアーキテクチャを提供、特定言語やドメイン向けにファインチューニング可能

モデル能力

自動音声認識

音響特徴抽出

多言語音声処理

使用事例

音声からテキストへ

会議議録の自動化

会議録音を自動的にテキスト記録に変換

字幕生成

動画コンテンツに自動的に字幕を生成

音声分析

音声コンテンツ分析

音声データからキー情報を抽出して分析

属性	詳情
モデルタイプ	事前学習済み音声認識モデル
学習データ	VoxPopuliコーパスの10k無ラベルサブセット

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Base 10k Voxpopuli

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Wav2Vec2-Base-VoxPopuli

✨ 主な機能

📚 ドキュメント

論文情報

公式サイト

🔧 技術詳細

📄 ライセンス

🚀 クイックスタート

ファインチューニング

情報一覧