musical_instrument_detectionオープンソースモデル - 英語音声認識に対応した楽器検出の強力ツール

ホーム

Musical Instrument Detection

dima806によって開発

wav2vec 2.0アーキテクチャに基づく音声認識ベースモデル、960時間の英語音声データで事前学習済み

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #楽器識別 #オーディオ分類 #高精度

ダウンロード数 2,109

リリース時間 : 8/25/2023

モデル概要

このモデルは音声認識ベースモデルで、wav2vec 2.0アーキテクチャを採用し、主に音声をテキストに変換するタスクに使用されます。

モデル特徴

エンドツーエンド音声認識

生のオーディオから直接音声表現を学習し、人手による特徴抽出が不要

自己教師あり事前学習

大量の未ラベル音声データを活用した事前学習で、モデルの汎化能力を向上

効率的なファインチューニング

少量のラベル付きデータでファインチューニング可能、特定の音声認識タスクに適応

モデル能力

英語音声認識

音声特徴抽出

音声からテキストへの変換

使用事例

音声技術

音声アシスタント

音声アシスタントや対話システム構築のための音声認識コンポーネント

字幕生成

オーディオ/ビデオコンテンツを自動的に文字字幕に変換

音楽分析

楽器検出

オーディオ中の楽器タイプを検出(Kaggle例示)

精度指標利用可能

属性	详情
モデルタイプ	facebook/wav2vec2-base-960h
評価指標	正解率 (accuracy)

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Musical Instrument Detection

モデル概要

モデル特徴

モデル能力

使用事例

🚀 楽器検出モデル

🚀 クイックスタート

📚 ドキュメント

📄 ライセンス