wav2vec2-large-nonverbalvocalization-classificationオープンソースモデル - 多言語で16種類の一般的な非言語音声を識別

ホーム

Wav2vec2 Large Nonverbalvocalization Classification

padmalcomによって開発

wav2vec2アーキテクチャに基づく多言語非言語発声分類モデル、16種類の一般的な非言語音声を識別可能

音声分類

Transformers

その他オープンソースライセンス:Apache-2.0 #非言語音声分類 #多言語音声認識 #高精度発声検出

ダウンロード数 568

リリース時間 : 1/9/2023

モデル概要

このモデルは咳、あくび、ため息などの非言語発声を分類するために特別に設計されており、音声分析シナリオに適しています

モデル特徴

多言語サポート

モデルは特定の言語に依存せず、様々な言語環境での非言語発声を処理可能

幅広い音声カテゴリ

16種類の一般的な非言語発声の分類をサポートし、日常生活の様々な音声をカバー

wav2vec2アーキテクチャ採用

先進的なwav2vec2-largeアーキテクチャを活用し、高品質な音声特徴抽出と分類能力を提供

モデル能力

非言語音声認識

音声分類

多言語音声処理

使用事例

健康モニタリング

睡眠品質分析

歯ぎしり、あくびなどの音声を検出して睡眠品質を評価

呼吸健康モニタリング

咳、喘鳴などの音声を識別し呼吸健康評価を支援

感情分析

感情状態識別

ため息、泣き声などの音声を通じてユーザーの感情状態を分析

スマートホーム

環境音認識

家庭環境内の様々な非言語音声を識別しスマート制御を実現

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Nonverbalvocalization Classification

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声分類モデル (wav2vec2)

🚀 クイックスタート

📄 ライセンス