exp_w2v2t_ja_vp-it_s544オープンソースの日本語音声認識モデル

ホーム

Exp W2v2t Ja Vp It S544

jonatasgrosmanによって開発

facebook/wav2vec2-large-it-voxpopuliモデルをベースに、Common Voice 7.0（日本語版）のトレーニングセットを使用して音声認識のファインチューニングを行った日本語自動音声認識モデルです。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #16kHzサンプリングレート #Common Voiceファインチューニング

ダウンロード数 18

リリース時間 : 7/8/2022

モデル概要

このモデルは日本語自動音声認識（ASR）モデルで、日本語音声に特化して最適化されており、日本語音声をテキストに変換するタスクに適しています。

モデル特徴

日本語音声認識

日本語音声に特化して最適化された自動音声認識モデル

wav2vec2アーキテクチャベース

facebookのwav2vec2-large-it-voxpopuliアーキテクチャを使用してファインチューニング

16kHzサンプリングレート対応

最適な結果を得るためには入力音声のサンプリングレートが16kHzである必要があります

モデル能力

日本語音声認識

音声からテキストへの変換

使用事例

音声文字起こし

日本語会議議事録

日本語の会議録音を自動的に文字記録に変換

日本語音声メモ

日本語の音声メモを検索可能なテキストに変換

支援技術

日本語音声操作

日本語ユーザー向けの音声操作インターフェースを提供

属性	详情
モデルタイプ	ファインチューニングされた音声認識モデル
トレーニングデータ	Common Voice 7.0 (ja)

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Exp W2v2t Ja Vp It S544

モデル概要

モデル特徴

モデル能力

使用事例

🚀 exp_w2v2t_ja_vp-it_s544

🚀 クイックスタート

📄 ライセンス