exp_w2v2t_ja_xlsr - 53_s109オープンソースの日本語自動音声認識モデル

ホーム

Exp W2v2t Ja Xlsr 53 S109

jonatasgrosmanによって開発

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした日本語自動音声認識モデル、Common Voice 7.0日本語データセットで学習

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #XLSR-53ファインチューニング #16kHzサンプリングレート

ダウンロード数 20

リリース時間 : 7/8/2022

モデル概要

このモデルは日本語に最適化された自動音声認識(ASR)モデルで、日本語音声をテキストに変換できます。XLSR-53アーキテクチャに基づき、16kHzサンプリングレートの音声入力に対応しています。

モデル特徴

日本語最適化

日本語音声認識に特化してファインチューニングされており、日本語音声からテキストへの変換タスクで良好な性能を発揮

XLSR-53ベース

強力なwav2vec2-large-xlsr-53アーキテクチャを基盤としており、優れた音声特徴抽出能力を有する

16kHz対応

16kHzサンプリングレートの音声入力をサポートし、ほとんどの音声アプリケーションシナリオに適用可能

モデル能力

日本語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

日本語会議議事録

日本語会議録音を自動的に文字記録に変換

議事録作成効率を向上させ、後続の検索や分析を容易にする

日本語字幕生成

日本語動画コンテンツに自動的に字幕を生成

字幕制作コストを削減し、動画のアクセシビリティを向上

音声アシスタント

日本語音声コマンド認識

日本語音声アシスタントのコマンド認識システムに使用

日本語音声インタラクション体験を向上

属性	详情
モデルタイプ	自動音声認識
トレーニングデータ	mozilla-foundation/common_voice_7_0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Exp W2v2t Ja Xlsr 53 S109

モデル概要

モデル特徴

モデル能力

使用事例

🚀 exp_w2v2t_ja_xlsr-53_s109

🚀 クイックスタート

📄 ライセンス