wav2vec2-large-960h-lv60-self_MIDIARIES_72H_FTオープンソース音声認識モデル

ホーム

Wav2vec2 Large 960h Lv60 Self MIDIARIES 72H FT

caurdyによって開発

Facebookが事前学習したwav2vec2 large 960H lv60自己教師ありモデルを基に、72時間のMI日記データで微調整した音声認識モデル

音声認識

Transformers

#音声認識最適化 #医療日誌転写 #微調整による誤り率低減

ダウンロード数 20

リリース時間 : 4/21/2022

モデル概要

このモデルは医療面接シーンに特化して最適化された音声認識モデルで、微調整により医療対話シーンでの認識精度が大幅に向上しました

モデル特徴

医療シーン最適化

72時間の医療面接データで微調整されており、医療対話シーンに特に適しています

性能向上

20分間のMI日記テストセットで、単語誤り率が13%から9.7%に低下

成熟したアーキテクチャ採用

Facebookが事前学習したwav2vec2 large 960H lv60自己教師ありモデルを基にしています

モデル能力

英語音声認識

医療対話転写

自動音声テキスト変換

使用事例

医療健康

医療面接記録

医師と患者間の対話を自動転写

単語誤り率が9.7%に低下

医療文書生成

医療面接録音を自動的に構造化文書に変換

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large 960h Lv60 Self MIDIARIES 72H FT

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ファインチューニング済みwav2vec2 large 960H lv60 self

🚀 クイックスタート

モデルの読み込み

📄 ライセンス