Whisper Small Ko Low Qual Voice
Whisper-smallアーキテクチャをベースに微調整された韓国語自動音声認識モデルで、韓国語音声認識タスクで優れた性能を発揮します。
ダウンロード数 211
リリース時間 : 7/2/2025
モデル概要
このモデルはWhisper-smallアーキテクチャをベースに微調整された韓国語自動音声認識モデルで、会話、ラジオ、ニュースなどの様々な韓国語音声処理シーンに適用できます。
モデル特徴
高精度な認識
韓国語音声認識タスクで優れた性能を発揮し、韓国語音声の内容を正確に文字起こしできます。
多様なシーンでの利用可能
オフラインまたはバッチでの韓国語音声データの文字起こしに使用でき、韓国語音声アシスタントシステムにも統合できます。
拡張性が高い
法律、医療、教育などの特定分野のデータセットでさらに微調整することができます。
モデル能力
韓国語音声認識
音声文字起こし
音声アシスタントへの統合
使用事例
音声文字起こし
オフライン音声文字起こし
韓国語音声データのバッチ文字起こしに使用します。
音声アシスタントへの統合
韓国語音声アシスタントシステムに統合します。
分野特定のアプリケーション
法律分野
法律分野のデータセットでさらに微調整し、法律音声の文字起こしに使用します。
医療分野
医療分野のデータセットでさらに微調整し、医療音声の文字起こしに使用します。
おすすめAIモデル
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-itの量子化バージョンで、多言語画像記述タスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
その他
Colossus Project FluxのNunchaku量子化バージョンで、テキストプロンプトに基づいて高品質な画像を生成することを目的としています。このモデルは、推論効率を最適化しながら、性能損失を最小限に抑えます。
画像生成 英語
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
これはQwen2.5-VL-7Bモデルに基づく静的量子化バージョンで、画像記述生成タスクに特化し、複数の言語をサポートしています。
画像生成テキスト
Transformers 複数言語対応

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-Instructモデルをベースに、olmOCR-mix-0225データセットで微調整した後、FP8バージョンに量子化した文書OCRモデルです。
画像生成テキスト
Transformers 英語

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128kはQwen3 - 1.7Bをベースに開発された、プロキシ型ネットワーク検索と軽量ブラウジングに特化したモデルで、モバイルデバイスでも効率的に動作します。
大規模言語モデル
Transformers 英語

L
Mungert
263
2