Model Selection

Real-time Audio Processing

# Real-time Audio Processing

Parakeet Tdt Ctc 0.6b Ja

This model is a Japanese automatic speech recognition (ASR) model based on the FastConformer architecture, developed by NVIDIA and converted to MLX format.

Speech Recognition

Distilhubert Finetuned Gtzan

An audio classification model fine-tuned on the GTZAN music classification dataset based on DistilHuBERT, achieving 83% accuracy

Audio Classification

Whisper Large V3 Gguf

Whisper is a multilingual automatic speech recognition (ASR) system that supports speech-to-text tasks in multiple languages.

Speech Recognition Supports Multiple Languages

Faster Whisper Large V3 Ja

Japanese-optimized version based on OpenAI Whisper large-v3, supporting multilingual speech recognition

Speech Recognition Supports Multiple Languages

Sonic48k is an audio-to-audio model based on RVC (Retrieval-based Voice Conversion) technology, primarily used for voice conversion tasks.

Speech Synthesis

Luffysan2333333

This is an RVC (Retrieval-Based Voice Conversion) model designed for audio-to-audio tasks, capable of performing voice conversion.

Speech Synthesis

This is a voice conversion model based on RVC (Retrieval-based Voice Conversion) technology, capable of transforming input audio into speech with a specific style.

Speech Synthesis

Homersimpson2333333

This is a voice conversion model based on RVC (Retrieval-Based Voice Conversion) technology, capable of transforming input audio into the voice style of Homer Simpson.

Speech Synthesis

Edsheeran2333333

This is a voice conversion model based on RVC (Retrieval-based Voice Conversion) technology, capable of transforming input audio into speech with a specific style.

Speech Synthesis

This is a voice conversion model based on RVC (Retrieval-Based Voice Conversion) technology, capable of transforming input audio into the voice of Vegeta (a character from 'Dragon Ball').

Speech Synthesis

Chicken V2 E250 S3750

This is an RVC (Retrieval-based Voice Conversion) model designed for audio-to-audio tasks, capable of voice transformation.

Speech Synthesis

This is an RVC (Retrieval-Based Voice Conversion) model designed for audio-to-audio conversion tasks.

Speech Synthesis

Distilhubert Finetuned Gtzan

This is an audio classification model fine-tuned on the GTZAN music classification dataset based on DistilHuBERT, achieving an accuracy of 82%

Audio Classification

Wav2vec2 Keyword Spotting Int8

A speech keyword detection model based on the wav2vec2 architecture, optimized with Optimum OpenVINO quantization

Speech Recognition

Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw

A speech enhancement model trained based on the ESPnet framework, using the chime4 dataset, suitable for single-channel speech enhancement tasks.

Audio Enhancement

Wav2vec2 Large Xlsr 53 Italian

Large-scale Italian automatic speech recognition model based on the Wav2Vec2 architecture, fine-tuned on the Common Voice dataset, released by Facebook

Speech Recognition Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase