即時處理

# 即時處理

Ultravox V0 5 Llama 3 2 1b GGUF

Ultravox v0.5是基於Llama-3 2.1B架構優化的音頻文本轉文本模型，專注於高效處理語音轉寫任務。

Mediapipe Selfie Segmentation Landscape

一個基於ONNX格式的輕量級人像分割模型，專門優化用於橫向圖像中的人物與背景分離。

Vitpose Base Simple

基於ViT架構的輕量級姿態估計模型，用於人體關鍵點檢測

Coreml Sam2 Tiny

SAM 2 Tiny 是FAIR推出的圖像與視頻通用分割模型的Core ML版本，適配於移動端應用

Genrevim Music Detection DistilHuBERT

該模型是基於DistilHuBERT微調的音頻分類模型，專門用於區分音樂與非音樂音頻。

Resnet50 Facial Emotion Recognition

這是一個基於Apache-2.0許可證發佈的AI模型，具體功能需要根據實際模型類型確定

大型語言模型

KhaldiAbderrhmane

這是一個使用Apache-2.0許可證的開源模型，具體信息需補充

大型語言模型

Yolov8n Handwritten Text Detection

基於YOLOv8的目標檢測模型，專門用於檢測手寫文本內容

目標檢測其他

Trocr Base Plate Number

一個用於識別車輛牌照的視覺模型示例，能夠從圖片中提取車牌號碼。

Language Detector

基於openai/whisper-small微調的語言檢測模型，在評估集上準確率達96.47%

Tiny Random Vits

基於Apache-2.許可證的開源模型，具體功能需根據實際模型確定

大型語言模型

Ssast Audioset Librispeech 16 16

該模型用於音頻分類任務，能夠對音頻數據進行分類識別。

Ast Finetuned Speech Commands V2

基於AST架構的語音命令識別模型，專為網頁端部署優化的ONNX格式版本

Pyannote Speaker Diarization Endpoint

基於pyannote.audio 2.0版本的說話人分割模型，用於自動檢測和分割音頻中的不同說話人

說話人處理

Segformer Finetuned Lane 10k Steps

基於SegFormer架構的輕量級車道線檢測模型，在lane_master數據集上微調10,000步

Whitebox Cartoonizer

一個基於TensorFlow的SavedModel格式的白盒卡通化器模型，能夠將真實圖像轉換為卡通風格。

Whisper Small ISSAI KSC 335RS V2

基於Whisper架構的小型語音識別模型，適用於特定領域的語音轉文本任務

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

這是一個基於MIT許可證的圖像轉文本模型，能夠將圖像內容轉換為文本描述。

圖像生成文本

這是一個基於Apache-2.0許可證的開源模型，具體功能需要根據實際模型類型確定

大型語言模型

Unixcoder Base Unimodal

這是一個使用Apache-2.0許可證的開源模型，具體功能和應用領域需要進一步確認

大型語言模型

該模型是一個基於MIT許可證的開源模型，CER（字符錯誤率）為0.0019，表明其在特定任務上具有較高的準確性。

大型語言模型

Wav2vec2 Xls R Tf Left Right Trainer

基於facebook/wav2vec2-xls-r-300m微調的語音識別模型，支持左右聲道處理

基於Transformer架構的中文預訓練語言模型，適用於多種自然語言處理任務

大型語言模型

Distilhubert Ft Keyword Spotting

基於DistilHuBERT架構的關鍵詞識別模型，在superb數據集上微調，準確率達97.06%

Speaker Diarization

基於pyannote.audio 2.1.1版本的說話人分割模型，用於自動檢測音頻中的說話人變化和重疊語音

說話人處理

Minylm L3 Aug Sst2 Distilled

這是一個性能表現良好的模型，測試準確率達到91.17%，測試損失為0.241。

Distil Wav2vec2 Adult Child Cls 37m

基於wav2vec 2.0架構的音頻分類模型，用於區分成人和兒童語音

Transformers 英語

Xlm Roberta Base Finetuned Somali

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase