高精度識別

# 高精度識別

Korean PP OCRv3 Mobile Rec

超輕量級韓語文本行識別模型，支持韓語和數字字符識別，平均準確率60.21%。

文字識別支持多種語言

Latin PP OCRv3 Mobile Rec

PaddleOCR團隊開發的超輕量級拉丁語文本行識別模型，支持拉丁語和數字字符識別。

文字識別支持多種語言

Arabic PP OCRv3 Mobile Rec

PaddleOCR團隊開發的超輕量級阿拉伯字母識別模型，支持阿拉伯字母和數字字符識別。

文字識別支持多種語言

Hicode R1 Distill Gemma 12B Q8.GGUF

一個基於Apache-2.0許可的圖像文本轉文本模型，能夠從圖像中提取文本信息並轉換為可編輯的文本格式。

圖像生成文本

Medai Resnet50 Brain

ResNet-50 是一個深度殘差網絡，由微軟研究院開發，廣泛用於圖像分類任務。

Roberta Base Ai Text Detection V1

基於RoBERTa-base微調的模型，用於檢測AI生成的英文文本。

Transformers 英語

Bert Large Uncased Merged

這是一個用於釣魚攻擊檢測的數據集，主要用於訓練BERT模型識別釣魚網站。

Transformers 英語

Nicpras Finetuned Yolo

這是一個基於YOLOv3架構進行微調的目標檢測模型，專為特定場景下的目標識別任務優化

YOLOv8 是 Ultralytics 開發的一個高效的目標檢測模型，基於 YOLO (You Only Look Once) 架構，適用於即時目標檢測任務。

Transformers 英語

Plant Identification Vit

基於Google Vision Transformer (ViT)架構微調的植物識別模型，在評估集上達到80.96%的準確率

Videomae Large Finetuned Deepfake Subset

基於MCG-NJU/videomae-large模型在深度偽造檢測挑戰賽數據集上微調的版本，用於視頻深度偽造檢測。

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

基於Wav2Vec2 Large XLSR-53模型微調的語音情感識別系統，能夠識別7種常見情感

基於Keras 3.x訓練的惡意SQL檢測模型，能識別多種SQL注入攻擊向量

文本分類英語

Detr Face Detection

一個基於creativeml-openrail-m許可證的人臉檢測模型，支持英文語言，主要用於目標檢測任務。

Transformers 英語

YOLOv10是一種即時目標檢測模型，通過消除非極大值抑制（NMS）等後處理步驟，實現了高效且無額外開銷的目標檢測。

YOLOv10是一種即時端到端目標檢測模型，具有高效的推理速度和較高的檢測精度。

YOLOv10是一種即時端到端目標檢測模型，具有高效的延遲-精度和尺寸-精度權衡。

YOLOv10是即時端到端目標檢測模型，提供高效的檢測性能和精度平衡。

YOLOv10是清華大學MIG實驗室開發的高效即時目標檢測模型，提供端到端檢測能力。

Trocr Base Finetune Numbers

TrOCR 是一個基於Transformer的光學字符識別模型，用於從圖像中提取文本內容。

圖像生成文本

Transformers 英語

Trocr Base Plate Number

一個用於識別車輛牌照的視覺模型示例，能夠從圖片中提取車牌號碼。

MAGE是一個用於檢測開放環境下機器生成文本的模型，旨在識別由AI生成的文本內容。

大型語言模型

Xlm Roberta Base Language Detection ONNX

基於XLM-RoBERTa的多語言檢測模型，能夠識別文本的語言類別。

Donut Cn Invoice

一個專注於中文發票識別的AI模型，能夠準確提取發票中的關鍵信息。

大型語言模型

Transformers 中文

SMS Spam Detection BertForSequenceClassification

使用BERT進行微調的短信分類模型，用於區分垃圾信息和非垃圾信息。

Transformers 英語

Convnextv2 Large DogBreed

該模型是基於facebook/convnextv2-large-22k-224在狗品種分類數據集上微調的版本，在評估集上準確率達到91.39%。

Trocr Base Fa V2

這是一個基於Transformer的OCR模型，專門用於識別波斯語文本圖像。

文字識別其他

Fashion Images Gender Age Vit Large Patch16 224 In21k V3

該模型是基於Google的ViT-Large架構在時尚圖像性別年齡分類數據集上微調的視覺Transformer模型，在評估集上取得了99.6%的準確率。

Image2ingredients

一個能夠將圖像內容轉換為文本描述的模型，適用於多種視覺理解任務。

圖像生成文本

Plant Vit Model 1

基於ViT架構的植物圖像分類模型，在未知數據集上微調後達到99.95%的驗證準確率

Detr Resnet 101

基於Transformer架構的端到端目標檢測模型，結合ResNet-101特徵提取器

一個用於葉片狀態分類的視覺模型，能夠準確識別和分析植物葉片的健康狀況。

My Awesome Food Model

基於Google的ViT模型在food101數據集上微調的食品分類模型

基於Google Vision Transformer (ViT)架構的食品圖像分類模型，在Food101數據集上微調，準確率達90.9%

Microsoft Resnet 50 Cartoon Face Recognition

基於microsoft/resnet-50微調的卡通人臉識別模型，在圖像分類任務上表現良好。

My Awesome Food Model

基於ViT架構的食品圖像分類模型，在Food101數據集上微調，準確率達89.7%

Convnext Tiny 224 Finetuned Eurosat Vitconfig Test

該模型是基於圖像文件夾數據集對ConvNeXt-Tiny進行微調的版本，適用於圖像分類任務。

Vit Base Highways 2

基於google/vit-base-patch16-224-in21k微調的視覺Transformer模型，在未知數據集上達到70%準確率

Autotrain Dogs And Cats 1527055142

使用AutoTrain訓練的二元分類模型，能夠準確區分貓和狗的圖片

Wav2vec2 Base 960h Finetuned Deepfake

基於facebook/wav2vec2-base-960h在asvspoof2019數據集上微調的語音深度偽造檢測模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase