低資源語言處理

# 低資源語言處理

Mbart50 Saraiki News Summarization

基於mBART-50多語言模型微調的薩拉基語新聞摘要模型，支持從薩拉基語新聞內容生成簡潔摘要

Transformers 其他

Aidman Wav2vec2 Large Xls R 300m Irish Colab

這是一個基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的語音識別模型，支持愛爾蘭語。

駱駝模型是一個基於變換器架構的文本生成模型，支持阿塞拜疆語，採用強化學習進行訓練。

大型語言模型

Transformers 其他

Whisper Fleurs Small Te In

該模型是基於OpenAI的Whisper Small在FLEURS數據集上微調的版本，專注於語音識別任務，支持泰盧固語(te)。

Transformers 其他

Mt5 Sinhala News Finetunedv3

基於Google的mT5-small模型在僧伽羅語新聞數據上微調的文本摘要模型

Transformers 其他

基於BERT架構的小規模語言模型，專為吉爾吉斯語自然語言處理應用設計。

大型語言模型

Transformers 其他

Bodo Bart Large Summ

該模型是基於facebook/bart-large在Bodo法律摘要數據集上微調的文本摘要生成模型

基於XLM-RoBERTa-large微調的烏茲別克語命名實體識別模型，支持21種實體類型識別

Transformers 其他

Whisper Base Pl

基於OpenAI Whisper-base模型在波蘭語Common Voice 17.0數據集上微調的語音識別模型

Transformers 其他

Mt5 Large HuAMR

基於google/mt5-large在匈牙利語AMR數據集上微調的抽象意義表示解析器

大型語言模型

Transformers 其他

Turkish Medical Question Answering

基於BERT架構微調的土耳其語醫療領域問答模型，專門用於從醫療文本中提取答案

Transformers 其他

Shark Finetuned Kde4 Ar En

基於Helsinki-NLP/opus-mt-ar-en在kde4數據集上微調的阿拉伯語到英語翻譯模型

Opus Mt Tc Bible Big Deu Eng Fra Por Spa Mul

支持超過100種語言的通用Transformer模型，適用於多種自然語言處理任務

大型語言模型

Transformers 支持多種語言

Romaneng2nep V3

該模型是基於google/mt5-small微調的羅馬化尼泊爾語到尼泊爾語文本的轉換模型

Transformers 支持多種語言

BnTQA-mBart 是一個基於 mBART 架構的低資源孟加拉語表格問答模型，專門用於處理孟加拉語的結構化表格數據問題回答任務。

問答系統其他

Bert Base Turkish Uncased Ner

基於dbmdz/bert-base-turkish-uncased微調的土耳其語命名實體識別模型

Transformers 其他

該模型為古希臘語和英語文本創建共享向量空間中的句子嵌入，基於改進的HLM架構並通過多語言知識蒸餾方法訓練。

Transformers 支持多種語言

Mms Tts Div Finetuned Md F02

這是一個基於Transformer架構的語音模型，支持馬爾代夫語（Dhivehi）的語音處理任務。

大型語言模型

Transformers 其他

Mt5 XLSUM Ua News

基於mT5多語言大模型在烏克蘭語新聞數據集上微調的標題生成模型，能夠為烏克蘭語新聞文章生成簡潔準確的標題。

Transformers 其他

Whisper Large V3 Telugu Romanized

基於openai/whisper-large-v3微調的羅馬化泰盧固語語音識別模型

Transformers 其他

Health Qa Myanmar Mgpt Finetune V2

這是一個基於Transformer架構的緬甸語文本生成模型，支持多種文本生成任務。

大型語言模型

Transformers 其他

Whisper Sinhala Audio To Text

基於openai/whisper-small微調的僧伽羅語語音識別模型，支持將僧伽羅語語音轉換為文本。

Urdu Emotions Whisper Medium

基於Whisper-medium微調的烏爾都語情感識別模型，在評估集上準確率達91.67%

Pak-Speech-Processing

MizBERT是基於米佐語文本語料庫預訓練的掩碼語言模型（MLM），採用BERT架構，能有效學習米佐語詞彙的上下文表徵。

大型語言模型

Whisper Small Kyrgyz

基於Whisper架構的吉爾吉斯語自動語音識別(ASR)模型，由吉爾吉斯共和國總統下屬國家語言與語言政策全國委員會支持開發

Transformers 其他

Kubert Central Kurdish BERT Model

KuBERT是基於BERT框架的中庫爾德語模型，旨在解決庫爾德語資源匱乏問題，提升計算語言學能力。

大型語言模型

Gibberish Sentence Detection Model Tr

該模型基於BERT架構微調，用於檢測土耳其語中的無意義文本（如隨機字符組合）。

Transformers 其他

English To Urdu Translation Mbart

這是一個針對英語到烏爾都語翻譯任務微調的mBART模型，基於facebook/mbart-large-50架構，在定製數據集上訓練完成。

Transformers 支持多種語言

Mt5 Small Amharic Text Summaization

基於google/mt5-small微調的阿姆哈拉語文本摘要模型，適用於新聞文章標題生成任務。

Nllb 200 3.3B Ct2 Int8

一個支持超過100種語言和文字系統的多語言處理模型，涵蓋從主流語言到多種方言和少數民族語言

大型語言模型

Transformers 支持多種語言

Mmlw Roberta Base

基於RoBERTa架構的波蘭語句子嵌入模型，專注於句子相似度計算和特徵提取任務。

Transformers 其他

Nllb Clip Base Siglip

NLLB-CLIP-SigLIP 是一個結合了NLLB模型的文本編碼器和SigLIP模型的圖像編碼器的多語言視覺語言模型，支持201種語言。

文本生成圖像

一個支持多種語言的模型，特別關注非洲、亞洲和歐洲的少數民族語言。

大型語言模型支持多種語言

SERENGETI是一個覆蓋517種非洲語言及方言的大規模多語言預訓練模型，專注於填補非洲語言技術資源匱乏的空白。

大型語言模型

Transformers 其他

M2m100 1.2B Ft Ru Kbd 63K

基於facebook/m2m100_1.2B模型在俄語-卡巴爾達語數據集上微調的翻譯模型

Transformers 其他

Sinhala Roberta Sentence Transformer

這是一個基於sentence-transformers的模型，用於將僧伽羅語句子映射到768維向量空間，支持句子相似度計算和語義搜索等任務。

Eng Nah Svo Translation

這是一個基於未知數據集從頭開始訓練的翻譯模型，支持英語到納瓦特爾語的翻譯任務。

MLEAFIT Es2ptt5

這是一個基於T5-small架構微調的西班牙語到葡萄牙語翻譯模型，在tatoeba數據集上訓練，評估BLEU得分為11.2994。

Bodo Roberta Base

這是一個基於RoBERTa架構的博多語配置模型，包含博多語的字節級BPE分詞器和RoBERTa基礎配置。

大型語言模型

Whisper Small Haitian

該模型是基於whisper-small-cv11-french微調的版本，針對海地克里奧爾語進行優化的語音識別模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase