低資源語言模型

# 低資源語言模型

Yugogpt Florida Q4 0.GGUF

YugoGPT-Florida 是一個基於塞爾維亞語的大語言模型，專注於文本生成任務。

大型語言模型其他

這是一個基於spaCy框架的俄語專利命名實體識別模型，專注於識別專利文本中的特定實體類型。

序列標註其他

Labess 7b Chat 16bit

Labess-7b-chat 是一個針對突尼斯方言（Derja）進行指令調優的開源模型，基於 jais-adapted-7b-chat 模型，使用突尼斯方言數據集進行持續預訓練。

大型語言模型

Transformers 阿拉伯語

Qwen2.5 1.5B TrSummarization Unsloth GGUF

基於Qwen2.5-1.5B模型微調的4位量化版本，專注於土耳其語文本生成和摘要任務

大型語言模型其他

Llama3.2 3b TrSummarization Unsloth GGUF

基於unsloth/Llama-3.2-3B-bnb-4bit微調的土耳其語文本生成模型，專注於摘要生成任務。

大型語言模型其他

基於21位庫爾德詩人的6116首詩歌訓練而成的詩歌生成模型

大型語言模型

Transformers 其他

Latxa是基於LLaMA-2架構的巴斯克語大語言模型，專為低資源語言設計，在42億token的巴斯克語料庫上訓練

大型語言模型

Transformers 支持多種語言

緬甸語-伯特是一個基於bert-large-uncased的雙語掩碼語言模型，支持英語和緬甸語。

大型語言模型

Transformers 支持多種語言

Taigi Llama 2 Translator 7B

基於臺語-Llama-2系列模型構建，專注於臺灣閩南語與繁體中文、英語之間的翻譯任務。

由Wai Yan博士開發的緬甸語大型語言模型，基於GPT-2架構微調，專注於緬甸語文本補全任務。

大型語言模型

Transformers 其他

Mistral 7b Yo Instruct

一個專注於約魯巴語文本生成的模型，基於多個數據集微調而成。

大型語言模型

Transformers 其他

基於GPT-2架構的波斯語文本生成模型，移植至Hezar框架以確保兼容性

大型語言模型其他

TwiBERT是一款專為加納及西非地區廣泛使用的特威語設計的預訓練語言模型

大型語言模型

Transformers 其他

MyanBERTa是基於BERT架構的緬甸語預訓練語言模型，在包含5,992,299個句子的緬甸語數據集上進行了預訓練。

大型語言模型

Transformers 其他

Wangchanberta Base Att Spm Uncased Tagging

基於airesearch/wangchanberta-base-att-spm-uncased微調的模型，具體用途未明確說明

大型語言模型

Wav2vec2 Large Xls R 300m Kinyarwanda

基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的盧旺達語語音識別模型

English Filipino Wav2vec2 L Xls R Test 02

這是一個基於wav2vec2-large-xlsr-53-english模型在菲律賓語音數據集上微調的語音識別模型，支持英語和菲律賓語的語音轉文本任務。

基於facebook/wav2vec2-xls-r-300m在卡克奇克爾語音頻數據上微調的語音識別模型

Transformers 其他

Wav2vec2 Large Xls R 300m Guarani Small Wb

該模型是基於wav2vec2-large-xls-r-300m架構，在瓜拉尼語(Guarani)語音數據集上微調的自動語音識別(ASR)模型。

Wav2vec2 Xlsr Nepali

該模型是基於facebook/wav2vec2-large-xlsr-53在尼泊爾語數據集上微調的語音識別模型。

Gpt2 Small Arabic

基於gpt2-small架構訓練的阿拉伯語維基百科數據集GPT2模型，適用於文本生成任務。

大型語言模型阿拉伯語

Gpt2 Small Arabic Poetry

基於gpt2-small-arabic微調的阿拉伯詩歌生成模型，訓練數據包含4萬首不同時期的阿拉伯詩歌

大型語言模型阿拉伯語

Gpt2 Small Indonesia Fine Tuning Poem

這是一個基於印尼語GPT-2小模型微調的詩歌生成模型，專門用於生成印尼語詩歌。

大型語言模型

Transformers 其他

Xlm Roberta Base Finetuned Ner Wolof

針對沃洛夫語進行命名實體識別(NER)任務的標記分類模型，基於xlm-roberta-base在MasakhaNER數據集（沃洛夫語部分）上微調而成

Transformers 其他

Xlm Roberta Base Finetuned Swahili Finetuned Ner Swahili

該模型是在MasakhaNER數據集（斯瓦希里語部分）上微調的命名實體識別模型，適用於斯瓦希里語文本中的實體識別任務。

Transformers 其他

Sundanese Roberta Base

基於RoBERTa架構的巽他語掩碼語言模型，在多個數據集上訓練而成。

大型語言模型其他

Wav2vec2 Xls R 300m Gn Cv8

這是一個基於facebook/wav2vec2-xls-r-300m模型在Common Voice 8數據集上微調的自動語音識別(ASR)模型，支持瓜拉尼語(gn)。

Transformers 其他

這是一個基於OSCAR僧伽羅語去重數據集訓練的稍小模型，為低資源僧伽羅語提供基礎支持。

大型語言模型其他

這是一個基於MC4僧伽羅語數據集訓練的小型GPT2模型，適用於僧伽羅語文本生成任務。

大型語言模型其他

Indo Roberta Small

印尼小型RoBERTa是基於RoBERTa模型的掩碼語言模型，專門針對印尼語進行訓練，適用於文本填充和特徵提取任務。

大型語言模型其他

Xlm Roberta Base Finetuned Amharic Finetuned Ner Swahili

這是一個標記分類模型（具體為命名實體識別），在阿姆哈拉語微調的XLM-RoBERTa基礎模型基礎上，針對MasakhaNER數據集的斯瓦希里語部分進行了二次微調。

Transformers 其他

Gpt2 Turkish Cased

針對土耳其語文本訓練的GPT-2模型，可作為文本生成任務的起點

大型語言模型其他

基於FHNW v1瑞士議會數據集微調的瑞士德語語音識別模型

Transformers 其他

這是一個針對提格里尼亞語預訓練的BERT基礎模型，在4000萬詞符的數據集上進行了40輪預訓練。

大型語言模型其他

Electra Tagalog Small Uncased Generator

這是一個用於生成合成文本並預訓練判別器的ELECTRA模型，專門針對菲律賓語設計。

大型語言模型

Transformers 其他

Xlm Roberta Base Finetuned Wolof Finetuned Ner Swahili

這是一個基於xlm-roberta-base-finetuned-wolof預訓練模型，在馬薩卡納NER數據集斯瓦希里語部分進行微調的命名實體識別模型。

Transformers 其他

基於RoBERTa架構的南克丘亞語（科拉奧和昌卡方言）預訓練模型，使用500萬token訓練

大型語言模型

Transformers 其他

Mt5 Base Yoruba Adr

基於mT5-base微調的約魯巴語自動音調恢復模型，在JW300和Menyo-20k數據集上訓練

Wav2vec2 Large Xls R 300m Guarani Colab

基於facebook/wav2vec2-xls-r-300m在瓜拉尼語數據集上微調的語音識別模型

基於BERT架構預訓練的孟加拉語語言模型，支持掩碼語言建模任務

大型語言模型

Transformers 其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase