低資源NLP

# 低資源NLP

Neurobert Mini GGUF

基於boltuix/NeuroBERT-Mini的靜態量化版本，專為邊緣設備優化的微型BERT模型

大型語言模型

Simplestories 30M

SimpleStories 是一個為可解釋性研究設計的微型模型家族，基於 SimpleStories 數據集訓練而成，專注於故事生成任務。

文本生成英語

Fewshot Xsum Bart

基於BART-large的小樣本摘要生成模型，使用XSUM數據集的100個樣本訓練，展示小樣本學習在摘要任務中的潛力。

Tweety 7b Tatar V24a

針對韃靼語開發的跨詞元大語言模型，基於Mistral-7B-Instruct-v0.2轉換而來

大型語言模型

Transformers 其他

Tiroberta Abusiveness Detection

基於TiRoBERTa微調的提格里尼亞語侮辱性內容檢測模型，在13,717條YouTube評論數據集上訓練

Website Classification

基於DistilBERT的網站分類模型，通過微調在未知數據集上實現了95.04%的準確率。

Afrolm Active Learning

AfroLM是一個針對23種非洲語言優化的預訓練語言模型，採用自主動學習框架，使用少量數據實現高性能

大型語言模型

Transformers 其他

Banglabert Finetuned Squad

該模型是在孟加拉語SQuAD數據集上對BanglaBERT進行微調的版本，用於問答任務

Albert Large V2 Finetuned Rte

該模型是基於ALBERT-large-v2在GLUE RTE任務上微調的文本分類模型，用於識別文本蘊含關係。

Tiny Roberta Indonesia

這是一個基於印尼語的小型RoBERTa模型，專門針對印尼語文本處理任務進行了優化。

大型語言模型

Transformers 其他

IndicBART是一個專注於印度語言和英語的多語言序列到序列預訓練模型，支持11種印度語言，基於mBART架構構建。

大型語言模型

Transformers 其他

Roberta Base 100M 1

基於1B詞元規模預訓練的RoBERTa基礎模型，驗證困惑度為3.93，適用於英語文本處理任務。

大型語言模型

Roberta Base 100M 3

在1M至1B詞元規模數據集上預訓練的RoBERTa變體，包含BASE和MED-SMALL兩種規格，適用於資源有限場景下的自然語言處理任務

大型語言模型

Electra Large Generator

ELECTRA是一種高效的自監督語言表示學習方法，通過判別式預訓練替代傳統生成式預訓練，顯著提升計算效率。

大型語言模型英語

Roberta Base 10M 1

基於不同規模數據集(1M-1B詞元)預訓練的RoBERTa系列模型，包含BASE和MED-SMALL兩種規格

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase