維基百科訓練

# 維基百科訓練

Yugogpt Florida Q8 0 GGUF

YugoGPT-Florida 是一個基於塞爾維亞語的大語言模型，在多個評測基準中表現優異。

大型語言模型其他

一個僅含1600萬參數的小型語言模型，主要用於調試和測試，支持英文和日文。

大型語言模型

Transformers 支持多種語言

Simcse Model XLMR

基於XLM-R的sentence-transformers模型，使用SimCSE方法訓練，可將句子和段落映射到768維密集向量空間，適用於聚類或語義搜索等任務。

Simcse Model Phayathaibert

這是一個基於sentence-transformers的模型，能將句子和段落映射到768維的密集向量空間，適用於聚類或語義搜索等任務。

Simcse Model M Bert Thai Cased

基於mBERT的SimCSE模型，專門針對泰語進行訓練，用於生成句子和段落的768維向量表示

Minilm L6 H384 Italian Cross Encoder

基於MiniLMv2架構的意大利語文本排序模型，通過修改嵌入層針對意大利語優化

文本嵌入其他

Gpt2 Turkish 900m

基於GPT-2架構的土耳其語大語言模型，專為土耳其語文本生成任務設計

大型語言模型

Transformers 其他

這是一個類似LLaMA的小型語言模型，包含6800萬參數，主要用於SpecInfer論文中的推測推理研究。

大型語言模型

Transformers 英語

這是一個僅包含1.6億參數的類LLaMA模型，訓練數據來源於維基百科及部分C4-en和C4-realnewslike數據集。

大型語言模型

Transformers 英語

Abstract Sim Query

一個將抽象句子描述映射到符合描述的句子的模型，基於維基百科訓練，採用雙編碼器架構。

Transformers 英語

Abstract Sim Sentence

一個將抽象句子描述映射到符合描述的句子的模型，基於維基百科訓練，採用雙編碼器架構。

Transformers 英語

Sbert Large Cased Pl

SHerbert large是基於波蘭語HerBERT改進的SentenceBERT模型，用於生成具有語義意義的句子嵌入，並通過餘弦相似度進行比較。

文本嵌入其他

Rust Cl Tohoku Bert Large Japanese

這是將東北大學的BERT large Japanese模型轉換為可在Rust中使用的格式的版本

大型語言模型日語

Multilingual Bert Gn Base Cased

基於多語言BERT基礎模型針對瓜拉尼語進行微調的語言模型，支持104種語言及瓜拉尼語

大型語言模型

Transformers 其他

基於BERT架構的韓語預訓練語言模型，適用於韓語文本處理任務。

大型語言模型

Transformers 韓語

Bert Base Multilingual Cased Finetuned Dutch Squad2

基於谷歌多語言BERT模型微調的荷蘭語問答模型，在翻譯版SQuAD2.0數據集上訓練

問答系統其他

Bert Base Mongolian Cased

這是一個預訓練的蒙古語BERT模型，基於蒙古語維基百科和新聞數據集訓練，支持蒙古語文本處理任務。

大型語言模型其他

Nordic Roberta Wiki

基於瑞典語、丹麥語和挪威語維基百科訓練的北歐RoBERTa模型，適用於填充掩碼任務。

大型語言模型其他

Simcse Model Distil M Bert

基於m-Distil-BERT的句子轉換器模型，採用SimCSE方法訓練，可將文本映射為768維向量，適用於語義搜索和聚類任務

Simcse Model M Bert Thai Cased

基於mBERT的泰語句子嵌入模型，使用SimCSE方法在泰語維基百科數據上訓練，可將文本映射為768維向量

Albert Base Japanese V1

這是一個預訓練的日語ALBERT模型，主要用於填充掩碼任務，支持日語文本處理。

大型語言模型

Transformers 日語

基於Flax CLM流水線訓練的丹麥語GPT2風格模型，使用wiki40b數據集的丹麥語部分訓練而成。

大型語言模型其他

Indo Roberta Small

印尼小型RoBERTa是基於RoBERTa模型的掩碼語言模型，專門針對印尼語進行訓練，適用於文本填充和特徵提取任務。

大型語言模型其他

這是一個基於Flax CLM流程訓練的瑞典語GPT2風格模型，訓練數據來自wiki40b數據集的瑞典語部分。

大型語言模型其他

基於ELECTRA框架訓練的泰米爾語預訓練模型，第二版採用TPU訓練並擴大語料庫規模

大型語言模型

Transformers 其他

Bertinho Gl Small Cased

一個為加利西亞語預訓練的BERT模型（6層，區分大小寫）。基於維基百科訓練。

大型語言模型其他

Distilbert Base Ur Cased

這是distilbert-base-multilingual-cased的輕量版本，專門針對烏爾都語進行了優化，保持了原始模型的準確性。

大型語言模型

Transformers 其他

Bert Base En Ja Cased

基於bert-base-multilingual-cased定製的精簡版本，專注於英語和日語處理，保持原始模型的表徵能力。

大型語言模型其他

Distilbert Base Th Cased

基於多語言蒸餾式BERT基礎模型定製的泰語版本，保留了原始模型的準確度和特徵表示能力。

大型語言模型

Transformers 其他

Distilbert Base En No Cased

這是distilbert-base-multilingual-cased的輕量版本，專門針對英語和挪威語優化，保持原始準確率的同時減少模型大小。

大型語言模型

Transformers 其他

Distilbert Base Ru Cased

這是多語言蒸餾式BERT基礎模型（大小寫敏感）的精簡版本，專門針對俄語優化，能生成與原模型完全一致的語義表示，保持原始準確率。

大型語言模型

Transformers 其他

Bert Base En Uk Cased

這是bert-base-multilingual-cased的定製化精簡版本，專門支持英語和烏克蘭語處理，保持原始模型的表徵輸出和準確度。

大型語言模型其他

Distilbert Base En Vi Cased

這是distilbert-base-multilingual-cased的小型版本，專門處理英語和越南語，保持了原始模型的準確性。

大型語言模型

Transformers 其他

Distilbert Base It Cased

這是distilbert-base-multilingual-cased的定製化精簡版本，專門針對意大利語優化，保持原始準確率不變。

大型語言模型

Transformers 其他

Bert Base Ur Cased

這是bert-base-multilingual-cased的定製化精簡版本，專門支持烏爾都語處理，保持原始模型的準確率。

大型語言模型其他

Bert Base De Cased

基於維基百科數據集訓練的多語言BERT精簡版本，專門針對德語優化，保持原始模型的表徵輸出和準確率。

大型語言模型德語

Bert Base En Th Cased

基於bert-base-multilingual-cased定製的精簡語言版本模型，支持英語和泰語，保持原始模型的表徵輸出和準確率。

大型語言模型其他

Bert Base En Nl Cased

基於bert-base-multilingual-cased定製的精簡版本，支持英語和荷蘭語處理，保持原始模型準確率

大型語言模型其他

Bert Base En Da Cased

這是bert-base-multilingual-cased的定製化精簡版本，專門處理英語和丹麥語，保持原始模型的表徵能力。

大型語言模型其他

Bert Base Zh Cased

基於bert-base-multilingual-cased定製的精簡中文BERT模型，支持中文處理並保持原始準確率

大型語言模型中文

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase