多階段訓練

# 多階段訓練

OLMo 2 1B是艾倫人工智能研究所推出的開放語言模型系列中最小的模型，基於OLMo-mix-1124預訓練，並在中期訓練階段使用Dolmino-mix-1124數據集。

大型語言模型

Transformers 英語

Olmo 2 0325 32B

OLMo 2 32B是艾倫人工智能研究院(AI2)推出的開放語言模型系列中規模最大的32B參數模型，基於Apache 2.0許可開源，支持英語語言處理。

大型語言模型

Transformers 英語

Deberta V3 Large Lemon Spell 5k

基於DeBERTa-v3-large微調的英語語法糾錯模型，專注於檢測和修正常見語法錯誤

Transformers 支持多種語言

Mistral 7B Instruct Ukrainian

針對烏克蘭語優化的開源大語言模型，通過三階段訓練流程構建，包括微調、模型融合和直接偏好優化

大型語言模型

SherlockAssistant

這是一個基於sentence-transformers的希伯來語嵌入模型，能將句子和段落映射到768維的密集向量空間，適用於聚類或語義搜索等任務。

Transformers 其他

Pegasus Indian Legal

該模型是基於legal-pegasus在印度法律數據集上微調的法律文本摘要模型

大型語言模型

Colossal LLaMA 2 7b Base

基於LLaMA-2的中英雙語開源大語言模型，經過約85億token的持續預訓練，支持4096 token的上下文窗口。

大型語言模型

Transformers 支持多種語言

Klue Sroberta Base Continue Learning By Mnr

這是一個基於KLUE/NLI和KLUE/STS數據集訓練的韓語句子嵌入模型，採用sentence-transformers框架，通過兩階段訓練優化句子相似度任務。

Transformers 韓語

Indobert Base P1

IndoBERT是基於BERT模型的印尼語先進語言模型，採用掩碼語言建模（MLM）和下一句預測（NSP）目標進行訓練。

大型語言模型其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase