fairseq-dense-6.7B開源語言模型 - 可免費便捷應用於文本處理等場景

Fairseq Dense 6.7B

由KoboldAI開發

這是Artetxe等人論文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67億參數模型的Hugging Face transformers適配版本。

大型語言模型

Transformers

英語#大規模語言模型 #67億參數 #開放評測基準

下載量 123

發布時間 : 3/2/2022

模型概述

一個67億參數規模的大語言模型，基於Mixtures of Experts架構實現高效的大規模語言建模。

模型特點

大規模參數

具有67億參數規模，能夠處理複雜的語言建模任務

高效架構

採用Mixtures of Experts架構，實現高效的大規模語言建模

Hugging Face適配

已適配Hugging Face transformers框架，便於使用

模型能力

文本生成

語言理解

上下文學習

使用案例

自然語言處理

開放大語言模型評估

在開放大語言模型排行榜上進行綜合評估

綜合平均得分36.09

指標	數值
平均值	36.09
ARC (25-shot)	39.42
HellaSwag (10-shot)	71.26
MMLU (5-shot)	26.91
TruthfulQA (0-shot)	32.73
Winogrande (5-shot)	65.27
GSM8K (5-shot)	0.0
DROP (3-shot)	17.05

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Fairseq Dense 6.7B

模型概述

模型特點

模型能力

使用案例

🚀 原始密集67億參數模型轉換項目

📚 詳細文檔

Open LLM Leaderboard 評估結果