UNA-TheBeagle-7b-v1オープンソースAIモデル - 多様なタスクで優れた性能を発揮し、無料で利用可能

ホーム

UNA TheBeagle 7b V1

fblgitによって開発

TheBeagleはThe Bagelデータセットでトレーニングされた70億パラメータモデルで、DPO（直接選好最適化）とUNA（統一ニューラルアーキテクチャ）技術を採用し、マルチタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

#DPO最適化 #マルチタスク汎用 #学術研究専用

ダウンロード数 88

リリース時間 : 1/9/2024

モデル概要

このモデルは精選されたDPOペアリングセットで最適化された70億パラメータの大規模言語モデルで、インテルのneural-chatモデルをベースとしており、複数のベンチマークテストで顕著な結果を示しています。

モデル特徴

DPO最適化

精選されたDPOペアリングセットに対して直接選好最適化技術を採用してトレーニング

UNAアーキテクチャ

統一ニューラルアーキテクチャを適用してパーセプトロン層を最適化し、学習率を3.5e-7に設定

高性能

ARC、GSM8K、HellaSwagなど複数のベンチマークテストで優れた成績を収めました

データ汚染除去

データセットは厳格な汚染除去処理を経ており、トレーニング品質を保証

モデル能力

テキスト生成

質問応答システム

数学的推論

常識推論

論理的推論

使用事例

学術研究

自然言語処理研究

言語モデルの性能比較や新技術検証に利用可能

複数のベンチマークテストで優れた性能を発揮

教育応用

数学問題解答

GSM8Kなどの数学問題を解決

72.1%の正確一致率を達成

🚀 UNA-TheBeagle-7b-v1

TheBeagleは、The Bagelデータセットで学習された70億パラメータのモデルです。選りすぐりのDPOペアに対してDPOとUNAを適用しています。

Hugging Faceのリーダーボードで1位を獲得し、劇的なスコアを記録！ARCスコア73で、非常にバランスが良いです！

データセットは、元のbagelコードを使用して生成され、汚染除去ステップも含まれています。ベースモデルには、最新のIntelのneural-chatモデルを使用しています。多くのタスクで非常に良い性能を発揮しますが、ぜひ自分で試してみることをおすすめします。

TheBeagle

📚 ドキュメント

評価

VLLMで実行しているため、ボードに表示されているものと正確に一致しない可能性がありますが、大きな差はありません。

vllm (pretrained=fblgit/UNA-TheBeagle-7b-v1,dtype=auto,tensor_parallel_size=1,gpu_memory_utilization=0.8,data_parallel_size=8,trust_remote_code=True), gen_kwargs: (None), limit: None, num_fewshot: None, batch_size: 32
|    タスク     |バージョン|  フィルター  |n-shot|  メトリック   |値 |   |標準誤差|
|--------------|-------|----------|-----:|-----------|-----:|---|-----:|
|arc_challenge |Yaml   |none      |    25|acc        |0.7090|±  |0.0133|
|              |       |none      |    25|acc_norm   |0.7329|±  |0.0129|
|gsm8k         |Yaml   |get-answer|     5|exact_match|0.7210|±  |0.0124|
|hellaswag     |Yaml   |none      |    10|acc        |0.7202|±  |0.0045|
|              |       |none      |    10|acc_norm   |0.8792|±  |0.0033|
|truthfulqa_mc2|Yaml   |none      |     0|acc        |0.7062|±  |0.0151|
|winogrande    |Yaml   |none      |     5|acc        |0.8366|±  |0.0104|