Piccolo-math-2x7bオープンソース大型言語モデル - 数学とコード生成推論タスクを支援

ホーム

Piccolo Math 2x7b

macadelicccによって開発

Piccolo-math-2x7bは数学と論理的推論に特化した大規模言語モデルで、作者のペット犬クラウスにちなんで名付けられました。このモデルは複数のベンチマークテストで優れた成績を収めており、特に数学とコード生成タスクで顕著です。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #数学的推論 #論理分析 #マルチタスク評価

ダウンロード数 87

リリース時間 : 1/16/2024

モデル概要

Piccolo-math-2x7bはTransformerアーキテクチャに基づく大規模言語モデルで、数学、コード生成、論理的推論タスクに焦点を当てています。高品質なテキスト生成をサポートし、複数の標準評価データセットで優れた結果を達成しています。

モデル特徴

数学的推論能力

GSM8k数学推論ベンチマークで70.13%の精度を達成し、同クラスのベースモデルを大幅に上回る

マルチタスク処理

テキスト生成、論理的推論、コード生成など多様なタスクでバランスの取れた性能を発揮

効率的な推論

4-bit量子化ロードをサポートし、ハードウェア要件を低減しながら良好な性能を維持

モデル能力

数学問題解決

コード生成

論理的推論

常識質問応答

テキスト生成

使用事例

教育

数学指導

学生の数学問題解決を支援し、解答手順を説明

GSM8kテストセットで70.13%の精度を達成

開発支援

コード生成

自然言語記述に基づいてコードスニペットを生成

高品質なコード生成が可能なことを示す例

🚀 Piccolo-math-2x7b

このモデルは、高品質なコード、数学、論理推論が可能です。思いついた質問を自由に試してみてください。

🚀 クイックスタート

推論と評価のコラボレーションノートはこちらで利用できます。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

def generate_response(prompt):
    """
    Generate a response from the model based on the input prompt.
    Args:
    prompt (str): Prompt for the model.

    Returns:
    str: The generated response from the model.
    """
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=256, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id)

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    return response

model_id = "macadeliccc/piccolo-math-2x7b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id,load_in_4bit=True)

prompt = "What is the best way to train Cane Corsos?"

print("Response:")
print(generate_response(prompt), "\n")

📚 詳細ドキュメント

評価結果

モデル	AGIEval	GPT4All	TruthfulQA	Bigbench	平均
piccolo-math-2x7b	43.89	74.98	63.96	44.99	56.96

EQベンチマーク

ベンチマーク完了情報

2024-01-24 00:00:40
所要時間: 183.3分
プロンプト形式: Mistral
モデル: macadeliccc/piccolo-math-2x7b
スコア (v2): 70.74
解析可能な値: 167.0

バッチ完了所要時間: 183.3分

AGIEval

タスク	バージョン	メトリック	値		標準誤差
agieval_aqua_rat	0	acc	24.41	±	2.70
		acc_norm	24.80	±	2.72
agieval_logiqa_en	0	acc	35.79	±	1.88
		acc_norm	36.71	±	1.89
agieval_lsat_ar	0	acc	23.48	±	2.80
		acc_norm	23.91	±	2.82
agieval_lsat_lr	0	acc	49.22	±	2.22
		acc_norm	50.00	±	2.22
agieval_lsat_rc	0	acc	63.94	±	2.93
		acc_norm	64.31	±	2.93
agieval_sat_en	0	acc	77.18	±	2.93
		acc_norm	76.70	±	2.95
agieval_sat_en_without_passage	0	acc	45.15	±	3.48
		acc_norm	44.66	±	3.47
agieval_sat_math	0	acc	33.64	±	3.19
		acc_norm	30.00	±	3.10

平均: 43.89%

GPT4All

タスク	バージョン	メトリック	値		標準誤差
arc_challenge	0	acc	61.86	±	1.42
		acc_norm	62.88	±	1.41
arc_easy	0	acc	84.34	±	0.75
		acc_norm	80.47	±	0.81
boolq	1	acc	86.88	±	0.59
hellaswag	0	acc	68.56	±	0.46
		acc_norm	85.16	±	0.35
openbookqa	0	acc	37.00	±	2.16
		acc_norm	47.80	±	2.24
piqa	0	acc	82.21	±	0.89
		acc_norm	83.68	±	0.86
winogrande	0	acc	77.98	±	1.16

平均: 74.98%

TruthfulQA

タスク	バージョン	メトリック	値		標準誤差
truthfulqa_mc	1	mc1	47.37	±	1.75
		mc2	63.96	±	1.57

平均: 63.96%

Bigbench

タスク	バージョン	メトリック	値		標準誤差
bigbench_causal_judgement	0	multiple_choice_grade	55.26	±	3.62
bigbench_date_understanding	0	multiple_choice_grade	63.14	±	2.51
bigbench_disambiguation_qa	0	multiple_choice_grade	42.64	±	3.08
bigbench_geometric_shapes	0	multiple_choice_grade	22.84	±	2.22
		exact_str_match	3.34	±	0.95
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	36.60	±	2.16
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	25.57	±	1.65
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	56.00	±	2.87
bigbench_movie_recommendation	0	multiple_choice_grade	42.40	±	2.21
bigbench_navigate	0	multiple_choice_grade	54.70	±	1.57
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	62.90	±	1.08
bigbench_ruin_names	0	multiple_choice_grade	53.35	±	2.36
bigbench_salient_translation_error_detection	0	multiple_choice_grade	24.35	±	1.36
bigbench_snarks	0	multiple_choice_grade	62.43	±	3.61
bigbench_sports_understanding	0	multiple_choice_grade	70.28	±	1.46
bigbench_temporal_sequences	0	multiple_choice_grade	41.30	±	1.56
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	22.32	±	1.18
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	17.77	±	0.91
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	56.00	±	2.87

平均: 44.99%

平均スコア: 56.96%

経過時間: 01:51:53

Open LLM Leaderboard評価結果

詳細な結果はこちらで確認できます。

メトリック	値
平均	72.32
AI2 Reasoning Challenge (25-Shot)	69.11
HellaSwag (10-Shot)	87.27
MMLU (5-Shot)	63.69
TruthfulQA (0-shot)	63.86
Winogrande (5-shot)	79.87
GSM8k (5-shot)	70.13