FuseLLM-7Bオープンソース言語モデル - 複数モデルの知識を融合し、無料でデプロイして統一した言語能力を実現する

ホーム

Fusellm 7B

Wanfqによって開発

FuseLLM-7Bは複数のオープンソース大規模言語モデルの知識を融合した統合モデルで、知識融合技術により異なるアーキテクチャのLLM能力を1つのモデルに統合しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #マルチモデル知識融合 #オープンソース大規模言語モデル #テキスト生成最適化

ダウンロード数 45

リリース時間 : 1/21/2024

モデル概要

FuseLLM-7BはLlama-2-7B、OpenLLaMA-7B、MPT-7Bという3つの異なるアーキテクチャのモデルを融合し、知識統合と能力強化を実現しました。このモデルは複数のベンチマークテストで優れた性能を示し、テキスト生成や推論など様々なタスクに適しています。

モデル特徴

マルチモデル知識融合

Llama-2-7B、OpenLLaMA-7B、MPT-7Bという3つの異なるアーキテクチャモデルの知識と能力を統合

クロスアーキテクチャ対応

異なるアーキテクチャのモデルを融合可能で、従来のモデル融合の制限を突破

性能向上

複数のベンチマークテストで単一のソースモデルよりも優れた性能を発揮

軽量トレーニング

軽量な継続学習による知識転移を実現し、高いトレーニング効率を達成

モデル能力

テキスト生成

常識推論

コード生成

質問応答システム

読解

機械翻訳

使用事例

自然言語処理

インテリジェントQAシステム

複雑な質問に回答可能なQAシステムの構築に利用

TruthfulQAベンチマークで38.17のmc2スコアを達成

コード生成

多言語プログラミングコード生成をサポート

MultiPL-Eベンチマークで15.56のスコアを達成

教育支援

科学問題解答

学生の科学・数学問題解答を支援

GSM8k数学ベンチマークで14.33の正解率を達成

🚀 FuseLLM-7B

このプロジェクトは、構造的に多様な複数の大規模言語モデル（LLM）の能力と独自の強みを統合した統一モデルを作成するために、LLMの知識融合の領域を探索します。FuseLLMを導入することで、複数のLLMの知識を効果的に融合し、より強力なモデルを構築します。

🚀 クイックスタート

セットアップ

このプロジェクトではpython 3.9を使用しています。その後、requirements.txtに記載されているすべてのライブラリをインストールする必要があります。

pip install -r requirements.txt

使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Wanfq/FuseLLM-7B", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("Wanfq/FuseLLM-7B", torch_dtype="auto")
model.cuda()
inputs = tokenizer("<your text here>", return_tensors="pt").to(model.device)
tokens = model.generate(
  **inputs,
  max_new_tokens=512,
  temperature=0.6,
  top_p=0.9,
  do_sample=True,
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))

また、FuseLLM-7B-exl2にExllama v2 Quantizationsバージョンがあり、ExLlamaV2 v0.0.11を使用して量子化されています。

✨ 主な機能

この研究では、LLMの知識融合の領域を探索し、構造的に多様な複数のLLMの能力と独自の強みを統合した統一モデルを作成するためにFuseLLMを導入します。FuseLLMは、複数のLLMの生成分布を利用して、それらの集合的な知識と個々の強みを外部化し、軽量な継続的トレーニングを通じてターゲットのLLMに転送します。

📦 インストール

セットアップ

pip install -r requirements.txt

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Wanfq/FuseLLM-7B", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("Wanfq/FuseLLM-7B", torch_dtype="auto")
model.cuda()
inputs = tokenizer("<your text here>", return_tensors="pt").to(model.device)
tokens = model.generate(
  **inputs,
  max_new_tokens=512,
  temperature=0.6,
  top_p=0.9,
  do_sample=True,
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))

📚 ドキュメント

概要

モデルのリリース

🤗 Huggingface ModelsでFuseLLM-7Bをリリースしました。これは、Llama-2-7B、OpenLLaMA-7B、MPT-7Bという3つの人気のあるオープンソースLLMを融合したものです。

データの構築

継続的トレーニングにはMiniPileデータセットを使用しています。以下に、モデル融合のために複数のLLMから表現を取得するスクリプトを示します。

長いテキストを分割

python ./src/utils/split_long_text.py \
  --base_model_name_or_path "<path_to_llama_2_7b>" \
  --blending_model_name_or_path "<path_to_open_llama_7b_v2>" \
  --another_blending_model_name_or_path "<path_to_mpt_7b>" \
  --dataset "<path_to_minipile>" \
  --dataset_save_dir "<path_to_minipile_split>" \
  --cache_dir "<path_to_cache_dir>" \
  --block_size 2048 \
  --preprocessing_num_workers 80

各LLMの表現を取得

# データセットを8つの分割に分け、各分割をGPUで処理します。
# llama_2_7b、open_llama_7b_v2、mpt_7bに対してこのスクリプトを実行してください。
for i in {0..7}; do
export CUDA_VISIBLE_DEVICES=${i}
python ./src/utils/forward_for_logits.py \
  --model_name_or_path "<path_to_each_model>" \
  --dataset "<path_to_minipile_split>" \
  --dataset_save_dir "${i}_8_<path_to_minipile_split_each_model_representation>" \
  --dataset_split_num 8 \
  --dataset_index ${i} \
  --cache_dir "<path_to_cache_dir>" \
  --model_max_length 2048 \
  --training_mode full \
  --load_in_half bf16 \
  --batch_size 8 \
  --preprocessing_num_workers 80 \
  --top_k_logits 10 \
  --save_per_token_metric 2>&1 > "${i}_8_<path_to_log_file>" 2>&1 &
unset CUDA_VISIBLE_DEVICES
sleep 30
done

wait

異なるLLMの表現をアラインメント

# 異なるLLMから語彙マッピングを取得します。

# llama_2_7b <-> open_llama_7b_v2
python ./src/utils/vocab_mapping.py \
  --base_model_name_or_path "<path_to_llama_2_7b>" \
  --blending_model_name_or_path "<path_to_open_llama_7b_v2>" \
  --dataset_dir "<path_to_minipile_split>" \
  --vocab_mapping_save_dir "<path_to_llama_2_7b_open_llama_7b_v2_vocab_mapping>" \
  --cache_dir "<path_to_cache_dir>" \
  --model_max_length 2048 \
  --vocab_mapping_type "default" \
  --num_process 1

# llama_2_7b <-> mpt_7b
python ./src/utils/vocab_mapping.py \
  --base_model_name_or_path "<path_to_llama_2_7b>" \
  --blending_model_name_or_path "<path_to_mpt_7b>" \
  --dataset_dir "<path_to_minipile_split>" \
  --vocab_mapping_save_dir "<path_to_llama_2_7b_mpt_7b_vocab_mapping>" \
  --cache_dir "<path_to_cache_dir>" \
  --model_max_length 2048 \
  --vocab_mapping_type "default" \
  --num_process 1

# 異なるLLMの表現をアラインメントします。

# llama_2_7b <-> open_llama_7b_v2
for i in {0..7}; do
python ./src/utils/token_alignment.py \
  --base_model_name_or_path "<path_to_llama_2_7b>" \
  --blending_model_name_or_path "<path_to_open_llama_7b_v2>" \
  --base_dataset_dir "${i}_8_<path_to_minipile_split_llama_2_7b_representation>" \
  --blending_dataset_dir "${i}_8_<path_to_minipile_split_open_llama_7b_v2_representation>" \
  --dataset_save_dir "${i}_8_<path_to_minipile_split_llama_2_7b_open_llama_7b_v2_aligned_representation>" \
  --cache_dir "<path_to_cache_dir>" \
  --model_max_length 2048 \
  --preprocessing_num_workers 80 \
  --batch_size 100 \
  --blending_model_index 0 \
  --vocab_align_type "soft" \
  --vocab_mapping_save_dir "<path_to_llama_2_7b_open_llama_7b_v2_vocab_mapping>" \
  --metric_level "sequence"
done 

# llama_2_7b <-> mpt_7b
for i in {0..7}; do
python ./src/utils/token_alignment.py \
  --base_model_name_or_path "<path_to_llama_2_7b>" \
  --blending_model_name_or_path "<path_to_mpt_7b>" \
  --base_dataset_dir "${i}_8_<path_to_minipile_split_llama_2_7b_open_llama_7b_v2_aligned_representation>" \
  --blending_dataset_dir "${i}_8_<path_to_minipile_split_mpt_7b_representation>" \
  --dataset_save_dir "${i}_8_<path_to_minipile_split_llama_2_7b_open_llama_7b_v2_mpt_7b_aligned_representation>" \
  --cache_dir "<path_to_cache_dir>" \
  --model_max_length 2048 \
  --preprocessing_num_workers 80 \
  --batch_size 100 \
  --blending_model_index 1 \
  --vocab_align_type "soft" \
  --vocab_mapping_save_dir "<path_to_llama_2_7b_mpt_7b_vocab_mapping>" \
  --metric_level "sequence"
done

すべての特徴をパッキングしてトレーニングを高速化

for i in {0..7}; do
python3 ./src/utils/packing.py \
  --dataset_dir "${i}_8_<path_to_minipile_split_llama_2_7b_open_llama_7b_v2_mpt_7b_aligned_representation>" \
  --dataset_save_dir "${i}_8_<path_to_miniplie_fusellm_processed>" \
  --cache_dir "<path_to_cache_dir>" \
  --model_max_length 2048 \
  --preprocessing_num_workers 80 \
  --batch_size 1000 \
  --metric_level "sequence"

最終的に処理されたデータは ${i}_8_<path_to_miniplie_fusellm_processed>にあります。