JiuZhou-baseオープンソース言語モデル - 無料で豊富な地学知識を取得、指令追跡をサポート

ホーム

Jiuzhou Base

itpossibleによって開発

九州は地球科学分野向けのオープンソース基盤言語モデルで、大規模な地学コーパスによる継続事前学習を通じて構築され、豊富な地学知識と命令追従能力を備えています。

大規模言語モデル

Transformers

#地球科学専用 #二段階事前適応訓練 #地学知識強化

ダウンロード数 23

リリース時間 : 3/31/2024

モデル概要

九州モデルはMistral-7B-v0.1を基盤とし、ドメイン大規模言語モデル事前学習フレームワーク(PreparedLLM)と'二段階事前適応事前学習'アルゴリズムを用いて構築され、地球科学分野の知識理解と問題解決に特化しています。

モデル特徴

地学知識豊富

340万の地学関連ドキュメントによる事前学習を通じて、モデルは豊富な地球科学専門知識を備えています

二段階事前適応事前学習

TSPTアルゴリズムを採用し、限られた地学データの使用効率を向上させ、大規模モデルの継続事前学習における技術的ボトルネックを克服

命令追従能力

高品質な命令データによる微調整を通じて、モデルはユーザーの命令を正確に理解し実行できます

モデル能力

地球科学知識質問応答

専門用語解説

マルチターン対話

科学データ分析

研究報告書生成

使用事例

研究教育

地学知識質問応答

地球科学分野の専門的な質問に回答

GeoBenchベンチマークテストでGPT-3.5を上回る

学術支援

研究者が地学文献を理解・分析するのを支援

環境モニタリング

気候変動分析

気候データを解釈し分析レポートを提供

🚀 九州: 地球科学用オープン基礎言語モデル

九州は、地球科学分野に特化したオープンな基礎言語モデルです。大量の地球科学データから知識を抽出・統合し、地球科学の問題解決や科学的発見を加速することを目指しています。

🚀 クイックスタート

このセクションでは、九州モデルの基本的な使い方を説明します。まずはモデルのダウンロードから始めましょう。

✨ 主な機能

地球科学分野の知識を豊富に持ち、地球科学関連の質問に高精度に回答できます。
汎用的な言語理解能力も備えており、様々なベンチマークで優れた性能を発揮します。
独自の学習フレームワークとアルゴリズムを用いて訓練されており、限られた地球科学データを効率的に利用できます。

📦 インストール

九州モデルは、Hugging FaceやWisemodel、ModelScopeなどのプラットフォームからダウンロードできます。以下は各モデルのダウンロードリンクです。

モデルシリーズ	モデル	ダウンロードリンク	説明
九州	九州-base	Huggingface	ベースモデル (地球科学知識が豊富)
九州	九州-Instruct-v0.1	Huggingface	インストラクションモデル (インストラクションアライメントにより一部の地球科学知識が失われましたが、インストラクションに従う能力を持っています) 中英語のAlpaca_GPT4とGeoSignalでLoRA微調整
九州	九州-Instruct-v0.2	HuggingFace Wisemodel	インストラクションモデル (インストラクションアライメントにより一部の地球科学知識が失われましたが、インストラクションに従う能力を持っています) 高品質の汎用インストラクションデータで微調整
ClimateChat	ClimateChat	HuggingFace Wisemodel	インストラクションモデル九州-baseをインストラクションに従うように微調整
Chinese-Mistral	Chinese-Mistral-7B	HuggingFace Wisemodel ModelScope	ベースモデル
Chinese-Mistral	Chinese-Mistral-7B-Instruct-v0.1	HuggingFace Wisemodel ModelScope	インストラクションモデル中英語のAlpaca_GPT4でLoRA微調整
Chinese-Mistral	Chinese-Mistral-7B-Instruct-v0.2	HuggingFace Wisemodel	インストラクションモデル 100万件の高品質インストラクションでLoRA微調整
PreparedLLM	Prepared-Llama	Huggingface Wisemodel	ベースモデル少量の地球科学データで継続事前学習九州の使用を推奨

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")

model_path = "itpossible/JiuZhou-Instruct-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)

text = "What is geoscience?"
messages = [{"role": "user", "content": text}]

inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
outputs_id = model.generate(inputs, max_new_tokens=600, do_sample=True)
outputs = tokenizer.batch_decode(outputs_id, skip_special_tokens=True)[0]
print(outputs)

📚 ドキュメント

モデル性能

地球科学能力

九州モデルの性能をGeoBenchベンチマークを用いて評価しました。客観的なタスクでは、GPT-3.5を上回る性能を発揮しています。

主観的なタスクでは、6つの基準すべてでベースラインを上回るスコアを獲得しています。

#### 汎用能力九州モデルの性能をC-Eval、CMMLU、MMLUの3つのベンチマークデータセットを用いて評価しました。他のLlamaやMistralモデルのバリアントと比較して、九州は優れた性能を示しています。

### モデル学習プロセス #### 学習コーパスコーパスは、5000万件の汎用文書と340万件の地球科学関連文書から構成されています。

#### 学習フレームワーク本研究で提案された九州フレームワークを使用しています。

#### 二段階事前適応事前学習 (TSPT) TSPTは、限られた地球科学データの利用効率を向上させ、LLMの継続事前学習における一部の技術的ボトルネックを克服します。TSPTと一段階学習アルゴリズムの違いは以下の通りです。

TSPTと一段階事前学習アルゴリズムの性能比較は以下の通りです。

### モデル学習コード九州モデルの微調整には、[LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory)を使用しています。

プロジェクトのデプロイ

git clone https://github.com/THU-ESIS/JiuZhou.git
cd JiuZhou
pip install -e ".[torch,metrics]"

モデル学習

事前学習：

llamafactory-cli train examples/train_lora/JiuZhou_pretrain_sft.yaml

インストラクションチューニング：

llamafactory-cli train examples/train_lora/JiuZhou_lora_sft.yaml

微調整された九州モデルとチャットする：

llamafactory-cli chat examples/inference/JiuZhou_lora_sft.yaml

インストラクションチューニングされたLoRA重みを元の九州モデルの重みとマージする：

llamafactory-cli export examples/merge_lora/JiuZhou_lora_sft.yaml

📄 ライセンス

引用

@article{chen2024preparedllm,
  author = {Chen, Zhou and Lin, Ming and Wang, Zimeng and Zang, Mingrun and Bai, Yuqi},
  title = {PreparedLLM: Effective Pre-pretraining Framework for Domain-specific Large Language Models},
  year = {2024},
  journal = {Big Earth Data},
  pages = {1--24},
  doi = {10.1080/20964471.2024.2396159},
  url = {https://doi.org/10.1080/20964471.2024.2396159}
}