japanese-stablelm-instruct-alpha-7b開源日語語言模型

首頁

Japanese Stablelm Instruct Alpha 7b

由stabilityai開發

基於70億參數解碼器的日語指令微調語言模型，適用於生成類任務

大型語言模型

Transformers

日語開源協議:其他 #日語指令微調 #多輪對話生成 #日英雙語處理

下載量 578

發布時間 : 8/10/2023

模型概述

該模型是在Japanese-StableLM-Base-Alpha-7B基礎上通過多組指令數據集微調而成的因果語言模型，專門優化了日語指令理解與響應能力

模型特點

指令微調優化

通過Alpaca/Dolly/HH等知名數據集的日譯版進行微調，顯著提升指令遵循能力

高效分詞處理

採用NovelAI優化的tokenizer，對日英混合文本處理效率突出

研究友好許可

允許非商業用途的修改和再分發，適合學術研究場景

模型能力

日語文本生成

指令理解與響應

多輪對話模擬

知識問答

使用案例

教育輔助

概念解釋

生成技術術語的通俗解釋（如VR/AR區別）

可輸出結構化對比列表

內容創作

草稿生成

根據簡略指示自動擴展成完整段落

生成符合日語表達習慣的文本

🚀 日語穩定語言模型指令版Alpha 7B

japanese-stablelm-instruct-alpha-7b 是基於 Japanese-StableLM-Base-Alpha-7B 模型預訓練的自迴歸語言模型，可用於日語聊天應用。

🚀 快速開始

安裝依賴

首先，你需要安裝 requirements.txt 文件中的額外依賴項：

pip install sentencepiece einops

代碼示例

使用以下代碼片段，你可以開始使用 japanese-stablelm-instruct-alpha-7b 生成文本：

基礎用法

import torch
from transformers import LlamaTokenizer, AutoModelForCausalLM

tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])

model = AutoModelForCausalLM.from_pretrained(
    "stabilityai/japanese-stablelm-instruct-alpha-7b",    
    trust_remote_code=True,
)
model.half()
model.eval()

if torch.cuda.is_available():
    model = model.to("cuda")

def build_prompt(user_query, inputs="", sep="\n\n### "):
    sys_msg = "以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。"
    p = sys_msg
    roles = ["指示", "応答"]
    msgs = [": \n" + user_query, ": "]
    if inputs:
        roles.insert(1, "入力")
        msgs.insert(1, ": \n" + inputs)
    for role, msg in zip(roles, msgs):
        p += sep + role + msg
    return p

# this is for reproducibility.
# feel free to change to get different result
seed = 42
torch.manual_seed(seed)

# Infer with prompt without any additional input
user_inputs = {
    "user_query": "VR とはどのようなものですか？",
    "inputs": ""
}
prompt = build_prompt(**user_inputs)

input_ids = tokenizer.encode(
    prompt, 
    add_special_tokens=False, 
    return_tensors="pt"
)

tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=256,
    temperature=1,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
print(out)
"""バーチャルリアリティは、現実の世界のように見える仮想世界の 3D 仮想現実のシミュレーションです。これは、ヘッドセットを介して、ユーザーが見たり、聞いたり、體験できるものです。"""

高級用法

seed = 42
torch.manual_seed(seed)

# Infer with prompt with additional input
user_inputs = {
    "user_query": "VR について、以下の比較対象との違いを箇條書きで教えてください。",
    "inputs": "比較対象: AR"
}
prompt = build_prompt(**user_inputs)

input_ids = tokenizer.encode(
    prompt, 
    add_special_tokens=False, 
    return_tensors="pt"
)

tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=256,
    temperature=1,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
print(out)
"""
以下は、VR と AR の比較対象の比較です。
1. VR はユーザーが3D の世界を體験することを可能にし、ユーザーが自分の目で世界を見ることを可能にします。
2. VR は、ユーザーが目の前の環境をより詳細に感じ、より多くのことができるようにすることを可能にします。
3. VR は、ユーザーの感覚を刺激し、拡張することを可能にします。
4. VR は、視覚的、觸覚的、および聴覚的な感覚體験を提供するために使用されます。
5. AR は、現実の世界に重ね合わせて、情報を表示し、ユーザーに拡張現実體験を提供することを可能にします。
6. AR は、ユーザーが仮想オブジェクトを仮想環境に持ち込むことを可能にするため、物理的な世界をシミュレートするのに最適です。
7. VR は、3D 世界を実現する仮想世界を作成することに最適です。
8. AR は、ユーザーが現実世界のオブジェクトをシミュレートし、現実世界の現実的な世界に重ね合わせて情報を表示することを可能にします。
9. VR は、ユーザーの感覚や感情に與える影響が最も大きいと考えられています。
"""

✨ 主要特性

基於NeoX架構：japanese-stablelm-instruct-alpha-7b 是基於 NeoX 變壓器架構的自迴歸語言模型。
日語支持：該模型專門針對日語進行了優化，適用於日語聊天應用。
多數據集微調：模型在多個日語數據集上進行了微調，包括斯坦福 Alpaca 數據集、Databricks Dolly - 15k 數據集等。

📦 模型詳情

屬性	詳情
模型類型	`japanese-stablelm-instruct-alpha-7b` 是基於 NeoX 變壓器架構的自迴歸語言模型。
語言	日語
庫	[GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
許可證	該模型遵循日語穩定語言模型研究許可協議。

🔧 訓練詳情

訓練參數

參數	隱藏層大小	層數	頭數	序列長度
70 億	4096	32	32	1024

訓練數據集

japanese-stablelm-instruct-alpha-7b 在以下數據集的組合上進行了微調：

💡 使用與限制

預期用途

該模型旨在供開源社區在遵循研究許可的前提下，用於類似聊天的應用程序。

限制和偏差

儘管上述數據集有助於將基礎語言模型引導到更“安全”的文本分佈，但並非所有偏差和毒性都能通過微調來緩解。我們要求用戶注意生成響應中可能出現的此類潛在問題。請勿將模型輸出視為人類判斷的替代品或事實來源，請謹慎使用。

👥 作者

🙏 致謝

我們使用了 NovelAI 推出的 [novelai - tokenizer](https://github.com/NovelAI/novelai - tokenizer) 的 v1 版本，因為它能高效處理日語和英語文本。我們感謝 NovelAI 允許我們使用他們的傑出成果。有關分詞器的更多詳細信息，請參考他們的博客文章。

我們感謝 EleutherAI Polyglot - JA 團隊的貢獻，他們幫助我們收集了大量日語預訓練數據。Polyglot - JA 團隊成員包括 Ko Hyunwoong（項目負責人）、中村藤木（最初在加入 Polyglot 團隊時啟動了這個項目）、Mo Yunho、Jung Minji、Im KeunSeok 和 Jang Su - Kyeong。

我們還感謝 [AI 小說家/Sta (Bit192, Inc.)](https://ai - novel.com/index.php) 和日本穩定社區的眾多貢獻者，他們協助我們收集了大量高質量的日語文本數據用於模型訓練。

📚 引用方式

@misc{JapaneseStableLMInstructAlpha7B, 
      url={[https://huggingface.co/stabilityai/japanese-stablelm-instruct-alpha-7b](https://huggingface.co/stabilityai/japanese-stablelm-instruct-alpha-7b)}, 
      title={Japanese StableLM Instruct Alpha 7B}, 
      author={Lee, Meng and Nakamura, Fujiki and Shing, Makoto and McCann, Paul and Akiba, Takuya and Orii, Naoki}
}

其他引用

@misc{alpaca,
  author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
  title = {Stanford Alpaca: An Instruction-following LLaMA model},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}},
}

@software{gpt-neox-library,
  title = {{GPT-NeoX: Large Scale Autoregressive Language Modeling in PyTorch}},
  author = {Andonian, Alex and Anthony, Quentin and Biderman, Stella and Black, Sid and Gali, Preetham and Gao, Leo and Hallahan, Eric and Levy-Kramer, Josh and Leahy, Connor and Nestler, Lucas and Parker, Kip and Pieler, Michael and Purohit, Shivanshu and Songz, Tri and Phil, Wang and Weinbach, Samuel},
  url = {https://www.github.com/eleutherai/gpt-neox},
  doi = {10.5281/zenodo.5879544},
  month = {8},
  year = {2021},
  version = {0.0.1},
}

📄 許可證

該模型遵循日語穩定語言模型研究許可協議。在訪問、使用或分發該模型時，你需要接受此協議的條款和條件。協議主要內容如下：

日語穩定語言模型研究許可協議

日期：2023 年 8 月 7 日

“協議”指本文中規定的軟件產品使用、複製、分發和修改的條款和條件。

“文檔”指 Stability AI 提供的與軟件相關的任何規格、手冊、文檔和其他書面信息。

“被許可方”或“你”指你，或你的僱主，或任何其他人或實體（如果你代表該人或實體簽訂本協議），且你已達到適用法律、規則或法規要求的提供合法同意的年齡，並且如果你代表僱主或其他人員或實體簽訂本協議，你具有約束他們的合法權力。

“Stability AI”或“我們”指 Stability AI Ltd。

“軟件”指根據本協議提供的 Stability AI 專有日語穩定語言模型。

“軟件產品”指軟件和文檔。

通過使用或分發軟件產品的任何部分或元素，你同意受本協議的約束。

許可權利和再分發
- 在你遵守本協議和文檔的前提下，Stability AI 授予你非排他性、全球性、不可轉讓、不可再許可、可撤銷、免版稅且有限的許可，允許你在軟件產品所體現的 Stability AI 知識產權或其他權利下，為非商業或生產用途複製、分發和創作軟件產品的衍生作品。
- 你不得，也不得允許、協助或促使任何第三方將軟件產品（或其任何衍生作品、包含軟件產品的作品或軟件產生的任何數據）全部或部分用於任何商業或生產目的。
- 如果你將軟件產品或其任何衍生作品分發給第三方，你應（i）向該第三方提供本協議的副本，（ii）在作為此類副本一部分分發的“通知”文本文件中保留以下歸屬聲明：“日語穩定語言模型根據日語穩定語言模型研究許可協議獲得許可，版權所有 (c) Stability AI Ltd。保留所有權利。”
- 本協議授予你的許可取決於你遵守文檔和本協議，包括以下可接受使用政策以及未來可能在 stability.ai 上不時更新的內容，該政策特此併入本協議。
保修免責聲明：除非適用法律要求，軟件產品及其任何輸出和結果按“現狀”提供，不提供任何形式的保證，無論是明示的還是暗示的，包括但不限於所有權、不侵權、適銷性或特定用途適用性的保證。你獨自負責確定使用或再分發軟件產品的適當性，並承擔與使用軟件產品及其任何輸出和結果相關的任何風險。
責任限制：在任何情況下，Stability AI 或其附屬公司均不對因本協議引起的任何利潤損失或任何間接、特殊、後果性、偶發性、示範性或懲罰性損害承擔責任，無論責任理論是合同、侵權、疏忽、產品責任還是其他，即使 Stability AI 或其附屬公司已被告知此類損害的可能性。
知識產權
- 本協議未授予商標許可，並且在涉及軟件產品時，除非在描述和再分發軟件產品的合理和慣常使用中需要，否則 Stability AI 和被許可方均不得使用對方或其任何附屬公司擁有或關聯的任何名稱或標記。
- 在 Stability AI 擁有軟件產品及其為其創作的衍生作品的前提下，就你創作的軟件產品的任何衍生作品和修改而言，在你和 Stability AI 之間，你是且將是此類衍生作品和修改的所有者。
- 如果你對 Stability AI 提起訴訟或其他程序（包括在訴訟中的交叉索賠或反訴），聲稱軟件產品或相關輸出或結果，或上述任何內容的任何部分構成侵犯你擁有或可許可的知識產權或其他權利，則本協議授予你的任何許可應自提起此類訴訟或索賠之日起終止。你將賠償並使 Stability AI 免受因你違反本協議使用或分發軟件產品而引起的任何第三方索賠。
期限和終止：本協議的期限將自你接受本協議或訪問軟件產品時開始，並將持續有效，直至根據本文的條款和條件終止。如果你違反本協議的任何條款或條件，Stability AI 可終止本協議。本協議終止後，你應刪除並停止使用軟件產品。第 2 - 4 條在本協議終止後仍然有效。

日語穩定語言模型可接受使用政策

如果你訪問、使用或分發任何 Stability AI 模型、軟件或其他材料（“Stability 技術”），你同意本可接受使用政策（“政策”）。

我們希望每個人都能安全、負責任地使用 Stability 技術。你同意你不會使用，也不會允許他人使用 Stability 技術：

違反法律或他人的權利（包括知識產權以及數據隱私和保護權），你也不會促進、促成、鼓勵、便利、策劃、煽動或進一步推動他人違反法律或他人的權利；
實施、促進、促成、便利、鼓勵、策劃、煽動或進一步推動以下任何行為：
- 暴力或恐怖主義；
- 對兒童的剝削或傷害，包括徵集、創作、獲取或傳播兒童剝削內容；
- 人口販賣、剝削和性暴力；
- 對個人或群體的騷擾、虐待、威脅、跟蹤或欺凌；
- 基於種族、膚色、種姓、宗教、性別（包括懷孕、性取向或性別認同）、國籍、年齡、殘疾或遺傳信息（包括家族病史）在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供方面進行歧視，但適用法律可能要求的情況除外（例如僅向符合法律規定的某些年齡要求的人提供社會保障福利）；
- 創建惡意代碼、惡意軟件、計算機病毒或任何可能禁用、使負擔過重、干擾或損害網站或計算機系統正常運行、完整性、操作或外觀的活動；
用於以下目的或執行以下操作：
- 對個人或群體進行完全自動化決策，包括畫像分析，從而對該個人或群體產生法律影響或以類似方式顯著影響該個人或群體；
- 系統地或自動地從任何 Stability 技術的輸出中抓取、挖掘、提取或收集個人可識別數據，或進行類似活動，但你作為輸入提供給 Stability 技術且你依法有權處理的數據除外，前提是你保留該權利；
- 開發、改進或製造任何大規模殺傷性武器（如核武器、化學武器或生物武器）、戰爭武器（如導彈或地雷），或進行與任何病原體相關的功能增強活動；
- 關鍵任務應用程序或系統，其中最佳行業實踐要求具備故障安全控制或性能，包括核設施的運行、飛機導航、電網、通信系統、水處理設施、空中交通管制、生命支持、武器系統或緊急定位器或其他緊急服務；
故意欺騙或誤導他人，包括使用日語穩定語言模型進行以下相關操作：
- 生成、促進或進一步推動欺詐或創建或推廣虛假信息；
- 生成、促進或進一步推動誹謗性內容，包括創建誹謗性聲明、圖像或其他內容；
- 生成、促進或進一步分發垃圾郵件；
- 在未經同意、授權或合法權利的情況下冒充他人；
- 代表或誤導人們相信日語穩定語言模型的使用或輸出是人類生成的；
- 生成或促進虛假的在線互動，包括虛假評論和其他虛假在線互動方式；
- 生成或促進大規模政治廣告、宣傳或影響活動；
未能向最終用戶適當披露你的人工智能系統的任何已知危險，或在其能力方面進行虛假陳述或誤導。

本可接受使用政策無意阻止或妨礙對日語穩定語言模型的任何善意研究、測試或評估，或與上述任何內容相關的出版物。如果你發現日語穩定語言模型中可能以任何方式對人有害的任何缺陷，我們鼓勵你通知我們，並給我們機會在他人利用這些缺陷之前進行補救。如果你對本可接受使用政策有任何疑問，請聯繫 legal@stability.ai。