Norwai Mixtral 8x7B Instruct
Model Overview
Model Features
Model Capabilities
Use Cases
🚀 NorwAI-Mixtral-8x7B-instructモデル
NorwAI-Mixtral-8x7B-instructは、NorwAI-Mixtral-8x7Bの命令調整バリアントです。約9000件の独自収集した高品質ノルウェー語命令を使用して調整されています。このモデルはNowAI大規模言語モデルファミリーに属しており、ノルウェー工科大学(NTNU)のNowAI研究センターがSchibsted、NRK、VG、およびノルウェー国立図書館と共同開発しています。NowAI大規模言語モデルファミリーは、ノルウェー語言語モデルの研究と応用の発展を推進することを目指しています。
📄 ライセンス
NorLLMライセンス
使用、複製、配布の条項と条件
- 定義
- 「ライセンス」とは、本ドキュメントの第1節から第9節で定義される使用、複製、配布の条項と条件を指します。
- 「許諾者」とは、ノルウェー工科大学(NTNU)を指します。
- 「法的主体」とは、行為主体およびその主体を支配する、またはその主体に支配される、またはその主体と共通の支配下にある他のすべての主体の結合体を指します。本定義において、「支配」とは、(i)契約またはその他の方法によって、直接または間接的にその主体の経営方向または管理を導く権限、(ii)発行済株式の50%以上の所有、または(iii)その主体の受益所有権を指します。
- 「あなた」とは、本ライセンスによって付与された権限を行使する個人または法的主体を指します。
- 「ソースコード形式」とは、修正が容易な優先形式を指し、ソフトウェアのソースコード、ドキュメントのソースファイル、および設定ファイルを含みますが、これらに限定されません。
- 「目標コード形式」とは、ソースコード形式から機械的に変換または翻訳された任意の形式を指し、コンパイルされた目標コード、生成されたドキュメント、および他のメディアタイプに変換された内容を含みますが、これらに限定されません。
- 「作品」とは、本ライセンスに基づいて提供される、ソースコードまたは目標コード形式の著作権作品を指し、作品に含まれるまたは作品に添付された著作権声明によって指定されます(付録に例があります)。
- 「派生作品」とは、本作品に基づく(または派生する)任意の作品を指し、ソースコード形式または目標コード形式のいずれでも、その編集、注釈、解説、またはその他の修正が全体として独自の著作権作品を構成するものです。本ライセンスの目的では、派生作品には、本作品およびその派生作品と分離可能な状態を維持する、または本作品およびその派生作品のインターフェースのみとリンクする(または名前でバインドする)作品は含まれません。
- 「貢献」とは、任意の著作権作品を指し、作品の元のバージョンおよびその作品またはその派生作品に対する任意の修正または追加を含み、著作権所有者または著作権所有者から授権された代表者によって許諾者に提出され、作品に組み込まれることを意図したものです。本定義において、「提出」とは、許諾者またはその代表者に送信される任意の形式の電子的、口頭の、または書面の通信を指し、電子メールリスト、ソースコード管理システム、および問題追跡システムでの通信を含みますが、これらに限定されません。これらのシステムは、許諾者または許諾者を代表して管理され、作品の議論と改善に使用されますが、著作権所有者が明示的に「非貢献」とマークまたは書面で指定した通信は含まれません。
- 「貢献者」とは、許諾者およびその代表者によって提出された貢献が許諾者に受け入れられ、その後作品に組み込まれた任意の個人または法的主体を指します。
- 著作権許諾の付与 本ライセンスの条項と条件に従うことを条件として、各貢献者は、あなたに対して、永久的、世界規模、非独占的、無料、無使用料、取り消し不能な著作権許諾を付与し、あなたが本作品およびその派生作品を、ソースコード形式または目標コード形式で、複製、派生作品の作成、公開表示、公開上演、再許諾、および配布することを許可します。
- 特許許諾の付与 本ライセンスの条項と条件に従うことを条件として、各貢献者は、あなたに対して、永久的、世界規模、非独占的、無料、無使用料、取り消し不能(ただし、本节に別段の規定がある場合を除く)の特許許諾を付与し、あなたが本作品を製造、委託製造、使用、販売の申し出、販売、輸入、およびその他の方法で譲渡することを許可します。この許諾は、その貢献者が許諾することができる特許請求項にのみ適用され、これらの請求項は、彼らの貢献自体または彼らの貢献とその貢献が提出された作品との組み合わせによって必然的に侵害されるものです。あなたが任意の主体に対して特許訴訟を提起した場合(訴訟における交差請求または反訴を含む)、本作品または本作品に組み込まれた貢献が直接または間接的な特許侵害を構成すると主張する場合、本ライセンスによってあなたに付与された当該作品に関する任意の特許許諾は、当該訴訟が提起された日から終了します。
- 再配布
あなたは、本作品またはその派生作品を、修正するかどうかに関わらず、ソースコード形式または目標コード形式で、任意の媒体に複製して配布することができますが、以下の条件を満たす必要があります。
- 使用制限:本作品またはその派生作品は、第4.2条で定義される地理的範囲内で無料で使用することができます。使用はあなた自身の目的に限定され、転売には使用できず、また、侵害する可能性がある、または健康、安全、環境保護、および/または基本的権利(人的尊厳の権利、私生活および家庭生活の尊重を受ける権利、個人データ保護の権利、言論および情報の自由の権利、集会および結社の自由の権利、非差別の権利、消費者保護の権利、および子供を保護する特定の権利)に悪影響を及ぼす可能性のある目的には使用できません。
- 地理的制限:北欧諸国(デンマーク、ノルウェー、スウェーデン、フィンランド、およびアイスランド)に住所または登録本社を有する組織のみが、本ライセンスの他の条項に従うことを条件として、追加の同意なしに本作品またはその派生作品を使用することが許可されます。
- 帰属要件:
- あなたは、本作品またはその派生作品の他の任意の受領者に本ライセンスのコピーを提供する必要があります。
- あなたは、修正した任意のファイルに、あなたがこれらのファイルを変更したことを示す顕著な通知を付ける必要があります。
- あなたは、配布する任意の派生作品のソースコード形式に、本作品のソースコード形式に含まれるすべての著作権、特許、商標、および帰属声明を保持する必要がありますが、派生作品の任意の部分に関係のない声明は除きます。
- 本作品が配布時に「NOTICE」テキストファイルを含む場合、あなたが配布する任意の派生作品は、以下の少なくとも1つの場所に、NOTICEファイルに含まれる帰属声明の読み取り可能なコピーを含める必要がありますが、派生作品の任意の部分に関係のない声明は除きます。派生作品の一部として配布されるNOTICEテキストファイル内;派生作品とともにソースコード形式またはドキュメントが提供される場合、その中に含める;または、第三者の声明が通常派生作品の表示に表示される場合、その表示に含める。NOTICEファイルの内容は情報提供のみを目的としており、本ライセンスを変更するものではありません。あなたは、配布する派生作品に独自の帰属声明を追加することができ、本作品のNOTICEテキストと並列またはその付録として追加することができますが、これらの追加の帰属声明が本ライセンスを変更すると解釈されないことを条件とします。
- あなたは、あなたの修正に独自の著作権声明を追加することができ、あなたの修正または任意のそのような派生作品全体の使用、複製、または配布に対して追加または異なる許諾条項と条件を提供することができますが、あなたの本作品の使用、複製、および配布は本ライセンスに規定された条件に従う必要があります。
- 貢献の提出 あなたが明示的に別段の指示をしない限り、あなたが許諾者に提出して作品に組み込むことを意図する任意の貢献は、追加の条項と条件なしに、本ライセンスの条項と条件に従うものとします。前述の規定にかかわらず、本ドキュメントのいかなる内容も、あなたがそのような貢献に関して許諾者と締結する可能性のある任意の個別の許諾契約の条項を置き換えたり変更したりするものではありません。
- 商標 本ライセンスは、許諾者の商号、商標、サービスマーク、または製品名を使用する許諾を付与するものではありませんが、作品の出所を説明し、NOTICEファイルの内容を複製するために必要な場合を除きます。
- 保証の否認 適用法律によって要求される場合または書面による同意がある場合を除き、許諾者は本作品を「現状のまま」提供し(各貢献者もその貢献を「現状のまま」提供します)、所有権、非侵害、市場性、または特定の用途に適合することを含む、明示または暗示のいかなる保証または条件も提供しません。あなたは、本作品の使用または再配布の適切性を独自に判断し、本ライセンスによって付与された権限を行使することによって生じる任意のリスクを負う責任があります。
- 責任の制限 いかなる場合も、いかなる法律理論に基づくかを問わず、不法行為(過失を含む)、契約、またはその他の場合であっても、適用法律によって要求される場合(故意および重大過失行為など)または書面による同意がある場合を除き、いかなる貢献者も、本ライセンスまたは本作品の使用または使用不能に起因する、またはそれに関連する、直接的、間接的、特別的、偶発的、または結果的な損害(商標権の損失、業務の中断、コンピュータの故障または不具合、およびすべてのその他の商業的損害または損失を含むが、これらに限定されません)について、あなたに対して損害賠償責任を負いません。たとえその貢献者がそのような損害の可能性を知らされていたとしても同様です。
- 保証または追加責任の受諾 本作品またはその派生作品を再配布する際、あなたは、サポート、保証、賠償、または本ライセンスと一致するその他の責任義務および/または権利を受け入れるために、費用を請求して提供することができます。ただし、そのような義務を受け入れる際、あなたは自分自身を代表してのみ責任を負い、他のいかなる貢献者を代表することはできません。また、あなたがそのような保証または追加責任を受け入れることによって生じる任意の責任またはその貢献者に対する任意の請求から、各貢献者を賠償し、弁護し、免責することに同意する場合に限り、そのようなことができます。
連絡先
- 技術的問題の連絡先:Lemei Zhang (lemei.zhang@ntnu.no)、Peng Liu (peng.liu@ntnu.no)
- ライセンスの問題の連絡先:Jon Atle Gulla (jon.atle.gulla@ntnu.no)
ライセンス確認に関する情報
- 追加の必須フィールド:名前、組織、国、業務用メールアドレス
- 使用目的の選択:研究、教育、商業、その他
- 確認チェック:私はNorLLMライセンスの条件を読み、受け入れました。
- 確認するライセンスのタイトル:ライセンスを確認して、このリポジトリを受け入れます。
- 確認するライセンスの説明:当社のチームは、あなたの要求を処理するのに1 - 2日かかる場合があります。
- 確認するライセンスのボタンの内容:ライセンスを確認する
アクセスは北欧諸国の学生、企業、および組織に限定されています。モデルにアクセスするには、あなたの業務用または学生用のメールアドレスを提供してください。ご理解いただき、ありがとうございます。
📚 モデル詳細
モデル概要
NorwAI-Mixtral-8x7B-instructは、NorwAI-Mixtral-8x7Bをベースに命令調整されたバリアントモデルです。約9000件の独自収集した高品質ノルウェー語命令を使用しています。このモデルはNowAI大規模言語モデルファミリーに属しており、ノルウェー工科大学(NTNU)のNowAI研究センターがSchibsted、NRK、VG、およびノルウェー国立図書館と共同開発しています。NowAI大規模言語モデルファミリーには、7Bと45B規模の一連の事前学習、継続事前学習、および命令調整された生成型テキストモデルが含まれています。すべての事前学習および継続事前学習モデルは、同じデータセットで同じトークナイザーを使用して学習され、命令調整モデルは、ノルウェー語の母語話者から収集した高品質ノルウェー語命令を使用して最適化されています。
モデルの基本情報
属性 | 詳細 |
---|---|
モデルタイプ | 生成型テキストモデル |
開発チーム | ノルウェー工科大学(NTNU)のNowAI研究センター、Schibsted、およびVG |
言語(NLP) | ノルウェー語 |
微調整の基礎モデル | NorwAI-Mixtral-8x7B |
トークナイザー | Llama 2トークナイザーと独自に学習したノルウェー語トークナイザーの語彙を統合することで、ノルウェー語の語彙を拡張しました。拡張後の語彙サイズは64000です。 |
モデル公開日 | 2024年5月15日、かつ継続的に更新中 |
NowAI LLMファミリーのモデルリスト
モデル名 | パラメータ数 | 学習方式 | コンテキスト長 | 基礎モデル |
---|---|---|---|---|
NorwAI-Mistral-7B | 7B | 継続事前学習 | 32k | Mistral-7B-v0.1 |
NorwAI-Mistral-7B-pretrain | 7B | 最初から事前学習 | 32k | Mistral-7B-v0.1 |
NorwAI-Llama2-7B | 7B | 継続事前学習 | 4096 | Llama2 |
NorwAI-Mixtral-8x7B | 45B | 継続事前学習 | 32k | Mixtral-8x7B-v0.1 |
NorwAI-Mistral-7B-instruct | 7B | 命令調整 | 32k | NorwAI-Mistral-7B |
NorwAI-Mixtral-8x7B-instruct | 45B | 命令調整 | 32k | NorwAI-Mixtral-8x7B |
💻 使用シーン
NowAI大規模言語モデルは、北欧諸国の商業および研究用途を想定しています。このモデルにアクセスするには、関連情報をよく読み、必要事項を記入してください。
⚠️ バイアス、リスク、および制限
このモデルは、大規模言語モデルに共通する潜在的なリスク、幻覚、事実の不一致、毒性、およびバイアスなどがある可能性があります。
💻 使用例
基本的な使用法
命令調整のプロンプトテンプレートは2種類あります。
If we have input data, we use Prompt 1: {instruction}\n\n{inst_input}\nAnswer:
If we do not have iniput data, we use Prompt 2: {instruction}\n\nAnswer:
以下はモデルを読み込む例です。
from transformers import AutoTokenizer, AutoModelForCausalLM
model_and_tokenizer_path = "NorwAI/NorwAI-Mixtral-8x7B-instruct"
access_token = "<your access token>"
# import tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_and_tokenizer_path, token=access_token)
model = AutoModelForCausalLM.from_pretrained(model_and_tokenizer_path, token=access_token, device_map='balanced')
# define your own prompt
prompt = """Hvilket av de følgende alternativene er Norges nordligste punkt?\n\na) Nordkapp b) Alta c) Vardø d) Hammerfest\n
Svar:"""
# generate response
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs,
min_new_tokens=50,
max_new_tokens=100,
do_sample=True,
temperature=0.3)
outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
テストによると、Answer
をSvar
に置き換えても同じ効果が得られます。
🔧 技術詳細
学習データ
すべてのNorwAI大規模言語モデルは、511.5億個のトークン(303.3億語に相当)で(継続)事前学習されています。これらのデータは、公共のデータセットと、Schibsted、NRK、およびVGのパートナーが協定に基づいて共有したデータから収集されています。公開されているデータセットは、著作権問題のあるテキストをフィルタリングするために前処理され、すべてのデータセットは、機密情報を削除するために前処理されています。
学習インフラストラクチャ
すべてのモデルは、llm-foundaryフレームワークを使用して、ノルウェー工科大学のIDUNクラスター上で事前学習と微調整が行われています。
📞 モデルカードの連絡先
モデルに関する質問がある場合は、以下の担当者に連絡してください。
- Lemei Zhang,lemei.zhang@ntnu.no
- Peng Liu,peng.liu@ntnu.no



