Norwai Mixtral 8x7B Instruct
模型概述
模型特點
模型能力
使用案例
🚀 NorwAI-Mixtral-8x7B-instruct模型
NorwAI-Mixtral-8x7B-instruct是NorwAI-Mixtral-8x7B的指令調優變體,使用了約9000條自收集的高質量挪威語指令進行調優。該模型屬於NowAI大語言模型家族,由挪威科技大學(NTNU)的NowAI研究中心與Schibsted、NRK、VG和挪威國家圖書館合作開發。NowAI大語言模型家族致力於推動挪威語語言模型的研究和應用發展。
📄 許可證
NorLLM許可證
使用、複製和分發的條款與條件
- 定義
- “許可證”指本文件第1至9節所定義的使用、複製和分發的條款與條件。
- “許可方”指挪威科技大學(NTNU)。
- “法律實體”指行為實體以及所有控制該實體、受該實體控制或與該實體受共同控制的其他實體的聯合體。就本定義而言,“控制”指(i)直接或間接導致該實體的經營方向或管理的權力,無論是通過合同還是其他方式;(ii)擁有已發行股份的百分之五十(50%)或更多;或(iii)對該實體的實益所有權。
- “您”指行使本許可證授予權限的個人或法律實體。
- “源代碼形式”指便於進行修改的首選形式,包括但不限於軟件源代碼、文檔源文件和配置文件。
- “目標代碼形式”指由源代碼形式經過機械轉換或翻譯而產生的任何形式,包括但不限於編譯後的目標代碼、生成的文檔以及轉換為其他媒體類型的內容。
- “作品”指根據本許可證提供的、以源代碼或目標代碼形式存在的版權作品,由包含在作品中或附於作品的版權聲明所指明(附錄中提供了一個示例)。
- “衍生作品”指基於(或源自)本作品的任何作品,無論是源代碼形式還是目標代碼形式,且其編輯修訂、註釋、闡述或其他修改整體上構成原創版權作品。就本許可證而言,衍生作品不包括與本作品及其衍生作品保持可分離狀態,或僅與本作品及其衍生作品的接口進行鏈接(或按名稱綁定)的作品。
- “貢獻”指任何版權作品,包括作品的原始版本以及對該作品或其衍生作品的任何修改或補充,由版權所有者或經版權所有者授權代表其提交的個人或法律實體有意提交給許可方以納入作品。就本定義而言,“提交”指發送給許可方或其代表的任何形式的電子、口頭或書面通信,包括但不限於在電子郵件列表、源代碼控制系統和問題跟蹤系統上進行的通信,這些系統由許可方或代表許可方管理,用於討論和改進作品,但不包括版權所有者明確標記或以書面形式指定為“非貢獻”的通信。
- “貢獻者”指許可方以及代表其提交的貢獻已被許可方接收並隨後納入作品的任何個人或法律實體。
- 版權許可授予 在遵守本許可證的條款和條件的前提下,每個貢獻者在此授予您永久、全球、非獨佔、免費、免版稅、不可撤銷的版權許可,允許您複製、創作衍生作品、公開展示、公開表演、再許可和分發本作品及其衍生作品,無論是源代碼形式還是目標代碼形式。
- 專利許可授予 在遵守本許可證的條款和條件的前提下,每個貢獻者在此授予您永久、全球、非獨佔、免費、免版稅、不可撤銷(除非本節另有規定)的專利許可,允許您製造、委託製造、使用、提供銷售、銷售、進口以及以其他方式轉讓本作品,該許可僅適用於該貢獻者可許可的那些專利主張,這些主張必然因他們的貢獻本身或因他們的貢獻與提交該貢獻的作品相結合而被侵犯。如果您對任何實體提起專利訴訟(包括在訴訟中的交叉索賠或反訴),聲稱本作品或納入本作品的貢獻構成直接或間接專利侵權,則本許可證授予您的關於該作品的任何專利許可將自提起該訴訟之日起終止。
- 再分發
您可以在任何介質上覆制和分發本作品或其衍生作品,無論是否進行修改,無論是源代碼形式還是目標代碼形式,但需滿足以下條件:
- 使用限制:本作品或其衍生作品可在第4.2條定義的地理範圍內免費使用。使用僅限於您自己的目的,不得用於轉售,也不得用於可能侵犯或對健康、安全、環境保護和/或基本權利(如人的尊嚴權、尊重私人和家庭生活權、個人數據保護權、言論和信息自由權、集會和結社自由權以及非歧視權、消費者保護權和保護兒童的特定權利)產生負面影響的目的。
- 地理限制:只有在北歐國家(丹麥、挪威、瑞典、芬蘭和冰島)設有住所或註冊總部的組織,在遵守本許可證的其他條款的前提下,才允許在無需額外同意的情況下使用本作品或其衍生作品。
- 歸屬要求:
- 您必須向本作品或其衍生作品的任何其他接收者提供本許可證的副本。
- 您必須使任何修改過的文件帶有顯著的通知,說明您對這些文件進行了更改。
- 您必須在分發的任何衍生作品的源代碼形式中保留本作品源代碼形式中的所有版權、專利、商標和歸屬聲明,但不包括與衍生作品的任何部分無關的聲明。
- 如果本作品在分發時包含一個“NOTICE”文本文件,則您分發的任何衍生作品必須在以下至少一個位置包含該NOTICE文件中所含歸屬聲明的可讀副本,但不包括與衍生作品的任何部分無關的聲明:作為衍生作品一部分分發的NOTICE文本文件中;如果隨衍生作品提供了源代碼形式或文檔,則在其中包含;或者,如果第三方聲明通常會在衍生作品生成的顯示中出現,則在該顯示中包含。NOTICE文件的內容僅用於提供信息,不修改本許可證。您可以在分發的衍生作品中添加自己的歸屬聲明,與本作品的NOTICE文本並列或作為其附錄,但前提是這些額外的歸屬聲明不能被解釋為修改本許可證。
- 您可以在您的修改中添加自己的版權聲明,並可以為您的修改或任何此類衍生作品整體的使用、複製或分發提供額外或不同的許可條款和條件,前提是您對本作品的使用、複製和分發符合本許可證中規定的條件。
- 貢獻提交 除非您明確另有說明,否則您有意提交給許可方以納入作品的任何貢獻應受本許可證的條款和條件約束,無需任何額外的條款和條件。儘管有上述規定,本文件中的任何內容均不得取代或修改您可能與許可方就此類貢獻簽訂的任何單獨許可協議的條款。
- 商標 本許可證不授予使用許可方的商號、商標、服務標記或產品名稱的許可,但描述作品的來源和複製NOTICE文件的內容所需的情況除外。
- 保修免責聲明 除非適用法律要求或書面同意,許可方按“現狀”提供本作品(每個貢獻者也按“現狀”提供其貢獻),不提供任何形式的明示或暗示的保證或條件,包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證或條件。您獨自負責確定使用或再分發本作品的適當性,並承擔因行使本許可證授予的權限而產生的任何風險。
- 責任限制 在任何情況下,無論根據何種法律理論,無論是侵權(包括疏忽)、合同還是其他情況,除非適用法律要求(如故意和重大過失行為)或書面同意,任何貢獻者均不對您承擔損害賠償責任,包括因本許可證或因使用或無法使用本作品而產生的任何直接、間接、特殊、偶然或後果性損害(包括但不限於商譽損失、工作停頓、計算機故障或故障以及任何和所有其他商業損害或損失),即使該貢獻者已被告知可能發生此類損害的可能性。
- 接受保修或額外責任 在再分發本作品或其衍生作品時,您可以選擇提供並收取費用,以接受支持、保修、賠償或其他與本許可證一致的責任義務和/或權利。但是,在接受此類義務時,您只能代表自己並獨自承擔責任,而不能代表任何其他貢獻者,並且只有在您同意賠償、辯護並使每個貢獻者免受因您接受任何此類保修或額外責任而產生的任何責任或針對該貢獻者提出的任何索賠的情況下才能這樣做。
聯繫方式
- 技術問題聯繫人:Lemei Zhang (lemei.zhang@ntnu.no),Peng Liu (peng.liu@ntnu.no)
- 許可證問題聯繫人:Jon Atle Gulla (jon.atle.gulla@ntnu.no)
許可證確認相關信息
- 額外必填字段:姓名、組織、國家、工作郵箱
- 使用目的選擇:研究、教育、商業、其他
- 確認勾選:我已閱讀並接受NorLLM許可證的條件
- 確認許可證標題:確認許可證以接受該倉庫
- 確認許可證描述:我們的團隊可能需要1 - 2天來處理您的請求
- 確認許可證按鈕內容:確認許可證
請注意,訪問僅限於北歐國家的學生、公司和組織。請提供您的工作郵箱或學生郵箱以訪問模型。感謝您的理解。
📚 模型詳情
模型概述
NorwAI-Mixtral-8x7B-instruct是基於NorwAI-Mixtral-8x7B進行指令調優的變體模型,使用了約9000條自收集的高質量挪威語指令。它屬於NowAI大語言模型家族,該家族由挪威科技大學(NTNU)的NowAI研究中心與Schibsted、NRK、VG和挪威國家圖書館合作開發。NowAI大語言模型家族包含一系列7B和45B規模的預訓練、繼續預訓練和指令調優的生成式文本模型,所有預訓練和繼續預訓練模型都在相同的數據集上使用相同的分詞器進行訓練,指令調優模型則使用從挪威母語者收集的高質量挪威語指令進行優化。
模型基本信息
屬性 | 詳情 |
---|---|
模型類型 | 生成式文本模型 |
開發團隊 | 挪威科技大學(NTNU)的NowAI研究中心、Schibsted和VG |
語言(NLP) | 挪威語 |
微調基礎模型 | NorwAI-Mixtral-8x7B |
分詞器 | 通過將Llama 2分詞器與我們自己訓練的挪威語分詞器的詞彙表合併,擴展了挪威語詞彙表。擴展後的詞彙表大小為64000。 |
模型發佈日期 | 2024年5月15日,且持續更新 |
NowAI LLM家族模型列表
模型名稱 | 參數數量 | 訓練方案 | 上下文長度 | 基礎模型 |
---|---|---|---|---|
NorwAI-Mistral-7B | 7B | 繼續預訓練 | 32k | Mistral-7B-v0.1 |
NorwAI-Mistral-7B-pretrain | 7B | 從頭開始預訓練 | 32k | Mistral-7B-v0.1 |
NorwAI-Llama2-7B | 7B | 繼續預訓練 | 4096 | Llama2 |
NorwAI-Mixtral-8x7B | 45B | 繼續預訓練 | 32k | Mixtral-8x7B-v0.1 |
NorwAI-Mistral-7B-instruct | 7B | 指令調優 | 32k | NorwAI-Mistral-7B |
NorwAI-Mixtral-8x7B-instruct | 45B | 指令調優 | 32k | NorwAI-Mixtral-8x7B |
💻 使用場景
NowAI大語言模型旨在供北歐國家的商業和研究使用。若要訪問該模型,請仔細閱讀相關信息並填寫所需內容。
⚠️ 偏差、風險和侷限性
該模型可能存在大語言模型常見的潛在風險,如幻覺、事實不一致、毒性和偏差等。
💻 使用示例
基礎用法
我們有兩種指令調優的提示模板:
If we have input data, we use Prompt 1: {instruction}\n\n{inst_input}\nAnswer:
If we do not have iniput data, we use Prompt 2: {instruction}\n\nAnswer:
以下是加載模型的示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_and_tokenizer_path = "NorwAI/NorwAI-Mixtral-8x7B-instruct"
access_token = "<your access token>"
# import tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_and_tokenizer_path, token=access_token)
model = AutoModelForCausalLM.from_pretrained(model_and_tokenizer_path, token=access_token, device_map='balanced')
# define your own prompt
prompt = """Hvilket av de følgende alternativene er Norges nordligste punkt?\n\na) Nordkapp b) Alta c) Vardø d) Hammerfest\n
Svar:"""
# generate response
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs,
min_new_tokens=50,
max_new_tokens=100,
do_sample=True,
temperature=0.3)
outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
根據我們的測試,將Answer
替換為Svar
也能達到相同的效果。
🔧 技術細節
訓練數據
所有NorwAI大語言模型都在511.5億個標記(相當於303.3億個單詞)上進行了(繼續)預訓練,這些數據來自公共數據集以及Schibsted、NRK和VG合作伙伴根據協議共享的數據。對公開可用的數據集進行了預處理,以過濾掉存在版權問題的文本,並對所有數據集進行了預處理,以去除敏感信息。
訓練基礎設施
所有模型都使用llm-foundary框架在挪威科技大學的IDUN集群上進行了預訓練和微調。
📞 模型卡片聯繫信息
如果您對模型有任何疑問,請聯繫以下人員:
- Lemei Zhang,lemei.zhang@ntnu.no
- Peng Liu,peng.liu@ntnu.no



