🚀 努恩(Noon) - 70億參數阿拉伯語大語言模型
努恩(Noon)是基於 大科學(bigscience) 研討會發布的基礎模型 BLOOM 的阿拉伯語大語言模型。它擁有70億參數,主要用於響應各種類型的指令和問題,如文本生成、代碼生成、數學問題、封閉式/開放式問題等。
🚀 快速開始
本模型的使用僅需要 Transformers
庫,可按以下方式加載:
from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline
text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'
model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')
tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')
generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
response = generation_pipeline(prompt,
pad_token_id=tokenizer.eos_token_id,
do_sample=False,
num_beams=4,
max_length=500,
top_p=0.1,
top_k=20,
repetition_penalty = 3.0,
no_repeat_ngram_size=3)[0]['generated_text']
print(response)
✨ 主要特性
- 多任務處理:能夠處理多種類型的指令和問題,包括文本生成、代碼生成、數學問題求解等。
- 大規模訓練:基於超過110,000條阿拉伯語數據記錄進行訓練,涵蓋超過1100萬個單詞。
- 先進訓練技術:採用分佈式多GPU訓練、LoRA(低秩適應)和ZeRO(零冗餘優化)等先進訓練技術。
📦 安裝指南
使用本模型僅需安裝 Transformers
庫,可通過以下命令進行安裝:
pip install transformers
💻 使用示例
基礎用法
from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline
text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'
model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')
tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')
generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
response = generation_pipeline(prompt,
pad_token_id=tokenizer.eos_token_id,
do_sample=False,
num_beams=4,
max_length=500,
top_p=0.1,
top_k=20,
repetition_penalty = 3.0,
no_repeat_ngram_size=3)[0]['generated_text']
print(response)
📚 詳細文檔
訓練計算要求
努恩 - 7b 模型使用 ColossalAI 框架在8個A100 GPU上進行分佈式多GPU訓練。
數據集
訓練數據由多個阿拉伯語數據集組合而成,涵蓋多個任務,具體包括:
完整數據集總計超過 110K 條記錄。
評估
通過一組超過4000個阿拉伯語數據樣本,使用 OpenAI的 GPT3.5 Turbo 模型對努恩 - 7b 進行自動評估。為GPT3.5 Turbo提供明確且精心設計的評估標準(與模型的訓練目標以及阿拉伯語的句法和語法規則一致),要求其對努恩模型對輸入指令的每個響應進行 1 - 5 分的評分。最終平均得分達到令人印象深刻的 4.07/5 分。
🔧 技術細節
本模型基於BLOOM模型進行訓練,使用ColossalAI框架,該框架完全支持HuggingFace庫模型,並實現了針對十億級大語言模型的不同優化和量化技術。訓練過程中採用了分佈式多GPU訓練、LoRA(低秩適應)和ZeRO(零冗餘優化)等先進技術。
📄 許可證
本模型使用 bigscience - bloom - rail - 1.0
許可證。
⚠️ 重要提示
本AI模型生成的響應純粹基於算法,應謹慎解讀。模型的輸出可能偶爾會出現偏差、冒犯性語言或潛在有害內容。需要注意的是,這些響應並不反映作者或Naseej組織的個人偏好或觀點。儘管我們盡最大努力減輕模型輸出的有害性,但無法保證完全消除偏差或冒犯性內容。模型從大量數據中學習,可能會無意中複製或放大訓練數據中存在的現有社會偏差。建議用戶批判性地評估和驗證模型提供的信息,在使用模型響應時保持謹慎,特別是在處理敏感或有爭議的話題時。我們致力於持續的研究和開發,以提高模型性能,減少偏差並降低有害輸出。您的反饋和見解對我們實現這些目標非常有價值。