🚀 Noon - 70億パラメータのアラビア語大規模言語モデル
Noonは、bigscienceワークショップが公開した基礎モデルBLOOMに基づくアラビア語大規模言語モデルです。ここでは、70億パラメータのバリアントを紹介します。
Noonは、様々な種類の指示や質問(テキスト生成、コード生成、数学問題、クローズ/オープンブックの質問など)に応答するモデルを目指して学習されました。
このモデルは、HuggingFaceライブラリのモデルを完全にサポートし、数十億規模の大規模言語モデル(LLM)に対するさまざまな最適化と量子化技術を実装したColossalAIフレームワークを使用して学習されました。
学習データは、複数のタスクをカバーするアラビア語データセットの組み合わせで、データセットのセクションで詳細を提供しています。
🚀 クイックスタート
このモデルを使用するには、Transformersライブラリが必要です。以下のようにロードできます。
from transformers import BloomTokenizerFast, BloomForCausalLM, pipeline
text="اكتب مقالا من عدة أسطر عن الذكاء الصناعي وتطوراته"
prompt = f'Instruction:\n{text}\n\nResponse:'
model = BloomForCausalLM.from_pretrained('Naseej/noon-7b')
tokenizer = BloomTokenizerFast.from_pretrained('Naseej/noon-7b')
generation_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
response = generation_pipeline(prompt,
pad_token_id=tokenizer.eos_token_id,
do_sample=False,
num_beams=4,
max_length=500,
top_p=0.1,
top_k=20,
repetition_penalty = 3.0,
no_repeat_ngram_size=3)[0]['generated_text']
print(response)
✨ 主な機能
Noonは、70億を超えるパラメータを持ち、これまでに公開された最大のアラビア語言語モデルです。このモデルは、110,000を超えるアラビア語のデータレコードで学習され、1100万を超える単語をカバーしています。テキスト生成、コード生成、数学問題の解決、クローズ/オープンブックの質問など、様々なタスクに対応しています。また、複数のGPUでの分散学習、LoRA(Low Rank Adaptation)の適応、ZeRO(Zero Redundancy Optimization)の最適化など、高度な学習技術を使用して学習されています。
🔧 技術詳細
学習の計算要件
Noon - 7bは、ColossalAIフレームワークを介した分散型マルチGPU学習を使用して、8つのA100 GPUで学習されました。
データセット
データポイントの多様性を確保し、指示に基づく微調整の目的を達成するために、特定の指示タイプに合わせた一連のデータセットを収集、ラベル付け、フィルタリング、レビューしました。すべてのデータセットはアラビア語で構成されており、以下のものが含まれます。
データセット全体では、110,000を超えるレコードが含まれています。
評価
4000を超えるアラビア語のデータサンプルを使用して、Noon - 7bは**OpenAIのGPT3.5 Turbo**モデルを使用して自動評価されました。
明確で注意深く作成された評価基準(モデルの学習目的およびアラビア語の構文および文法規則に合致する)を与えられたGPT3.5 Turboは、入力指示に対するNoonの各応答を1 - 5の尺度で評価するように促されました。
提供されたスコアを平均することで評価をまとめ、印象的な最終スコア4.07/5を達成しました。
⚠️ 重要提示
この提案されたフレームワークは完全な解決策ではなく、まだ研究が進行中の分野であることを認識していますが、人間の評価を合理的に満足できる程度に再現する可能性があると考えています。
📄 ライセンス
このモデルは、bigscience - bloom - rail - 1.0ライセンスの下で提供されています。
⚠️ 重要提示
このAIモデルから生成される応答は純粋にアルゴリズムに基づいており、注意して解釈する必要があります。モデルの出力には、時折、バイアス、不快な言葉、または潜在的に有害な内容が含まれる場合があります。これらの応答は、著者またはNaseej組織の個人的な好みや見解を反映していないことに注意することが重要です。
モデルの出力の有害性を軽減するために尽力していますが、バイアスや不快な内容を完全に排除することは保証できません。モデルは大量のデータから学習し、学習データに存在する既存の社会的バイアスを誤って再現または増幅する可能性があります。
ユーザーは、モデルが提供する情報を批判的に評価し、検証することを推奨します。特に敏感または物議を醸すトピックにおいて、モデルの応答を利用する際には慎重を期してください。
私たちは、モデルの性能を向上させ、バイアスを最小限に抑え、有害な出力を減らすための継続的な研究と開発に取り組んでいます。あなたのフィードバックと洞察は、これらの目標を達成するのに役立ちます。