🚀 FastwebMIIA - イタリアの人工知能モデル
このモデルカードでは、Fastwebによって開発されたFastwebMIIA(Modello Italiano di Intelligenza Artificiale)の概要を提供します。FastwebMIIAは、イタリア語と英語に特化した大規模言語モデルで、様々な自然言語処理タスクに利用できます。
🚀 クイックスタート
FastwebMIIAは、複数のプラットフォームを通じて利用可能です。商用または非商用の目的に応じて、以下の方法でモデルにアクセスできます。
オンプレミス(ローコードツール)
FastwebMIIAは、ローコードプラットフォームを介して企業環境内にデプロイできます。これにより、内部チームは安全にモデルをテスト、適応、スケールアップできます。この設定は、厳格なデータガバナンスまたはコンプライアンス要件を持つ組織に最適です。
👉 商用デモをリクエストするか、エンタープライズデプロイについて詳しく知るには、Attivazione.FastwebMIIA@fastweb.itまでお問い合わせください。
Hugging Face
モデルの重みと設定ファイルは、Hugging Face上で公開されています。非商用ライセンスの下で、個人の非専門的な研究活動、または会社の内部での非商用目的の活動にのみ使用できます。ユーザーは、Hugging Faceのツールとホストされたインフラストラクチャを使用して、モデルをダウンロード、ファインチューニング、またはデプロイできます。
✨ 主な機能
- 多言語対応:イタリア語と英語で訓練されており、幅広い言語タスクに対応。
- 大規模コンテキストウィンドウ:16kトークンの拡張コンテキストウィンドウをサポートし、長文の文書や複雑なクエリを扱える。
- 最適化されたトークナイザー:イタリア語、英語、および主要なプログラミング言語に最適化されたカスタムトークナイザーを実装。
📦 インストール
モデルはtransformers==4.45.2を使用して訓練およびテストされました。以下のコードを使用して、モデルを使用できます。
import transformers
import torch
model_id = "Fastweb/FastwebMIIA-7B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="cuda",
)
messages = [
{"role": "system", "content": "Sei FastwebMIIA, il chatbot italiano sviluppato da Fastweb."},
{"role": "user", "content": "Ciao!"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
repetition_penalty=1.1,
top_p=0.9,
temperature=0.1
)
print(outputs[0]["generated_text"][-1])
💻 使用例
基本的な使用法
import transformers
import torch
model_id = "Fastweb/FastwebMIIA-7B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="cuda",
)
messages = [
{"role": "system", "content": "Sei FastwebMIIA, il chatbot italiano sviluppato da Fastweb."},
{"role": "user", "content": "Ciao!"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
repetition_penalty=1.1,
top_p=0.9,
temperature=0.1
)
print(outputs[0]["generated_text"][-1])
📚 ドキュメント
モデル概要
FastwebMIIAは、70億のパラメータを持つ大規模言語モデルで、自己回帰型トランスフォーマーアーキテクチャに基づいて構築されています。イタリア語と文化的なコンテキストに特化して設計および訓練されており、主にイタリア語のコーパスを使用して訓練されています。
プロパティ |
詳細 |
モデルタイプ |
FastwebMIIAは、自己回帰型(因果的、デコーダーのみ)のトランスフォーマーアーキテクチャに基づいています。 |
訓練データ |
モデルは、公開されているデータソースと独自のデータソースを組み合わせた約1.5 * 2 * 10^12のテキストトークンで事前訓練されています。 |
利用可能な言語 |
イタリア語と英語で訓練されています。 |
モデル公開日 |
2025年5月29日 |
ライセンス |
FastwebMIIAは、非商用研究、教育、および内部使用を明示的に許可する非商用ライセンスの下でアクセス可能です。また、商用利用にはカスタム商用ライセンスが必要です。 |
ハードウェアとソフトウェア
FastwebMIIAは、大規模分散訓練に最適化された独自のNVIDIA H100 GPUクラスターで訓練されました。訓練ワークフローは、MLDE(Machine Learning Development Environment)とLLMFoundryを使用して管理され、データ処理、実験追跡、およびスケーラブルなモデル訓練を行いました。
訓練詳細
アーキテクチャ詳細
このモデルは、以下のアーキテクチャハイパーパラメータを持つ自己回帰型トランスフォーマーモデルです。
ハイパーパラメータ |
値 |
レイヤー数 |
32 |
アテンションヘッド数 |
32 |
ヘッドサイズ |
128 |
キーバリューヘッド数 |
8 |
隠れ層次元サイズ |
4096 |
中間(MLP)サイズ |
14,336 |
MLP活性化関数 |
SiLU |
MLPタイプ |
標準 |
アテンションドロップアウト |
0.0 |
MLP/アテンションバイアス |
なし |
正規化タイプ |
RMSNorm |
RMSNormイプシロン |
1e-5 |
語彙サイズ |
50,270 |
シーケンス長(コンテキストウィンドウ) |
16,384 |
ロータリー位置埋め込みタイプ |
LLaMA v3スタイル |
ロータリーベース(rope theta) |
500,000 |
ロータリースケーリング係数 |
8.0 |
高/低周波rope係数 |
4.0 / 1.0 |
重み初期化範囲 |
±0.02 |
結合された単語埋め込み |
なし |
データタイプ |
bfloat16 |
総パラメータ数 |
73.9億 |
トークナイザー
トークナイザーは、Byte-Pair Encodinge(BPE)アルゴリズムを使用して訓練され、Transformersライブラリによって提供される実装を使用しています。語彙サイズは50260で、以下のトークンを含んでいます。
- BPEによって取得された50,000のトークン
- すべてのバイト値を表す256のトークン
- 4つの特殊トークン(BOS、EOS、PAD、UNK)
訓練データ
FastwebMIIAは、公開されているデータソースと独自のデータソースを組み合わせた約1.5 * 2 * 10^12のテキストトークンで事前訓練されています。コーパスは主にイタリア語と英語のコンテンツで構成されており、他のヨーロッパおよび非ヨーロッパの言語も一部含まれています。
制限とバイアス
FastwebMIIAは、幅広い会話および生成タスクを支援するために開発された大規模言語モデルです。訓練データのフィルタリングやキュレーションに努めていますが、いくつかの重要な制限を念頭に置く必要があります。
⚠️ 重要な注意
FastwebMIIAは、事実に誤りがある、誤解を招く、または不完全な応答を生成する可能性があります。モデルは世界の認識や真の理解を持っていないため、見かけ上は妥当であるが誤った出力を生成することがあります。また、訓練データに含まれていた社会的、文化的、または歴史的なバイアスを反映する可能性があります。
意図された使用法
FastwebMIIAは、チャットベースの支援、コンテンツ生成、要約、および情報抽出などのタスク用に構築されたテキスト専用の言語モデルです。研究、開発、および適切なセキュリティ対策を講じたAIアプリケーションへの統合を目的としています。
評価
モデルは、Hugging Faceのlm-evalフレームワークを使用して評価されました。このツールは、言語モデルのパフォーマンスをタスクや言語間で一貫して比較できるようにし、多言語およびドメイン固有の評価の信頼できる基礎を提供します。
一般知識ベンチマークスコア
タスク |
メトリック |
5-shotスコア |
0-shotスコア |
arc_challenge_mt_it |
acc_norm |
0.5 |
0.4317 |
arc_it |
acc_norm |
0.5158 |
0.4559 |
global_mmlu_it |
acc |
0.615 |
0.5525 |
hellaswag_it |
acc_norm |
0.6453 |
0.6453 |
m_mmlu_it |
acc |
0.5707 |
0.5293 |
xcopa_it |
acc |
0.784 |
0.774 |
🔧 技術詳細
ハードウェア
FastwebMIIAは、大規模分散訓練に最適化された独自のNVIDIA H100 GPUクラスターで訓練されました。
ソフトウェア
訓練ワークフローは、MLDE(Machine Learning Development Environment)とLLMFoundryを使用して管理され、データ処理、実験追跡、およびスケーラブルなモデル訓練を行いました。
📄 ライセンス
FastwebMIIAは、非商用研究、教育、および内部使用を明示的に許可する非商用ライセンスの下でアクセス可能です。商用利用には、カスタム商用ライセンスが必要です。
⚠️ 重要な注意
このリポジトリは公開アクセス可能ですが、ファイルやコンテンツにアクセスするには、条件に同意する必要があります。モデルをダウンロード、アクセス、および使用することにより、FastwebMIIAの非商用ライセンス、許容使用ポリシー(AUP)、およびその他の添付文書に完全に同意したことになります。