🚀 Yi
🤖 Yiシリーズモデルは、01.AIによってゼロからトレーニングされた次世代のオープンソース大規模言語モデルです。
🙌 双言語モデルを目指し、3Tの多言語コーパスでトレーニングされたYiシリーズモデルは、世界で最も強力なLLMの1つとなり、言語理解、常識推論、読解力などで優れた性能を発揮しています。例えば、
- Yi-34B-Chatモデルは、AlpacaEvalリーダーボード(2024年1月までのデータ)で、GPT-4 Turboに次いで2位にランクインし、他のLLM(GPT-4、Mixtral、Claudeなど)を上回っています。
- Yi-34Bモデルは、Hugging Face Open LLM Leaderboard(事前学習済み)やC-Evalなどの様々なベンチマークで、英語と中国語の両方で、Falcon-180B、Llama-70B、Claudeなどの既存のすべてのオープンソースモデルの中で1位にランクインしています(2023年11月までのデータ)。
🚀 クイックスタート
選択肢
pip
(原文にpipの具体的なコマンドがないため、ここは省略)
docker
(原文にdockerの具体的なコマンドがないため、ここは省略)
llama.cpp
(原文にllama.cppの具体的なコマンドがないため、ここは省略)
conda-lock
(原文にconda-lockの具体的なコマンドがないため、ここは省略)
Webデモ
(原文にWebデモの具体的な手順がないため、ここは省略)
✨ 主な機能
- 高性能:様々なベンチマークで優れた性能を発揮し、言語理解、常識推論、読解力などで高い精度を示します。
- 双言語対応:英語と中国語の両方に対応しており、多言語環境での使用に適しています。
- 多様なモデルサイズ:異なるサイズのモデルが用意されており、異なるユースケースに対応できます。
- 微調整可能:ユーザーの特定の要件に合わせてモデルを微調整することができます。
📦 インストール
(原文に具体的なインストールコマンドがないため、このセクションは省略)
💻 使用例
基本的な使用法
高度な使用法
📚 ドキュメント
概要
- Yiとは何か:Yiシリーズモデルの紹介、モデルの種類、ニュースなどを提供します。
- Yiの使い方:クイックスタート、微調整、量子化、デプロイメント、FAQ、学習ハブなどの情報を提供します。
- なぜYiを選ぶべきか:エコシステム、ベンチマーク、技術レポートなどの情報を提供します。
- 誰がYiを使えるか:Yiの利用対象者について説明します。
- その他:謝辞、免責事項、ライセンスなどの情報を提供します。
モデル情報
チャットモデル
- 4-bitシリーズモデルはAWQによって量子化されています。
- 8-bitシリーズモデルはGPTQによって量子化されています。
- すべての量子化モデルは、消費者向けGPU(3090、4090など)でデプロイできるため、使用の障壁が低くなっています。
ベースモデル
- 200kはおよそ40万の中国語文字に相当します。
- 2023年11月5日にリリースされた以前のバージョンのYi-34B-200Kを使用する場合は、git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf
を実行して重みをダウンロードしてください。
🔧 技術詳細
Llamaアーキテクチャとの関係
💡 TL;DR
YiシリーズモデルはLlamaと同じモデルアーキテクチャを採用していますが、Llamaの派生モデルではありません。
- YiとLlamaはどちらもTransformer構造に基づいており、これは2018年以来大規模言語モデルの標準アーキテクチャとなっています。
- Transformerアーキテクチャに基づいて、Llamaは優れた安定性、信頼性の高い収束性、強力な互換性のため、最新のオープンソースモデルの大部分の新しい基盤となっています。これにより、LlamaはYiを含むモデルの認められた基礎フレームワークとなっています。
- TransformerとLlamaのアーキテクチャのおかげで、他のモデルはその力を活用することができ、ゼロから構築するために必要な労力を削減し、エコシステム内で同じツールを利用することができます。
- ただし、YiシリーズモデルはLlamaの重みを使用していないため、Llamaの派生モデルではありません。
- Llamaの構造はほとんどのオープンソースモデルで採用されているため、モデルの性能を決定する重要な要素はトレーニングデータセット、トレーニングパイプライン、トレーニングインフラストラクチャです。
- 独自の方法で開発されたYiは、ゼロから独自の高品質トレーニングデータセット、効率的なトレーニングパイプライン、強力なトレーニングインフラストラクチャを作成しました。この努力により、Yiシリーズモデルは優れた性能を発揮し、2023年12月のAlpacaリーダーボードでGPT4に次いで、Llamaを上回っています。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下でライセンスされています。詳細については、LICENSEファイルを参照してください。
ニュース
🔥 2024年7月29日: Yi Cookbook 1.0 がリリースされ、中国語と英語のチュートリアルとサンプルが用意されています。
🎯 2024年5月13日: Yi-1.5シリーズモデル がオープンソース化され、コーディング、数学、推論、命令追従能力がさらに向上しています。
🎯 2024年3月16日: Yi-9B-200K
がオープンソース化され、一般公開されました。
🎯 2024年3月8日: Yi技術レポートが公開されました!
🔔 2024年3月7日: Yi-34B-200Kの長文処理能力が強化されました。
"Needle-in-a-Haystack"テストでは、Yi-34B-200Kの性能が10.5%向上し、89.3%から99.8%にまで上昇しました。私たちは引き続き、5Bトークンの長文コンテキストデータミックスでモデルを事前学習し、ほぼ完全な緑色の性能を示しています。
🎯 2024年3月6日: Yi-9B
がオープンソース化され、一般公開されました。
Yi-9B
は、Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5などの同規模のオープンソースモデルの中で最も優れた性能を発揮し、特にコード、数学、常識推論、読解力で優れています。
🎯 2024年1月23日: Yi-VLモデル、Yi-VL-34B
とYi-VL-6B
がオープンソース化され、一般公開されました。
Yi-VL-34B
は、最新のベンチマークで、MMMUやCMMMUを含む、既存のすべてのオープンソースモデルの中で1位にランクインしています(2024年1月までのデータ)。
🎯 2023年11月23日: チャットモデルがオープンソース化され、一般公開されました。
このリリースには、以前にリリースされたベースモデルに基づく2つのチャットモデル、GPTQによって量子化された2つの8-bitモデル、AWQによって量子化された2つの4-bitモデルが含まれています。
Yi-34B-Chat
Yi-34B-Chat-4bits
Yi-34B-Chat-8bits
Yi-6B-Chat
Yi-6B-Chat-4bits
Yi-6B-Chat-8bits
以下の場所で、それらの一部を対話形式で試すことができます。
🔔 2023年11月23日: Yiシリーズモデルのコミュニティライセンス契約がv2.1に更新されました。
🔥 2023年11月8日: Yi-34Bチャットモデルの招待テスト。
申し込みフォーム:
🎯 2023年11月5日: ベースモデル、Yi-6B-200K
とYi-34B-200K
がオープンソース化され、一般公開されました。
このリリースには、前回のリリースと同じパラメータサイズの2つのベースモデルが含まれていますが、コンテキストウィンドウが200Kに拡張されています。
🎯 2023年11月2日: ベースモデル、Yi-6B
とYi-34B
がオープンソース化され、一般公開されました。
最初の公開リリースには、6Bと34Bのパラメータサイズの2つの双言語(英語/中国語)ベースモデルが含まれています。どちらも4Kのシーケンス長でトレーニングされており、推論時に32Kに拡張することができます。
コミュニティへの招待