Y

Yoso 4096

uw-madisonによって開発
YOSOは、ベルヌーイサンプリング注意メカニズムを通じて自己注意の複雑度を二次から線形に下げ、最大4096のシーケンス長をサポートする、効率的なTransformerの変種です。
ダウンロード数 2,072
リリース時間 : 3/2/2022

モデル概要

YOSOモデルは、長シーケンスのマスク言語モデリング用に設計されており、改良された局所敏感ハッシュ(LSH)とベルヌーイサンプリング注意メカニズムを採用し、計算効率を大幅に向上させます。

モデル特徴

線形複雑度注意
ベルヌーイサンプリングにより、従来のTransformerのO(n²)の注意複雑度をO(n)に下げます。
長シーケンスサポート
4096の長さのシーケンス用に最適化されており、標準の512長のTransformerよりも大幅に優れています。
GPU最適化設計
改良されたLSHの実装は、GPUアーキテクチャに合わせて特別に最適化されています。

モデル能力

長テキストの意味理解
マスク語の予測
コンテキスト特徴抽出

使用事例

自然言語処理
テキスト補完
マスクで隠されたテキスト内容を予測します。
例では、「パリはフランスの[MASK]」に対して「首都」などの合理的な結果が予測されます。
長文書分析
最大4096トークンの文書シーケンスを処理します。
LRAベンチマークテストで、他の効率的な注意方法よりも優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase