MMAlayaオープンソース多モーダルシステム - 大規模言語モデルを統合した多様なコンテンツ処理アプリケーション

ホーム

Mmalaya

DataCanvasによって開発

MMAlayaは大規模言語モデルAlayaを基に開発されたマルチモーダルシステムで、大規模言語モデル、画像テキスト特徴エンコーダー、特徴変換モジュールの3つのコアコンポーネントを含みます。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル対話 #画像テキスト理解 #中国語大規模モデル

ダウンロード数 31

リリース時間 : 1/23/2024

モデル概要

MMAlayaはマルチモーダルモデルシステムで、画像からテキストへの変換タスクを処理でき、LLaVAフレームワークを基に構築され、中国語処理をサポートしています。

モデル特徴

マルチモーダル能力

視覚と言語処理能力を統合し、画像からテキストへの変換を実現

中国語最適化

中国語シーンに特化して最適化されたマルチモーダル処理能力

モジュール化アーキテクチャ

3つのコアコンポーネントを分離設計し、拡張とメンテナンスが容易

モデル能力

画像理解

画像説明生成

マルチモーダル推論

中国語テキスト生成

使用事例

視覚的質問応答

画像内容の説明

入力画像に対して詳細な中国語説明を生成

マルチモーダルインタラクション

画像に基づく対話

画像内容に基づいて自然言語対話を行う

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Mmalaya

モデル概要

モデル特徴

モデル能力

使用事例

🚀 MMAlaya

✨ 主な機能

🔧 技術詳細

💻 使用例

📄 ライセンス