T

Travisionlm Base

ucsahinによって開発
初のトルコ語視覚言語モデル、軽量(8.75億パラメータ)、トルコ語の指示を理解し画像に基づいて応答を生成可能。
ダウンロード数 136
リリース時間 : 8/5/2024

モデル概要

TraVisionLMは視覚エンコーダーと言語モデルを統合したマルチモーダルモデルで、トルコ語向けに設計され、画像理解とテキスト生成タスクをサポートします。

モデル特徴

軽量で効率的
わずか8.75億パラメータで推論速度が速く、リソースが限られた環境に適しています。
トルコ語最適化
トルコ語向けに設計された初の視覚言語モデルで、この言語の空白を埋めます。
マルチモーダル融合
革新的な視覚プロジェクタ設計により、画像とテキストの効率的なアラインメントを実現。
使いやすさ
Transformersライブラリと完全互換で、追加の依存関係なしでロードして使用可能。

モデル能力

画像キャプション生成
視覚的質問応答
画像テキスト検索
ビデオ質問応答(フレームサンプリング経由)

使用事例

画像理解
簡潔な説明
画像の簡潔な説明を生成し、迅速な内容理解に適しています。
幻覚現象が少なく、精度が高い
詳細な説明
豊富な詳細を含む画像説明を生成します。
画像外の推測詳細を含む場合がある
視覚的質問応答
オープンエンド質問
画像内容に関するオープンエンド質問に回答します。
生成パラメータを調整して回答品質を最適化する必要がある
拡張アプリケーション
ビデオ分析
フレームサンプリングによりビデオ内容の質問応答を実現。
画像テキスト検索
アーキテクチャを変更せずに画像テキスト検索タスクをサポート。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase