BAGEL - Wordpressがオープンソースのマルチモーダルベースモデルを発表

BAGELとは？

BAGELは、ByteDanceによってオープンソース化されたマルチモーダルベースモデルで、140億個のパラメータを持ち、そのうち70億個がアクティブである。このモデルはMixed Transformer Expert Architecture (MoT)に基づいており、2つの独立したエンコーダで画像のピクセルレベルと意味レベルの特徴をキャプチャし、画像、テキスト、ビデオ、その他のマルチモーダルデータの効率的な処理をサポートしています。-BAGELは、言語、画像、ビデオ、ネットワークデータを網羅する膨大なマルチモーダルラベル付きデータで事前学習されており、幅広いマルチモーダル特徴やパターンを学習することができます。このモデルは、コンテンツ作成、3Dシーン生成、ユーザインタラクション体験などのシナリオに適しており、マルチモーダルアプリケーションの強力な技術サポートを提供します。

ベーグルの主な機能

画像とテキストの融合理解正確なマッチングのために画像とテキストの関係を理解する。
ビデオ・コンテンツの理解ビデオにおける動的情報と意味的コンテンツの分析。
テキストから画像への変換テキスト記述に基づいて高品質な画像を生成します。
画像の編集と修正既存の画像を自由に編集。
ビデオフレーム予測前のフレームから未来のフレームを予測します。
3Dシーンの理解と操作三次元の物体を認識し、操作する。
ワールド・ナビゲーション3D環境におけるパスプランニングとナビゲーション。
クロスモーダル検索テキストを元に画像や動画を取得します。
マルチモーダル融合タスク異なるモダリティからのデータを融合し、統合された結果を生成する。

BAGEL公式サイトアドレス

プロジェクトのウェブサイト::https://bagel-ai.org/
Githubリポジトリ::https://github.com/bytedance-seed/BAGEL
HuggingFaceモデルライブラリ::https://huggingface.co/ByteDance-Seed/BAGEL
技術論文::https://arxiv.org/pdf/2505.14683
エクスペリエンス・デム・オンライン::https://demo.bagel-ai.org/

BAGELの使い方

ハグ顔モデルライブラリーアクセス::
- 依存関係のインストール::

pip install transformers

- 積載モデル::

from transformers import AutoModel, AutoTokenizer

model_name = "ByteDance-Seed/BAGEL-7B-MoT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

- モデルの使用::

text = "生成一个日落的图像"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

GitHubリポジトリへのアクセス::
- クローン倉庫::

git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL

- 依存関係のインストール::

pip install -r requirements.txt

- 積載モデル::

from bagel_model import BagelModel

model = BagelModel.load_from_checkpoint("path/to/checkpoint")

- 画像の生成::

text = "生成一个日落的图像"
image = model.generate_image(text)
image.save("output_image.png")

BAGELの強み

強力なマルチモーダル理解デュアルエンコーダ設計に基づくBAGELは、マルチモーダルデータの包括的な理解を達成するために、画像のピクセルレベルとセマンティックレベルの特徴の同時キャプチャをサポートします。
質の高い生成能力テキスト記述に基づいて高品質の画像を生成し、複雑な創造的ニーズのための自由形式の画像編集をサポートします。
先進技術アーキテクチャ専門家の混合メカニズムとトークン化プロセスに基づき、膨大なデータの事前学習と組み合わせることで、モデルの効率とパフォーマンスを向上させます。
幅広いアプリケーション・シナリオコンテンツ制作、3Dシーン生成、ビジュアルラーニング、クリエイティブ広告生成、ユーザーインタラクション体験など、さまざまな分野に応用できる。
効率的なトレーニングと最適化混合精度学習と分散学習に基づき、学習効率の大幅な向上とリソース消費の削減を実現。
オープンソースとコミュニティ・サポートオープンソースモデルであるBAGELは、カスタマイズと最適化を容易にするために、コミュニティによる活発なサポートとともにコードとモデルへのアクセスを提供します。