オープンソースの マルチモーダル 生成AI
ワークフロースタジオ
すべての AI モデルは無限キャンバス上のノード。モダリティを接続し、結果を組み合わせる。 オープンソース。マルチモーダル。どこでも動く。
Add → Transform → Combine
ひとつのキャンバスで、すべてのモダリティを。
複雑なパラメータパネルも、手動でのノード接続も不要 —— 追加、変換、組み合わせだけ。
Add
テキスト、画像、音声、動画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスにドロップするだけでノードになります。
Transform
テキスト→画像、画像→動画、音声→テキスト —— すべての AI モデルがモダリティ変換ノード。配線を変えずにモデルを切り替えられます。
Combine
画像融合、リップシンク、ボイスクローン、キャラクター入れ替え、モーション転写 —— 複数の入力を一つの出力に。内蔵機能、追加プラグインではありません。
データはあなたのパソコンに
ワークフローもアップロードファイルもすべてあなた自身のパソコンに保存されます。アカウント登録不要、クラウド同期なし、テレメトリ送信なし。
自分のキーで、自分のサービスを
テキスト生成は OpenRouter / Gemini / OpenAI / DeepSeek から好きなプロバイダを接続するだけ。GPU 推論は Modal で動きます(無料枠あり)。
実在するモデル、明記
Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 実際に動いているモデル名は README に明記しています。製品名の裏に隠しません。
Add
テキスト、画像、音声、動画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスにドロップするだけでノードになります。
Transform
テキスト→画像、画像→動画、音声→テキスト —— すべての AI モデルがモダリティ変換ノード。配線を変えずにモデルを切り替えられます。
Combine
画像融合、リップシンク、ボイスクローン、キャラクター入れ替え、モーション転写 —— 複数の入力を一つの出力に。内蔵機能、追加プラグインではありません。
データはあなたのパソコンに
ワークフローもアップロードファイルもすべてあなた自身のパソコンに保存されます。アカウント登録不要、クラウド同期なし、テレメトリ送信なし。
自分のキーで、自分のサービスを
テキスト生成は OpenRouter / Gemini / OpenAI / DeepSeek から好きなプロバイダを接続するだけ。GPU 推論は Modal で動きます(無料枠あり)。
実在するモデル、明記
Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 実際に動いているモデル名は README に明記しています。製品名の裏に隠しません。
現在実装されている機能
すべて README からそのまま転載しています。ここに載っているものは今日から使えます。
テキスト、画像、写真、スケッチ、音声ファイル、録音、動画ファイル、録画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスに配置できます。
テキスト→画像、画像編集(インペイント / 再描画)、画像理解(キャプション・Q&A)、画像のアップスケール。
テキスト→動画、画像→動画、最初/最後フレーム抽出、動画理解、動画アップスケール。
音楽生成、音声合成(プリセット / ボイスクローン / 指示型)、音声認識。
プロンプトから生成・リライト —— ノードのモデルスロットに応じて OpenRouter / Gemini / OpenAI / DeepSeek にルーティングされます。
画像融合(複数参照のブレンド)、リップシンク(音声+動画 / 音声+画像 / 音声+テキスト → 動画)、ボイスクローン、キャラクター入れ替え、モーション転写、テキスト結合。
動画連結、音声+動画ミックス、ショット分割、デマックス、音声トラック抽出、長文分割、テキストブロック結合、クリップフィルタ、バッチ整列。
ドキュメント → テキスト、URL → テキスト —— 外部素材をキャンバスに取り込む。
FFmpeg メディアパイプライン、Modal GPU Worker。現在稼働中のモデル:Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、InfiniteTalk、Wan-Animate、ACE-Step、Qwen3、Whisper、Gemini、OpenAI、OpenRouter。
FAQ
率直な回答
TongFlow が何で、何でないか。
本当にオープンソースですか?
はい。AGPL-3.0。全ソースコードは github.com/tong-io/tongflow で公開しています —— 閲覧、fork、セルフホストが可能です。app.tongflow.com のクラウドは同じコードで動いています。
クラウドとセルフホストの違いは?
同じコードベース、異なるセットアップコスト。クラウドは設定不要で即座に使えます。セルフホストは完全な制御権を持てます:あなたの API キー、あなたのファイル、アカウント不要、外部依存なし。どちらも一等市民です。
GPU は必要ですか?
ローカルには不要です。重い推論は Modal 上で動き、無料枠に本物の H100 時間が含まれます。Modal トークンと LLM API キー 1 つ(OpenRouter / Gemini / OpenAI / DeepSeek から選択)を用意すれば、TongFlow 自体はノート PC でも動きます。
ComfyUI や n8n とどう違いますか?
ComfyUI は画像生成向け、n8n は API オーケストレーション向けです。TongFlow はテキスト、画像、動画、音声、音声合成、音楽、3D の 7 つすべてのモダリティを一等市民として扱います。Combine ノード(リップシンク、画像融合、モーション転写)は内蔵機能であり、サードパーティ拡張ではありません。
セルフホストの方法は?
git clone https://github.com/tong-io/tongflow && cd tongflow && pnpm install && pnpm dev。必要なのは:Node.js 20+、Modal トークン 1 つ(無料枠で十分)、LLM API キー 1 つ。あとは README に従ってください。
独自のプラグインを作れますか?
できます。ABI にスロットを定義し、@node_slot デコレータを付けた Python 関数を書いて、パッケージとして公開するだけです。バックエンドは何でも使えます —— Modal、Replicate、ローカル GPU、または通常の API。SDK ドキュメントを参照してください。
現在のプロジェクトのステータスは?
2026 年 6 月リリース。初期段階です。コードの貢献、バグ報告、モデル統合を歓迎します。Discord または GitHub Issues へどうぞ。
3 つの入口
デスクトップアプリをダウンロード、クラウドで実行、ソースからセルフホスト —— 同じオープンソースコード、お好みで。