TongFlow Team

オープンソースのマルチモーダル生成AI
ワークフロースタジオ

すべての AI モデルは無限キャンバス上のノード。モダリティを接続し、結果を組み合わせる。オープンソース。マルチモーダル。どこでも動く。

すべてのダウンロードを見るデモを見る

macOS · Apple シリコン · macOS · Intel · Windows · すべてのプラットフォームとバージョン

open source AGPL-3.0 plugin ecosystem node-based canvas text · image · video · audio · 3D

Add → Transform → Combine

ひとつのキャンバスで、すべてのモダリティを。

複雑なパラメータパネルも、手動でのノード接続も不要 —— 追加、変換、組み合わせだけ。

Add

テキスト、画像、音声、動画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスにドロップするだけでノードになります。

Transform

テキスト→画像、画像→動画、音声→テキスト —— すべての AI モデルがモダリティ変換ノード。配線を変えずにモデルを切り替えられます。

Combine

画像融合、リップシンク、ボイスクローン、キャラクター入れ替え、モーション転写 —— 複数の入力を一つの出力に。内蔵機能、追加プラグインではありません。

データはあなたのパソコンに

ワークフローもアップロードファイルもすべてあなた自身のパソコンに保存されます。アカウント登録不要、クラウド同期なし、テレメトリ送信なし。

自分のキーで、自分のサービスを

テキスト生成は OpenRouter / Gemini / OpenAI / DeepSeek から好きなプロバイダを接続するだけ。GPU 推論は Modal で動きます（無料枠あり）。

実在するモデル、明記

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 実際に動いているモデル名は README に明記しています。製品名の裏に隠しません。

Add

テキスト、画像、音声、動画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスにドロップするだけでノードになります。

Transform

テキスト→画像、画像→動画、音声→テキスト —— すべての AI モデルがモダリティ変換ノード。配線を変えずにモデルを切り替えられます。

Combine

画像融合、リップシンク、ボイスクローン、キャラクター入れ替え、モーション転写 —— 複数の入力を一つの出力に。内蔵機能、追加プラグインではありません。

データはあなたのパソコンに

ワークフローもアップロードファイルもすべてあなた自身のパソコンに保存されます。アカウント登録不要、クラウド同期なし、テレメトリ送信なし。

自分のキーで、自分のサービスを

テキスト生成は OpenRouter / Gemini / OpenAI / DeepSeek から好きなプロバイダを接続するだけ。GPU 推論は Modal で動きます（無料枠あり）。

実在するモデル、明記

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 実際に動いているモデル名は README に明記しています。製品名の裏に隠しません。

現在実装されている機能

すべて README からそのまま転載しています。ここに載っているものは今日から使えます。

Add：11 種類の入力

テキスト、画像、写真、スケッチ、音声ファイル、録音、動画ファイル、録画、ドキュメント、URL、3D モデル —— あらゆる素材をキャンバスに配置できます。

Transform：画像

テキスト→画像、画像編集（インペイント / 再描画）、画像理解（キャプション・Q&A）、画像のアップスケール。

Transform：動画

テキスト→動画、画像→動画、最初/最後フレーム抽出、動画理解、動画アップスケール。

Transform：音声

音楽生成、音声合成（プリセット / ボイスクローン / 指示型）、音声認識。

Transform：テキスト

プロンプトから生成・リライト —— ノードのモデルスロットに応じて OpenRouter / Gemini / OpenAI / DeepSeek にルーティングされます。

Combine 組み合わせ

画像融合（複数参照のブレンド）、リップシンク（音声+動画 / 音声+画像 / 音声+テキスト → 動画）、ボイスクローン、キャラクター入れ替え、モーション転写、テキスト結合。

ヘルパー

動画連結、音声＋動画ミックス、ショット分割、デマックス、音声トラック抽出、長文分割、テキストブロック結合、クリップフィルタ、バッチ整列。

ブリッジ

ドキュメント → テキスト、URL → テキスト —— 外部素材をキャンバスに取り込む。

バックエンドとモデル

FFmpeg メディアパイプライン、Modal GPU Worker。現在稼働中のモデル：Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、InfiniteTalk、Wan-Animate、ACE-Step、Qwen3、Whisper、Gemini、OpenAI、OpenRouter。

FAQ

率直な回答

TongFlow が何で、何でないか。

本当にオープンソースですか？

はい。AGPL-3.0。全ソースコードは github.com/tong-io/tongflow で公開しています —— 閲覧、fork、セルフホストが可能です。app.tongflow.com のクラウドは同じコードで動いています。

クラウドとセルフホストの違いは？

同じコードベース、異なるセットアップコスト。クラウドは設定不要で即座に使えます。セルフホストは完全な制御権を持てます：あなたの API キー、あなたのファイル、アカウント不要、外部依存なし。どちらも一等市民です。

GPU は必要ですか？

ローカルには不要です。重い推論は Modal 上で動き、無料枠に本物の H100 時間が含まれます。Modal トークンと LLM API キー 1 つ（OpenRouter / Gemini / OpenAI / DeepSeek から選択）を用意すれば、TongFlow 自体はノート PC でも動きます。

ComfyUI や n8n とどう違いますか？

ComfyUI は画像生成向け、n8n は API オーケストレーション向けです。TongFlow はテキスト、画像、動画、音声、音声合成、音楽、3D の 7 つすべてのモダリティを一等市民として扱います。Combine ノード（リップシンク、画像融合、モーション転写）は内蔵機能であり、サードパーティ拡張ではありません。

セルフホストの方法は？

git clone https://github.com/tong-io/tongflow && cd tongflow && pnpm install && pnpm dev。必要なのは：Node.js 20+、Modal トークン 1 つ（無料枠で十分）、LLM API キー 1 つ。あとは README に従ってください。

独自のプラグインを作れますか？

できます。ABI にスロットを定義し、@node_slot デコレータを付けた Python 関数を書いて、パッケージとして公開するだけです。バックエンドは何でも使えます —— Modal、Replicate、ローカル GPU、または通常の API。SDK ドキュメントを参照してください。

現在のプロジェクトのステータスは？

2026 年 6 月リリース。初期段階です。コードの貢献、バグ報告、モデル統合を歓迎します。Discord または GitHub Issues へどうぞ。

3 つの入口

デスクトップアプリをダウンロード、クラウドで実行、ソースからセルフホスト —— 同じオープンソースコード、お好みで。

デスクトップ

macOS と Windows 向けの無料アプリ。ダウンロードして開くだけ。

ダウンロード →

セルフホスト


git clone https://github.com/tong-io/tongflow

cd tongflow && pnpm install && pnpm dev

GitHub で見る →

クラウド

同じオープンソースコード。設定不要、即起動。

クラウドを試す →

オープンソースの マルチモーダル 生成AIワークフロースタジオ

ひとつのキャンバスで、すべてのモダリティを。

Add

Transform

Combine

データはあなたのパソコンに

自分のキーで、自分のサービスを

実在するモデル、明記

Add

Transform

Combine

データはあなたのパソコンに

自分のキーで、自分のサービスを

実在するモデル、明記

現在実装されている機能

率直な回答

本当にオープンソースですか？

クラウドとセルフホストの違いは？

GPU は必要ですか？

ComfyUI や n8n とどう違いますか？

セルフホストの方法は？

独自のプラグインを作れますか？

現在のプロジェクトのステータスは？

3 つの入口

オープンソースのマルチモーダル生成AI
ワークフロースタジオ