TongFlow は、オープンソースのマルチモーダル GenAI ワークフロースタジオです。 あらゆる AI モデルを無限キャンバス上のノードに変え、テキスト・画像・動画・音声・ドキュメント・3D モデルを、まるでブロックを組むようにつなぎ合わせて——単一のモデルだけでは作れないものを生み出せます。

30 秒でわかる

素材をキャンバスに置き、次のステップを選ぶと、接続は自動でつながります——あとは実行するだけ。パラメータ面も手動配線も不要。アイデアはこれだけです。すでにこんなものが作られています：

基本 —— テキストを入力し、画像を生成し、それらを 1 枚に合成する。
トーキングヘッド動画 —— テーマ → 台本 → 音声、さらにキャラクター説明 → 画像、これらを合成してリップシンクのアバター動画に。
ミュージックビデオ —— 歌詞 + 楽曲 + キャラクター + シーン + 絵コンテを生成し、1 本の MV に組み立てる。

それぞれの成果の裏側にあるワークフローは、GitHub のデモと GIF でご覧いただけます。

なぜ作ったのか

AI の能力は爆発的に増えています——text-to-image、image-to-video、text-to-speech、リップシンク、超解像——しかしそれらは別々のツールに散らばっています。それぞれに独自の UI とパラメータがあり、ファイルを次へ運ぶのは手作業です。アイデアが複数のモダリティにまたがった瞬間、摩擦が勝ってしまう。

TongFlow の答えは 1 枚のキャンバスです。あらゆる能力がノードであり、各ノードは型付きの契約に従い、接続は自動で行われます。こうして難しい部分は、ふたたび「創作」そのものに戻ります。

コアとなる考え方

すべてのモデルを、ひとつのメンタルモデルで

どんな AI モデルも「何を何に変えるか」で捉えます。LLM は text → text、拡散モデルは text → image、text-to-speech は text → audio、音声認識は audio → text、3D ジェネレータは image → 3D。あらゆる能力は同じ種類のもの——すなわちモダリティ変換です。だから TongFlow は、それぞれを型付き入出力を持つノードとして包み込みます。増え続ける多種多様な AI モデルの世界が、ひとつの一貫したメンタルモデルに収束する。新しいモデルが登場しても、それは単なるもう一つのノードにすぎず、あなたの使い方は何も変わりません。

すべてのモダリティ、生成だけにとどまらない

画像・動画・音声・テキスト・ドキュメント・3D——Web で実際にやり取りされる形式——がすべて一級市民です。しかも「生成」だけではありません。編集、理解、超解像、文字起こし、そしてモダリティ間の変換が自在にできます。テキストが画像になり、画像が動画として動き出し、動画は生成された音声にリップシンクされる。ドキュメントや URL もテキストになり、次のステップに渡せます。何を持ち込んでも、欲しい成果へ至る道があります。

低い参入障壁

CFG スケールもサンプラー設定も、パラメータ画面に埋もれたシード値もありません——手動配線も不要です。扱うのは 3 つの動詞だけ：素材を**追加（Add）**し、**変換（Transform）し、結果を合成（Combine）**する。キャンバスに何かを置き、次のステップを選べば、接続は自動でつながります。デスクトップアプリを入れれば数分で制作を始められます——機械学習の知識は要りません。

高い可能性

どのノードも他のあらゆるノードと組み合わさるため、シンプルな部品が野心的な成果へと連なります。歌詞 → 楽曲 → キャラクター → シーン → 絵コンテ → 完成した MV、すべて 1 枚のキャンバス上で。インターフェースは簡単なまま、しかし組み合わせの空間は膨大です。モデルを自由に編成すれば、生まれるのは紛れもなくあなた自身の作品——どこかのツールが吐き出す唯一の決まった出力ではありません。床は低く、天井はモデルエコシステムの拡大とともに上がり続けます。

開かれたエコシステム

TongFlow のコアは意図的に小さく保たれています。各能力ノードは契約によって定義され、少なくとも 1 つの公式プラグインがそれを実装します——だから箱から出してすぐ使えます——一方で、誰もが代替実装を公開できます。API プロバイダ、GPU ホスト、CPU サービス：どのプラットフォームも同じ方法で独自プラグインをパッケージ化でき、各能力の「最良の実装」は、それを最も得意とする者から生まれ得ます。コアは小さく、エコシステムは開かれたまま。

能力の全体像

インターフェースは 4 つのグループに集約されます：

追加（Add） —— 素材をキャンバスへ：テキスト、画像、撮影、手描き、音声、録音、動画、ドキュメント、URL、3D モデル。
変換（Transform） —— モダリティ間の変換：テキスト書き換え；画像の生成 / 編集 / 理解 / 超解像；text-to-video / image-to-video / 先頭・末尾フレーム / 動画理解；音楽生成；text-to-speech（ボイスクローンを含む）；音声認識。
合成（Combine） —— 結果を組み合わせる：画像融合、リップシンク、キャラクター置換、モーション転送、テキスト結合。
ヘルパー（Helpers） —— 制作のための接着剤：クリップ連結、音声 + 動画のミックス、ショット分割、トラック抽出、長文の分割など。

README で ✅ が付いたノードは公式プラグインで即利用可能、⬜ はキャンバス上に存在し計画中です。

5 分で始める

デスクトップアプリをインストール —— macOS（Apple Silicon / Intel）と Windows のビルドは Releases ページにあります。初回起動時、キャンバスにはサンプルワークフローがプリロードされています。
プラグインをインストール —— アプリは初期状態でプラグインを持ちません。プラグインマネージャーを開いて必要なものを入れましょう。新しいプラグインは再起動なしですぐに使えます。
認証情報を設定 —— Settings を開き、プラグインに必要な環境変数（例：OPENAI_API_KEY、GPU プラグインなら MODAL_TOKEN_*）を追加します。値はローカルに保存され、再起動なしで反映されます。
サンプルを実行 —— ノードごとに実行するか、Execute モードに切り替えてグラフ全体をワンクリックで実行。

無料で始められる——しかもお試しの仕掛けではありません。 公式の GPU/CPU プラグインは Modal 上で動作し、新規アカウントには毎月最大 30 ドル分の無料 GPU 計算が、H100/A100 クラスの実機で与えられます。これは画像の生成、動画のアニメーション化、音声や音楽の合成、そして複数ステップのパイプライン全体を回すのに十分な量です——GPU を所有することも、1 円を払うこともなく。毎月ゼロコストでワークフローをアイデアから完成品まで持っていけます。自分の鍵を使うのも、スケールアップするのも、準備ができてからで構いません。

開発者向け：プラグインアーキテクチャ

実行可能なノードはすべて、契約——ABI（config/tongflow.abi.json）——に支えられています。これはどんな能力が存在するか、各能力の入出力がどんな形かを、誰が実装するかとは独立に定義します。

プラグインは小さな Python パッケージで、1 つ以上の ABI スロットを選んで「どうやるか」を提供し、tongflow Python SDK 経由で ABI から生成された型に対して注釈を付けます。
コンパイル時の契約。 ABI から生成された TypeScript 型と Python の Pydantic モデルがすべての関門です——タイプミスや形の不一致は tsc / pyright が検出し、実行時バリデーションのオーバーヘッドはありません。
バックエンド中立。 SDK は Modal に依存しません。どのプラットフォーム——API プロバイダ、GPU ホスト、CPU サービス——も同じ方法で独自プラグインを公開できます。

公式カタログはすでに API プラグイン（OpenAI、Gemini、OpenRouter）と GPU/CPU プラグイン（Z-Image、FLUX.2 Klein 9B、LTX、InfiniteTalk、Wan-Animate、SeedVR2、Whisper、Qwen3、ACE-Step など）をカバーしています。開発の全フローは docs/PLUGINS.md にあります。

誰のためのものか

クリエイター —— ツールを手作業でつなぐことなく、トーキングヘッド動画、MV、ショート動画のパイプラインを構築。
開発者・プラットフォーム —— 自社モデルをプラグインとしてパッケージ化し、エコシステムに接続。
企業 —— ローカル GPU へのデプロイ、カスタムノードの構築、プライベートモデルの統合。

オープンソース、ライセンス、コミュニティ

TongFlow はデュアルライセンスです：AGPL-3.0（個人・研究・オープンソースプロジェクトは無料）と、クローズドソースや SaaS 向けの商用ライセンス。ビジネスのお問い合わせは business@tongflow.com まで。

このプロジェクトが役立ったら、GitHub でのスターが大きな助けになります。Discord で一緒に作りましょう。あるいはホスト版 app.tongflow.com ですぐに始められます。

想像を広げ、アイデアを伸ばす——ぜひ試してみてください。

TongFlow：オープンソースのマルチモーダル GenAI ワークフロースタジオ