· TongFlow Team · Product · 12 min read
TongFlow:オープンソースのマルチモーダル GenAI ワークフロースタジオ
あらゆる AI モデルを「モダリティ変換」として捉え、「追加・変換・合成」の 3 つの操作だけで、1 枚の無限キャンバス上にアイデアを自由に組み立てる。
TongFlow は、オープンソースのマルチモーダル GenAI ワークフロースタジオです。 あらゆる AI モデルを無限キャンバス上のノードに変え、テキスト・画像・動画・音声・ドキュメント・3D モデルを、まるでブロックを組むようにつなぎ合わせて——単一のモデルだけでは作れないものを生み出せます。
30 秒でわかる
素材をキャンバスに置き、次のステップを選ぶと、接続は自動でつながります——あとは実行するだけ。パラメータ面も手動配線も不要。アイデアはこれだけです。すでにこんなものが作られています:
- 基本 —— テキストを入力し、画像を生成し、それらを 1 枚に合成する。
- トーキングヘッド動画 —— テーマ → 台本 → 音声、さらにキャラクター説明 → 画像、これらを合成してリップシンクのアバター動画に。
- ミュージックビデオ —— 歌詞 + 楽曲 + キャラクター + シーン + 絵コンテを生成し、1 本の MV に組み立てる。
それぞれの成果の裏側にあるワークフローは、GitHub のデモと GIF でご覧いただけます。
なぜ作ったのか
AI の能力は爆発的に増えています——text-to-image、image-to-video、text-to-speech、リップシンク、超解像——しかしそれらは別々のツールに散らばっています。それぞれに独自の UI とパラメータがあり、ファイルを次へ運ぶのは手作業です。アイデアが複数のモダリティにまたがった瞬間、摩擦が勝ってしまう。
TongFlow の答えは 1 枚のキャンバスです。あらゆる能力がノードであり、各ノードは型付きの契約に従い、接続は自動で行われます。こうして難しい部分は、ふたたび「創作」そのものに戻ります。
コアとなる考え方
すべてのモデルを、ひとつのメンタルモデルで
どんな AI モデルも「何を何に変えるか」で捉えます。LLM は text → text、拡散モデルは text → image、text-to-speech は text → audio、音声認識は audio → text、3D ジェネレータは image → 3D。あらゆる能力は同じ種類のもの——すなわちモダリティ変換です。だから TongFlow は、それぞれを型付き入出力を持つノードとして包み込みます。増え続ける多種多様な AI モデルの世界が、ひとつの一貫したメンタルモデルに収束する。新しいモデルが登場しても、それは単なるもう一つのノードにすぎず、あなたの使い方は何も変わりません。
すべてのモダリティ、生成だけにとどまらない
画像・動画・音声・テキスト・ドキュメント・3D——Web で実際にやり取りされる形式——がすべて一級市民です。しかも「生成」だけではありません。編集、理解、超解像、文字起こし、そしてモダリティ間の変換が自在にできます。テキストが画像になり、画像が動画として動き出し、動画は生成された音声にリップシンクされる。ドキュメントや URL もテキストになり、次のステップに渡せます。何を持ち込んでも、欲しい成果へ至る道があります。
低い参入障壁
CFG スケールもサンプラー設定も、パラメータ画面に埋もれたシード値もありません——手動配線も不要です。扱うのは 3 つの動詞だけ:素材を**追加(Add)**し、**変換(Transform)し、結果を合成(Combine)**する。キャンバスに何かを置き、次のステップを選べば、接続は自動でつながります。デスクトップアプリを入れれば数分で制作を始められます——機械学習の知識は要りません。
高い可能性
どのノードも他のあらゆるノードと組み合わさるため、シンプルな部品が野心的な成果へと連なります。歌詞 → 楽曲 → キャラクター → シーン → 絵コンテ → 完成した MV、すべて 1 枚のキャンバス上で。インターフェースは簡単なまま、しかし組み合わせの空間は膨大です。モデルを自由に編成すれば、生まれるのは紛れもなくあなた自身の作品——どこかのツールが吐き出す唯一の決まった出力ではありません。床は低く、天井はモデルエコシステムの拡大とともに上がり続けます。
開かれたエコシステム
TongFlow のコアは意図的に小さく保たれています。各能力ノードは契約によって定義され、少なくとも 1 つの公式プラグインがそれを実装します——だから箱から出してすぐ使えます——一方で、誰もが代替実装を公開できます。API プロバイダ、GPU ホスト、CPU サービス:どのプラットフォームも同じ方法で独自プラグインをパッケージ化でき、各能力の「最良の実装」は、それを最も得意とする者から生まれ得ます。コアは小さく、エコシステムは開かれたまま。
能力の全体像
インターフェースは 4 つのグループに集約されます:
- 追加(Add) —— 素材をキャンバスへ:テキスト、画像、撮影、手描き、音声、録音、動画、ドキュメント、URL、3D モデル。
- 変換(Transform) —— モダリティ間の変換:テキスト書き換え;画像の生成 / 編集 / 理解 / 超解像;text-to-video / image-to-video / 先頭・末尾フレーム / 動画理解;音楽生成;text-to-speech(ボイスクローンを含む);音声認識。
- 合成(Combine) —— 結果を組み合わせる:画像融合、リップシンク、キャラクター置換、モーション転送、テキスト結合。
- ヘルパー(Helpers) —— 制作のための接着剤:クリップ連結、音声 + 動画のミックス、ショット分割、トラック抽出、長文の分割など。
README で ✅ が付いたノードは公式プラグインで即利用可能、⬜ はキャンバス上に存在し計画中です。
5 分で始める
- デスクトップアプリをインストール —— macOS(Apple Silicon / Intel)と Windows のビルドは Releases ページにあります。初回起動時、キャンバスにはサンプルワークフローがプリロードされています。
- プラグインをインストール —— アプリは初期状態でプラグインを持ちません。プラグインマネージャーを開いて必要なものを入れましょう。新しいプラグインは再起動なしですぐに使えます。
- 認証情報を設定 —— Settings を開き、プラグインに必要な環境変数(例:
OPENAI_API_KEY、GPU プラグインならMODAL_TOKEN_*)を追加します。値はローカルに保存され、再起動なしで反映されます。 - サンプルを実行 —— ノードごとに実行するか、Execute モードに切り替えてグラフ全体をワンクリックで実行。
無料で始められる——しかもお試しの仕掛けではありません。 公式の GPU/CPU プラグインは Modal 上で動作し、新規アカウントには毎月最大 30 ドル分の無料 GPU 計算が、H100/A100 クラスの実機で与えられます。これは画像の生成、動画のアニメーション化、音声や音楽の合成、そして複数ステップのパイプライン全体を回すのに十分な量です——GPU を所有することも、1 円を払うこともなく。毎月ゼロコストでワークフローをアイデアから完成品まで持っていけます。自分の鍵を使うのも、スケールアップするのも、準備ができてからで構いません。
開発者向け:プラグインアーキテクチャ
実行可能なノードはすべて、契約——ABI(config/tongflow.abi.json)——に支えられています。これはどんな能力が存在するか、各能力の入出力がどんな形かを、誰が実装するかとは独立に定義します。
- プラグインは小さな Python パッケージで、1 つ以上の ABI スロットを選んで「どうやるか」を提供し、
tongflowPython SDK 経由で ABI から生成された型に対して注釈を付けます。 - コンパイル時の契約。 ABI から生成された TypeScript 型と Python の Pydantic モデルがすべての関門です——タイプミスや形の不一致は
tsc/pyrightが検出し、実行時バリデーションのオーバーヘッドはありません。 - バックエンド中立。 SDK は Modal に依存しません。どのプラットフォーム——API プロバイダ、GPU ホスト、CPU サービス——も同じ方法で独自プラグインを公開できます。
公式カタログはすでに API プラグイン(OpenAI、Gemini、OpenRouter)と GPU/CPU プラグイン(Z-Image、FLUX.2 Klein 9B、LTX、InfiniteTalk、Wan-Animate、SeedVR2、Whisper、Qwen3、ACE-Step など)をカバーしています。開発の全フローは docs/PLUGINS.md にあります。
誰のためのものか
- クリエイター —— ツールを手作業でつなぐことなく、トーキングヘッド動画、MV、ショート動画のパイプラインを構築。
- 開発者・プラットフォーム —— 自社モデルをプラグインとしてパッケージ化し、エコシステムに接続。
- 企業 —— ローカル GPU へのデプロイ、カスタムノードの構築、プライベートモデルの統合。
オープンソース、ライセンス、コミュニティ
TongFlow はデュアルライセンスです:AGPL-3.0(個人・研究・オープンソースプロジェクトは無料)と、クローズドソースや SaaS 向けの商用ライセンス。ビジネスのお問い合わせは business@tongflow.com まで。
このプロジェクトが役立ったら、GitHub でのスターが大きな助けになります。Discord で一緒に作りましょう。あるいはホスト版 app.tongflow.com ですぐに始められます。
想像を広げ、アイデアを伸ばす——ぜひ試してみてください。
