TongFlow

开源的 多模态 生成式AI
工作流工作室

开源 · 多模态 · 随处可跑。

open source AGPL-3.0 plugin ecosystem node-based canvas text · image · video · audio · 3D

Add → Transform → Combine

一张画布,覆盖所有模态。

没有复杂参数面板,不用手动连线 —— 添加、转换、组合,仅此而已。

Add

文本、图像、音频、视频、文档、URL、3D 模型 —— 任意素材拖上画布,即成节点。

Transform

文本→图像、图像→视频、音频→文本 —— 每个 AI 模型都是一个模态转换节点,随时切换模型,无需重新连线。

Combine

图像融合、口型同步、声音克隆、角色替换、动作迁移 —— 多路输入合并为单一输出。内置,不是插件。

数据留在你自己的电脑上

工作流和上传文件都保存在你自己的电脑上。无需注册账号、无云端同步、无任何遥测。

自带 API Key,自由选择

文本生成接入你自己的 OpenRouter / Gemini / OpenAI / DeepSeek,你的 Key 你做主。GPU 推理跑在 Modal 上(含免费额度)。

真实模型,明码标价

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 干活的模型在 README 里写得清清楚楚,不藏在产品名称后面。

Add

文本、图像、音频、视频、文档、URL、3D 模型 —— 任意素材拖上画布,即成节点。

Transform

文本→图像、图像→视频、音频→文本 —— 每个 AI 模型都是一个模态转换节点,随时切换模型,无需重新连线。

Combine

图像融合、口型同步、声音克隆、角色替换、动作迁移 —— 多路输入合并为单一输出。内置,不是插件。

数据留在你自己的电脑上

工作流和上传文件都保存在你自己的电脑上。无需注册账号、无云端同步、无任何遥测。

自带 API Key,自由选择

文本生成接入你自己的 OpenRouter / Gemini / OpenAI / DeepSeek,你的 Key 你做主。GPU 推理跑在 Modal 上(含免费额度)。

真实模型,明码标价

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 干活的模型在 README 里写得清清楚楚,不藏在产品名称后面。

当前已实现的能力

全部摘自 README。这里列出的,今天就能用。

Add:11 种输入

文本、图像、相机拍照、手绘、音频文件、录音、视频文件、录像、文档、URL、3D 模型 —— 任意素材都能放上画布。

Transform:图像

文生图、图像编辑(inpaint / 重绘)、图像理解(描述、问答)、图像超分。

Transform:视频

文生视频、图生视频、首尾帧提取、视频理解、视频超分。

Transform:音频

音乐生成、语音合成(预设音色 / 声音克隆 / 指令式)、语音识别。

Transform:文本

根据 Prompt 生成或改写文案 —— 根据节点的 Model Slot 路由到 OpenRouter / Gemini / OpenAI / DeepSeek。

Combine 组合

图像融合(多参考混合)、口型同步(音频+视频 / 音频+图像 / 音频+文本 → 视频)、声音克隆、角色替换、动作迁移、文本合并。

辅助工具

拼接视频、视频音频混流、按镜头分割、视频音频分离、抽取音轨、长文切片、文本块合并、片段筛选、批量分组排列。

桥接

文档 → 文本、URL → 文本 —— 把外部素材带上画布。

后端与模型

FFmpeg 媒体管线、Modal GPU Worker。当前在运行的模型:Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、InfiniteTalk、Wan-Animate、ACE-Step、Qwen3、Whisper、Gemini、OpenAI、OpenRouter。

FAQ

直接回答

关于 TongFlow 是什么、不是什么。

真的是开源的吗?

是的。AGPL-3.0。全部源码在 github.com/tong-io/tongflow —— 可以阅读、fork、自行部署。app.tongflow.com 的云版本跑的是同一套代码。

云版本和自托管有什么区别?

同一套代码,不同的安装成本。云版本秒级启动,无需配置。自托管让你完全掌控:你自己的 API Key、你自己的文件、无需账号、无任何外部依赖。两条路都是一等公民。

需要 GPU 吗?

本地不需要。重的推理任务跑在 Modal 上,免费额度包含真实的 H100 时间。你提供一个 Modal Token 和至少一个 LLM API Key(OpenRouter / Gemini / OpenAI / DeepSeek 任选)。TongFlow 本身在笔记本上也能跑。

和 ComfyUI 或 n8n 有什么区别?

ComfyUI 专为图像生成设计,n8n 专为 API 编排设计。TongFlow 把所有七种模态 —— 文本、图像、视频、音频、语音、音乐、3D —— 都视为一等公民。Combine 节点(口型同步、图像融合、动作迁移)是内置的,不是第三方扩展。

怎么自托管?

git clone https://github.com/tong-io/tongflow && cd tongflow && pnpm install && pnpm dev。你需要:Node.js 20+、一个 Modal Token(免费额度够用)、至少一个 LLM API Key。剩下的跟着 README 走。

能开发自己的插件吗?

可以。在 ABI 里定义一个 slot,写一个带 @node_slot 装饰器的 Python 函数,发布成 package 即可。后端任意选 —— Modal、Replicate、本地 GPU 或者普通 API。参见 SDK 文档。

项目现在处于什么阶段?

2026 年 6 月发布,早期阶段。欢迎贡献代码、反馈 bug、集成模型。Discord 和 GitHub Issues 是最佳途径。