TongFlow Team

开源的多模态生成式AI
工作流工作室

每个 AI 模型都是画布上的节点。连接模态、组合结果 —— 自己跑或用云版本。开源 · 多模态 · 随处可跑。

查看所有下载查看示例

macOS · Apple 芯片 · macOS · Intel · Windows · 所有平台与版本

open source AGPL-3.0 plugin ecosystem node-based canvas text · image · video · audio · 3D

Add → Transform → Combine

一张画布，覆盖所有模态。

没有复杂参数面板，不用手动连线 —— 添加、转换、组合，仅此而已。

Add

文本、图像、音频、视频、文档、URL、3D 模型 —— 任意素材拖上画布，即成节点。

Transform

文本→图像、图像→视频、音频→文本 —— 每个 AI 模型都是一个模态转换节点，随时切换模型，无需重新连线。

Combine

图像融合、口型同步、声音克隆、角色替换、动作迁移 —— 多路输入合并为单一输出。内置，不是插件。

数据留在你自己的电脑上

工作流和上传文件都保存在你自己的电脑上。无需注册账号、无云端同步、无任何遥测。

自带 API Key，自由选择

文本生成接入你自己的 OpenRouter / Gemini / OpenAI / DeepSeek，你的 Key 你做主。GPU 推理跑在 Modal 上（含免费额度）。

真实模型，明码标价

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 干活的模型在 README 里写得清清楚楚，不藏在产品名称后面。

Add

文本、图像、音频、视频、文档、URL、3D 模型 —— 任意素材拖上画布，即成节点。

Transform

文本→图像、图像→视频、音频→文本 —— 每个 AI 模型都是一个模态转换节点，随时切换模型，无需重新连线。

Combine

图像融合、口型同步、声音克隆、角色替换、动作迁移 —— 多路输入合并为单一输出。内置，不是插件。

数据留在你自己的电脑上

工作流和上传文件都保存在你自己的电脑上。无需注册账号、无云端同步、无任何遥测。

自带 API Key，自由选择

文本生成接入你自己的 OpenRouter / Gemini / OpenAI / DeepSeek，你的 Key 你做主。GPU 推理跑在 Modal 上（含免费额度）。

真实模型，明码标价

Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、Qwen3、ACE-Step —— 干活的模型在 README 里写得清清楚楚，不藏在产品名称后面。

当前已实现的能力

全部摘自 README。这里列出的，今天就能用。

Add：11 种输入

文本、图像、相机拍照、手绘、音频文件、录音、视频文件、录像、文档、URL、3D 模型 —— 任意素材都能放上画布。

Transform：图像

文生图、图像编辑（inpaint / 重绘）、图像理解（描述、问答）、图像超分。

Transform：视频

文生视频、图生视频、首尾帧提取、视频理解、视频超分。

Transform：音频

音乐生成、语音合成（预设音色 / 声音克隆 / 指令式）、语音识别。

Transform：文本

根据 Prompt 生成或改写文案 —— 根据节点的 Model Slot 路由到 OpenRouter / Gemini / OpenAI / DeepSeek。

Combine 组合

图像融合（多参考混合）、口型同步（音频+视频 / 音频+图像 / 音频+文本 → 视频）、声音克隆、角色替换、动作迁移、文本合并。

辅助工具

拼接视频、视频音频混流、按镜头分割、视频音频分离、抽取音轨、长文切片、文本块合并、片段筛选、批量分组排列。

桥接

文档 → 文本、URL → 文本 —— 把外部素材带上画布。

后端与模型

FFmpeg 媒体管线、Modal GPU Worker。当前在运行的模型：Z-Image、FLUX.2 Klein 9B、LTX-2、SeedVR2、InfiniteTalk、Wan-Animate、ACE-Step、Qwen3、Whisper、Gemini、OpenAI、OpenRouter。

FAQ

直接回答

关于 TongFlow 是什么、不是什么。

真的是开源的吗？

是的。AGPL-3.0。全部源码在 github.com/tong-io/tongflow —— 可以阅读、fork、自行部署。app.tongflow.com 的云版本跑的是同一套代码。

云版本和自托管有什么区别？

同一套代码，不同的安装成本。云版本秒级启动，无需配置。自托管让你完全掌控：你自己的 API Key、你自己的文件、无需账号、无任何外部依赖。两条路都是一等公民。

需要 GPU 吗？

本地不需要。重的推理任务跑在 Modal 上，免费额度包含真实的 H100 时间。你提供一个 Modal Token 和至少一个 LLM API Key（OpenRouter / Gemini / OpenAI / DeepSeek 任选）。TongFlow 本身在笔记本上也能跑。

和 ComfyUI 或 n8n 有什么区别？

ComfyUI 专为图像生成设计，n8n 专为 API 编排设计。TongFlow 把所有七种模态 —— 文本、图像、视频、音频、语音、音乐、3D —— 都视为一等公民。Combine 节点（口型同步、图像融合、动作迁移）是内置的，不是第三方扩展。

怎么自托管？

git clone https://github.com/tong-io/tongflow && cd tongflow && pnpm install && pnpm dev。你需要：Node.js 20+、一个 Modal Token（免费额度够用）、至少一个 LLM API Key。剩下的跟着 README 走。

能开发自己的插件吗？

可以。在 ABI 里定义一个 slot，写一个带 @node_slot 装饰器的 Python 函数，发布成 package 即可。后端任意选 —— Modal、Replicate、本地 GPU 或者普通 API。参见 SDK 文档。

项目现在处于什么阶段？

2026 年 6 月发布，早期阶段。欢迎贡献代码、反馈 bug、集成模型。Discord 和 GitHub Issues 是最佳途径。

三种入口

下载桌面应用、使用我们的云版本、或从源码自托管 —— 同一套开源代码，随你选。

桌面版

面向 macOS 和 Windows 的免费应用，下载即用。

下载 →

自托管


git clone https://github.com/tong-io/tongflow

cd tongflow && pnpm install && pnpm dev

查看 GitHub →

云版本

同一套开源代码，无需配置，秒级启动。

在线试用 →

开源的 多模态 生成式AI工作流工作室

一张画布，覆盖所有模态。

Add

Transform

Combine

数据留在你自己的电脑上

自带 API Key，自由选择

真实模型，明码标价

Add

Transform

Combine

数据留在你自己的电脑上

自带 API Key，自由选择

真实模型，明码标价

当前已实现的能力

直接回答

真的是开源的吗？

云版本和自托管有什么区别？

需要 GPU 吗？

和 ComfyUI 或 n8n 有什么区别？

怎么自托管？

能开发自己的插件吗？

项目现在处于什么阶段？

三种入口

开源的多模态生成式AI
工作流工作室