FigCraft
TECHNOLOGY
引擎拆解

支撑「图像 coding agent」的引擎

首页说它会自己干活。这一页,告诉你它怎么做到的。底层是一个 coding agent 式的推理引擎两层上下文压缩、模型自动降级链、结构化视频线、三层一致性锚 —— 让任何模型,哪怕 Qwen,都能在你本地稳定交付整套视觉。

77
Tools
工具
13
Categories
类别
10
Engineering
工程纵深
200
Rounds
单任务推理上限
100k
Context
tokens 预算
§ CAPABILITIES
01Image Orchestration

图片编排能力

一句话,排出一整套风格统一、可继续编辑的视觉

智能体把需求拆成多张子图,在同一块分层画布上并行生成、统一构图与色调,再逐张落到可回退的图层工程里 —— 不是一次性出图,而是把整套电商 / 品牌物料编排好交付。

实时演示 · 智能体在分层画布上编排一整套电商视觉
  • ·分层画布:每张图都是非破坏性图层工程,蒙版 / 调整 / 局部随时回退
  • ·成套一致:一款货 → 主图 / 详情 / 多色变体,主体与风格跨图统一
  • ·多模型择优:按子任务在 16 个模型间自动选型,不用记参数
  • ·本地直读直写:读项目素材、成片写回硬盘,不强制上云
02Video Generation

视频生成能力

静帧长成短片 —— 逐镜可控的图生视频时间线

把编排好的画面直接拉进视频线:每个镜头的首帧、尾帧、参考片、配音都由智能体填好并可视编辑,沿时间线串成一支完整的品牌短片 —— 全程非黑盒,逐镜可改。

实时演示 · 视频线逐镜填充首尾帧与参考片,串成品牌短片
  • ·图生视频:从成套静帧直接生成镜头,主体与风格延续
  • ·逐镜可控:首帧 / 尾帧 / 参考片 / 配音逐个镜头独立设定
  • ·时间线编排:多镜头拼接成片,节奏与转场可调
  • ·模型调度:Veo / Seedance 等视频模型按镜头需求自动选用
03Local Operation

本地操作能力

不止生成 —— 还能直接在你本机读写文件、改代码、跑命令

智能体不是只会出图的聊天框:它能列目录、读文件、grep 定位、改代码、新建目录、删旧脚本、跑构建并做类型检查 —— 全部在你本机完成,破坏性操作前先列清单等你确认,素材与代码不离开本地。

实时演示 · 智能体在你本机读取 / 改写 / 删除文件并跑构建,全程不上云
  • ·文件系统:列目录 / 读写 / 编辑 / 新建目录 / 删除,直达你的工作区
  • ·代码与检索:glob / grep 定位,改完跑 LSP 类型检查兜底
  • ·Shell:执行构建、批处理等命令,产物写回本地目录
  • ·权限分级:删除 / 改写等破坏性操作先确认,不擅自动手
§ UNDER THE HOOD

驱动这一切的智能体引擎

上面是能力,下面是支撑能力的引擎层 —— 完整工具箱与工程纵深,面向想深入了解的人(技术文档)。

§ TOOLS
77 TOOLS · 13 CATEGORIES

智能体的完整工具箱

Agent 在每一轮循环中,从这 77 个工具里挑选下一步要调用的那个。按职能分为 11 类,权限按风险三级分级。

01

Generation

生成4 tools
Agent 的核心生成能力
Generate Image生成图像
generate_image
Inline Image工作流内生成
generate_image_inline
Generate Video生成视频
generate_video
Batch批量生成
generate_batch
02

Editing & Analysis

编辑与分析5 tools
视觉理解 + AI 修图
EditAI 修图
edit_image
Capture截屏画布
screen_capture
Analyze图像分析
analyze_image
Product产品分析
analyze_product
Set Params调整参数
set_params
03

Filesystem

文件系统8 tools
本地直读直写,零云端中转
List Directory列出目录
list_directory
Read读文件
read_file
Write写文件
write_file
Edit File编辑文件
edit_file
Glob通配搜索
glob_search
Grep全文搜索
grep_in_files
Create Dir建目录
create_directory
Delete删除文件
delete_file
04

Shell & I/O

系统3 tools
操作系统级访问
Shell终端命令
shell_execute
Export导出文件
export_file
Import导入文件
import_file
05

Network

网络2 tools
联网获取上下文
Search联网搜索
web_search
Fetch网页抓取
web_fetch
06

Tasks

任务6 tools
崩溃零损失任务系统
Create建任务
task_create
Update更新任务
task_update
List任务列表
task_list
Get取任务
task_get
Stop停止任务
task_stop
Output任务输出
task_output
07

User Interaction

用户对话3 tools
高敏感操作必须二次确认
Reply回复用户
reply
Ask提问用户
ask_user_question
Confirm请求确认
ask_confirmation
08

Multi-Agent

代理协作7 tools
Agent 雇佣 Agent
Spawn派生代理
spawn_agent
Register注册代理
register_agent
List Agents代理列表
list_agents
Job Status任务状态
agent_job_status
Products产品列表
list_products
Active Product当前产品
get_active_product
Find Product查找产品
find_product
09

Workflow

工作流4 tools
Plan Mode + 工具发现
Plan Mode进入计划模式
enter_plan_mode
Exit Plan退出计划
exit_plan_mode
Tool Search工具发现
tool_search
Sleep延时
sleep
10

Memory & Team

记忆 / 协作7 tools
长对话不失忆 + 团队消息
Save Memory保存记忆
save_memory
Send Message发送消息
send_message
Read Mailbox读取邮箱
read_mailbox
Team Create建团队
team_create
Team List团队列表
team_list
Team Delete解散团队
team_delete
Team Message团队消息
team_message
11

Code & Schedule

代码 / 调度12 tools
Cron + LSP + Worktree
Todo Write写待办
todo_write
Todo Read读待办
todo_read
Worktree进入工作树
enter_worktree
Exit Worktree退出工作树
exit_worktree
LSP Diagnose代码诊断
lsp_diagnostics
LSP Definition查定义
lsp_definition
LSP References查引用
lsp_references
LSP Hover悬停信息
lsp_hover
Cron定时调度
cron_create
Cron List定时列表
cron_list
Cron Delete删除定时
cron_delete
Capabilities查模型能力
query_model_capabilities
12

Asset Library

素材库8 tools
资产分类 + 全局画风锚,跨镜一致性
Init Library初始化素材库
init_asset_library
Create Category建分类
create_category
Delete Category删分类
delete_category
Style Anchor设画风锚
set_style_anchor
Search Assets查素材
search_assets
Import Assets导入素材
import_assets
Add Asset添加素材
add_asset
Remove Asset移除素材
remove_asset
13

Video Line & Voice

视频线 / 配音8 tools
连续分镜 + 角色音色,长片一气呵成
Set Shot设置分镜
set_shot
Search Videos查视频
search_videos
Stitch Videos拼接视频
stitch_videos
Reorder Shots重排分镜
reorder_videos
Cast Voices角色配音表
cast_character_voices
Gen Speech生成配音
generate_speech
Clone Voice克隆音色
clone_voice
List Voices音色列表
list_voices
§ ENGINEERING

十个工程纵深

上面是清单。下面是清单背后的真功夫——这十个工程点决定了 Agent 不是噱头,而是可以交付电商生产的工业级系统。

01
Loop Reasoning

循环推理

不是流水线,是 200 轮闭环

市面上大多数 AI Agent 本质是流水线——把大模型调用串成一条预设步骤,遇到临场变化立刻僵住。

FigCraft 的图像 Agent 是真正的循环推理:每一轮都重新观察画布、参考图、历史决策,动态决定下一步调哪个工具。单次任务最多支持 200 轮闭环推理。

  • ·每轮 LLM 重新判断,不按预设脚本走
  • ·工具调用结果立即反馈到下一轮决策
  • ·单工具失败不会让整个任务崩溃,Agent 会诊断错误后改变策略
02
Permission Tiers

工具三级权限

解决 AI 拿着钱乱跑的焦虑

Agent 手上的 77 个工具按风险严格分级,让品牌方安心交权给 AI。

  • ·只读工具(分析图片、搜索参考、截屏画布)→ 并行执行,速度最快
  • ·破坏性工具(生图、修图、合成、导出)→ 串行执行,避免并发冲突
  • ·高敏感工具(终端命令、覆盖本地文件、批量删除)→ 每次弹窗二次确认,Agent 无法绕过
  • ·工具可返回 terminal 信号立即结束循环,防止无意义继续烧 token
03
Shared-Subject Strategy

服装多 SKU 一致性

四模式 × 三锚定

服装品牌最头疼的问题:同一款冲锋衣 30 个颜色拍出来全是不同人穿的——AI 生图时随机性让主体发散。

FigCraft 为电商图专门设计了四种生成模式 × 三种锚定策略,保证一组图里主体严格一致。

  • ·四模式:单图 / 独立变体 / 共享主体 / 序列演化——系统自动识别任务类型
  • ·锚定策略一 · 上传锚定:每一张图都回参用户原始照片,主体最贴近真实
  • ·锚定策略二 · 英雄图锚定:首张定调,后续全部参考首图,风格最统一
  • ·锚定策略三 · 链式锚定:任意一张图可以参考之前任意一张,想继承某张的光线/构图/配色都行
  • ·每张图的锚定决策必须写进执行计划,客户在批准前能看见能改
04
Plan Approval

零意外消耗

任何多步操作必须先出计划

Agent 启动多步任务前,必须先把完整步骤展示给用户:「将生成 1 张白底主图 + 3 张雪山场景 + 2 张沙漠场景,预计消耗 12 积分,每张锚定用户上传图」。

用户三选项:一键批准执行 / 取消 / 用自然语言修改。只有批准后 Agent 才真正花钱。

  • ·批准前零积分消耗:计划阶段不调用生图
  • ·支持多轮修订:不满意可以反复让 Agent 重出计划
  • ·批准过的计划自动归档,事后可追溯每一笔积分的去向
05
Tool Result Cache

智能缓存

防模型健忘症反复调用

中等智能的大模型有个常见毛病:同一个工具反复调用,一遍不够调两遍,每次都烧 token。

我们在 Agent 单次运行内做了工具结果缓存——相同的只读工具 + 相同参数,第二次直接复用上一次的结果。

  • ·同一 run 内只读工具结果自动缓存复用
  • ·缓存键基于工具名 + 参数哈希,精确识别
  • ·单次复杂任务可节省 30-50% 的 token 消耗
06
Context Memory

长对话不失忆

双层记忆体系

服装品牌一次拍摄会生成上百张图,对话滚到几十轮。普通框架这时候要么爆上下文、要么胡言乱语。

我们做了两层记忆:短期靠 token 预算管理 + 自动摘要,长期靠持久化记忆 + 固定池。

  • ·短期:token 超过 100k 阈值时,自动调 LLM 把早期对话摘要成一段话
  • ·长期:每次压缩生成的摘要写入本地持久化,下次启动自动注入系统提示词
  • ·固定池:每张图都附带来源元信息(用户上传还是 AI 生成、第几轮、什么 prompt)
  • ·Agent 在第 80 轮对话里依然记得第 3 轮用户上传过什么图
07
Task Persistence

崩溃零损失任务系统

递增 ID · 位置索引 · 本地持久化

企业环境下,应用崩溃、断电、关机重启是常事。传统 AI 工具一崩溃,当前任务全部丢失。

我们的任务系统采用三层设计,崩溃恢复零损失。

  • ·任务 ID 用递增字符串(1 / 2 / 3)而非 UUID,降低模型记忆负担,调度更稳
  • ·子任务用位置索引(0 / 1 / 2),模型不用记长字符串
  • ·本地持久化最多 100 个任务历史,随时查看随时恢复
  • ·重启自动修复:所有「假进行中」任务降级为 paused,不会出现幽灵任务
08
Network Resilience

网络容错

API 抖动不影响出图

调用第三方大模型 API 的人都懂——偶尔超时、偶尔 500、偶尔限流。Agent 必须把这些都吃下来。

  • ·API 120s 超时(长思考模型留够时间)
  • ·3 次重试 + 指数退避(500ms → 1s → 2s)
  • ·4xx 客户端错误立即失败不重试,5xx / 429 / 超时自动重试
  • ·响应格式异常也当失败处理,触发重试而非返回空
  • ·空响应显式报错(可能是安全过滤 / max_tokens 被 thinking 吃光),不静默退出
09
Dynamic Prompt

系统提示词每轮重建

永远看到最新画布

大多数 Agent 的系统提示词是「一次性定死」——开机注入一次,后续对话里 Agent 不知道画布变了、你换了模型、新上传了参考图。

我们的 Agent 每一轮循环都重新构建系统提示词,把当前画布状态、参考图池、选中物体、可用模型能力全部动态注入。

  • ·画布有图 / 空白 / 比例 / 分辨率 实时感知
  • ·参考图池总览逐索引标注,Agent 不会搞混
  • ·可用模型 + 当前模型能力(多参考 / inpainting / 最大 N 张)实时传入
  • ·用户切换模型后 Agent 立即知道新模型能做什么不能做什么
10
Event Stream

全程可见

每一步都不是黑盒

Agent 在思考什么、调了什么工具、返回了什么结果、为什么请求确认——全部实时推送给前端 UI。

客户能看见 Agent 每一次决策,信任感完全不同于「转圈圈等结果」的黑盒工具。

  • ·事件类型:thinking / tool_call / tool_result / message / permission_request / error
  • ·工具调用参数实时展示,客户能反向学习 Agent 怎么思考
  • ·错误信息友好化:提示切换模型、简化请求等具体可操作建议
§ IMAGE AGENT

这就是图像智能体。

不是 prompt 级,是任务级。用户描述需求,Agent 自己拆解、调度、执行、交付。从 1 张产品图到一整套品牌视觉系统,从单个 SKU 到 30 个颜色的多变体一致性,从静图到视频——全程不需要你切工具、记参数、调模型。

不是聊天框,是工作站。77 个工具、16 个顶级模型、本地素材直读、成片写回硬盘、敏感品牌图零云端留存。这是为电商图像生产场景从零打磨的图像智能体。