耗时 8 天,我用 Claude Code 开发了 AI 漫剧 APP,并开源了。

作者:苍何日期:2026/1/5

这是苍何的第 468 篇原创!

大家好,我是热爱编程的苍何。

去年底的时候,我写过 2 篇 AI 漫剧的文章,感兴趣的还挺多的。

图片

也认识了非常多做 AI 漫剧的朋友,我们武汉 AI 圈也举办了 AI 漫剧沙龙,来了超级多的感兴趣的圈友。

图片

听了很多的干货分享,当时脑海中只想快速上手来做漫剧。

但我看了很多的平台目前还只能在电脑 web 上操作,手机随时创作我还没找到什么好的 APP。

当时就有一股冲动,要不自己来尝试搞一个?当我和老婆说这个想法的时候,她说我一定疯了。

为了证明我不是疯子,我还是咬牙决定尝试,毕竟不留遗憾才是我的人生主旋律。

耗时 8 天,今天终于可以拿出来和大家分享了,一个可以在手机端创建漫剧的 app,我给它起名叫做漫导,没错就是这么通俗易懂;制作漫剧的导演。

图片

它能根据灵感一句话创建剧本、角色、场景,然后自动生成分镜图片和分镜视频,最后根据分镜视频来合成一个完整的漫剧视频。

我录了个视频给大家做个展示:

wxv_4328552654785167363

8 天时间出来一个 AI 漫剧 APP 的 MVP 版本(这其中还不包括元旦放假 3 天),我自己已经相当满意了,人物一致性已经完成的很高了👍

最后说一下声音为啥不是中文,抱歉还没来得及约束😄。忍不住想分享了。

而且你可能想象不到的是,整个 APP 的开发,我用的是最近很火的智谱的 GLM 4.7 模型。

图片

你看我的 token 消耗量,这里面包含了两部分,一部分是开发 app 使用的量,一部分是使用 app 规划剧本使用的量。说实话没想到这么多。

再看看账单。

图片
没错 20RMB。哦对了,我还在他们搞活动的时候薅了一杯奶茶。有点大薅特薅的感觉;

图片

我已经把这个 AI 漫剧 APP 开源了,后面也希望有更多的开发者参与到我们的共建中来。

开源地址(求 star):github.com/freestylefl…

图片

这一篇文章呢,我主要是想和你分享一下我的开发历程,也顺带来拷打 GLM 4.7 进行 AI Coding 的能力边界。

我总结了一下大概的流程是这样子的:

图片

其中,我比较关心的是人物一致性解决方案:

图片

在对应场景的配置默认是给了 7 个,角色是给了 2 个,然后这些我都设置成可配置的了。

图片

下面分享下我的开发历程,可能会显得文章会有些长,建议点赞收藏,转发给需要的朋友👭

工具选择

这次的任务有点重,工具选择很重要,终端的话就选最近全网又在喷火的 Claude Code,模型用智谱 GLM 4.7。

几方面考虑,一个是能力,一个是价格。

能力侧,先来看一张时间取自于 2025 年 12 月 22日的模型榜单图,可以看到和 Claude Opus 4.5 打的有来有回。

图片

再看看最关心的价格,这是 Claude 的:

图片

这个是 GLM Coding 的套餐,不想说啥了,没有对比就没有伤害啊。

图片

虽然我看了非常多网上的测评,但一开始对 GLM 4.7 做漫剧 APP 这件事,本身是抱有怀疑态度的,后面证明,他真的行,而且超出了我的预期。

开发历程

首先直接编写提示词告知要做什么,这个很重要。

1提示词:现在帮我编写一个安卓软件,用途是制作AI 漫剧,和用户对话的方式来了解用户想制作什么样子的漫剧,对话大模型使用的是 glm 4.7,相关的接口文档都保存在这个目录下面
2director_ai/docs/图像生成API接口文档.md
3director_ai/docs/视频处理全集.md
4这里的接口文档是我去网站上下载来了的。
5

图片

Claude Code 像打了鸡血一样,吭哧吭哧的干货。

图片

这里最好给 GLM 4.7 规划下架构,防止跑偏:

1提示词:
2核心技术栈推荐
3为了最快速度出原型(MVP)且适配安卓:
4
5开发工具 (IDE/Agent): Claude Code (基于 CLI 的全能编程助手)
6
7前端框架: Flutter (Dart)
8
9理由: Claude  Flutter 代码生成的准确度极高,且 Flutter 开发安卓应用速度快、UI 效果好,能够轻松处理异步网络请求(API 调用)。
10
11核心大脑: GLM-4.7 (通过 API 调用)
12
13理由: 负责理解用户意图,拆解步骤,输出 JSON 格式的指令。
14
15多模态接口: tu-zi.com (你提供的 Gemini 绘图 + Veo 视频接口)
16

架构设计这里我采用 ReAct 模式 (Reasoning + Acting):

1架构设计:ReAct 模式 (Reasoning + Acting)
2为了凸显 GLM-4.7 的规划能力,不能把代码写死(硬编码)。我们需要实现一个简单的 ReAct (Reason-Act) 循环。
3
4流程逻辑:
5
6用户输入: "帮我做一个熊猫吃竹子的视频,要可爱的风格。"
7
8GLM-4.7 (规划层): 思考并输出:"我需要先生成文案,然后生成图片,最后生成视频。" -> 输出第一个工具调用指令。
9
10App (执行层): 解析指令,调用绘图 API。
11
12App (反馈层): 将图片 URL 喂回给 GLM-4.7。
13
14GLM-4.7 (规划层): "收到图片,现在调用视频生成接口。"
15
16App (执行层): 调用 Veo 视频接口。
17

小白不用管,就是一蹲乱七八糟的基础搭建,我一路yes 就行。本身我也不懂 App 开发,此时我选择相信 GLM 4.7;

接下来解释 Coding 时刻,大概用了十分钟,一个由零到一的 APP 雏形诞生了,这是使用的 token 量。

图片

电脑调试启动那一刻我惊呆了。真的出来了,看看界面,美学也还很不错。

图片

聊天框,正常的 ai 聊天,居然还支持了相机图片上传牛掰,UI 界面简约,正和我心意,还细心的加了了彩色边框,真的是完全可用啊。

还贴心的加上了对话记录:

图片

666 想的真周到

接着试试生成视频的功能怎么样?

最近喜欢吃草莓蛋糕,那就生成一个“做草莓蛋糕的视频”:

1prompt: 生成一个小姐姐做草莓蛋糕的视频 
2

可以看到漫导 APP 先会创建剧本:

图片

很快就生成了剧本:

图片

接着是生成角色图,能生成人物三视图,我们都知道漫剧最难的就是人物一致性,确定主角的三视图,贯穿整个剧本主角。

图片

太细节了还有情感钩子:

图片

要是用这个写个霸道总裁爱上我的故事也不错吧,哈哈哈哈。

接下来看看具体的场景:

图片

展开一个场景看看它是怎么规划的:

图片

好的现在确认剧本,回到页面看到直接有任务在执行:

图片

看了流程后不得不感叹,真🐔儿把老己当成导演了;

先生成不同的场景,每个根据有前面主角的三视图和提示词生成的分镜图,再由分镜图和视频提示词生成分镜视频。有点导演味道了。

看看具体的场景分镜是怎么规划的:

图片

确实可以,视频提示词部分,规划了主角的言语和镜头方式。

图片

不用担心失败,还会重试,这个大概就是有些视频 api 会触发公共安全,会失败任务,此时 GLM 4.7 会根据提示弱化提示词,我看了一下日志大概是这样.

1suspension> [ ] I/flutter ( 3052):  [22:55:29] [场景重试] 场景 1 重试失败: Exception: 视频生成失败: {code: generation_failed, message: check status failed:
2{"name":"c39408d4117fcedb3a89153dc5006a7904","error":{"code":3,"message":"PUBLIC_ERROR_AUDIO_FILTERED"}}}
3

场景1重试失败的根本原因是 PUBLIC_ERROR_AUDIO_FILTERED(音频被过滤)——平台审核判定你场景1提示词中的语音/音效描述违规,直接拦截了音频生成,进而导致整个视频生成流程终止(和画面描述无关,只卡音频环节)。

最终确定场景1最终合规版提示词(彻底规避音频过滤):

1Anime style, manga art, 2D animation, cel shaded.
2Soft wide shot with gentle slow pan to the right, gradually revealing a tidy kitchen counter and fresh ingredients. A 17-year-old Japanese girl (anime style, Asian features) arranges eggs and flour softly on the counter, turns to the camera with a gentle warm smile, and says "今天要做个草莓蛋糕" in a soft warm tone (female voice, quiet whisper, low volume, calm mild speech).
3Warm soft gentle lighting, peaceful and cozy kitchen atmosphere, no loud sounds, only soft gentle voice.
4

然后基本上出错后,再让 Claude Code 配合 GLM 4.7,不断调整,最终出来了,我们想要的效果。

写在最后

如果非要较真,漫导 APP 和实际上的 AI 漫剧还有点距离,但可以想象通过多次的迭代和优化,一定可以更好。

要知道,这个 APP 实际耗时还没到 5 天啊,这放在以前,就这 MVP 版本,没个把星期开发不出来。

同时也验证了一个观点,现在 AI Coding,真的并非 Claude 不可,不给用还死贵,但凡有像 GLM 4.7 这样高性价比的模型取代,谁还用 Claude 啊?

这个 APP,我已经开源到 GitHub 了,你可以加上自己的 API,按照教程来玩一玩。

当然了如果你是开发者或者 AI Coder,欢迎来 PR,把他做好。

好啦,谢谢你看我的文章,如果喜欢可以点赞转发给需要的朋友,我们下一期再见。


耗时 8 天,我用 Claude Code 开发了 AI 漫剧 APP,并开源了。》 是转载文章,点击查看原文


相关推荐


数据结构(四)————图
旺仔小拳头..2025/12/27

1. 无向图与有向图 1.1 定义 无向图:边是无方向的,用(顶点, 顶点)表示边有向图:边(称为 “弧”)是有方向的,用<弧尾, 弧头>表示方向 2. 连通图 2.1 连通的定义 在无向图中,若从顶点v到顶点w存在路径,则称v到w是连通的。 2.2 连通图的定义 若图中任意两个顶点都连通,则称此图为连通图。 3. 完全图 3.1 定义 具有最多边数的图称为完全图。 3.2 边数公式 无向完全图(n 个顶点):边数最大值为n(n-1)/2。有向完全图(n 个顶点):边数最


OpenAI 甩出王炸:GPT-5.2-Codex 上线,这次它想做你的“赛博合伙人”
墨风如雪2025/12/19

老实说,在 AI 模型像下饺子一样发布的 2025 年年底,大家对“颠覆性升级”这个词早就脱敏了。但 OpenAI 刚刚在 12 月 18 日悄悄放出的 GPT-5.2-Codex,还是让不少熬夜写代码的工程师虎躯一震。 这不仅仅是 GPT-5.2 的一个微调版本,更像是一次针对程序员痛点的“精准爆破”。如果说以前的 AI 是帮你补全代码的实习生,那么这次上线的 Codex,更像是一个能扛事儿的“高级合伙人”。 我花了一点时间扒了扒这背后的技术细节和实测数据,有些东西确实值得聊聊。 告别“金鱼


Cursor 又偷偷更新,这个功能太实用:Visual Editor for Cursor Browser
张拭心2025/12/11

凌晨 1 点,我正要关电脑睡觉,屏幕左下角突然弹出一个弹窗: Cursor 又上新功能了?带着好奇我仔细看了下文档:cursor.com/cn/docs/age… 我去,这个功能很重磅啊! 这次更新的 Visual Editor for Cursor Browser 是一个打破“设计”与“编码”边界的重磅功能,它让 Cursor 不仅仅是编辑器,更是一个“能直接写代码的浏览器”。 核心价值 它解决了前端开发中最大的痛点——“在浏览器里调好了样式,还得手动回代码里改”。 现在,我们可以像在 Fi


AI 计算模式(上)
兔兔爱学习兔兔爱学习2025/12/1

经典模型结构设计与演进 神经网络的基本概念 神经网络是 AI 算法基础的计算模型,灵感来源于人类大脑的神经系统结构。它由大量的人工神经元组成,分布在多个层次上,每个神经元都与下一层的所有神经元连接,并具有可调节的连接权重。神经网络通过学习从输入数据中提取特征,并通过层层传递信号进行信息处理,最终产生输出。这种网络结构使得神经网络在模式识别、分类、回归等任务上表现出色,尤其在大数据环境下,其表现优势更为显著。 对一个神经网络来说,主要包含如下几个知识点,这些是构成一个神经网络模型的基础组件。


10分钟复刻爆火「死了么」App:vibe coding 实战(Expo+Supabase+MCP)
mCell2026/1/14

视频链接:10分钟复刻爆火「死了么」App:vibe coding 实战 仓库地址:github.com/minorcell/s… 最近“死了么”App 突然爆火:内容极简——签到 + 把紧急联系人邮箱填进去。 它的产品形态很轻,但闭环很完整: 你每天打卡即可;如果你连续两天没打,系统就给紧急联系人发邮件。 恰好我最近在做 Supabase 相关调研,就顺手把它当成一次“极限验证”: 我想看看:Expo + Supabase 能不能把后端彻底“抹掉” 我也想看看:Codex + MCP 能


多标签页强提醒不重复打扰:从“弹框轰炸”到“共享待处理队列”的实战
_Jude2026/1/22

场景:我在多标签页里“接力”处理紧急待办 这篇文章讨论的不是“消息列表怎么做”,而是紧急待办的强提醒体验应该如何落地。我的核心需求很明确: 紧急消息必须强制弹框提醒(不能靠用户自己去小铃铛里找) 弹框不能手动关闭,只能通过“去处理/已读”等业务动作逐条消解 刷新后仍要继续弹:只要还有“高优先级且未处理”的消息,就必须再次弹框 多标签页不重复打扰:同一时间只允许一个标签页弹;未处理的消息能跨标签页接力,不丢失 ✅ 问题 1:多标签页重复强弹(“弹框轰炸”)💥 现象 A 中点“去处理”打开

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客