对标学习项目 · 一个月工作总结(2026-04-13 → 2026-05-11)

一、29 天工作量数据

从 git log 和 tools/ 文件 mtime 拉出来的客观数据。

天连续投入

4/13 → 5/11

22K+

总代码行数

tools/ + 3 个 skill

118

git commits

日均 4.1 个

Python POC 脚本

专题验证 + 临时工具

阶段冻结归档

交接归档/ 完整记录

跨会话记忆条

踩坑 / 决策 / 配置沉淀

167

视频骨架(blueprint)

每条爆款独立 JSON

深度调研模型

ASR 6 / OCR 3 / VLM 3

🔍 如果没有 AI 辅助,纯手工做这一切大约需要多久?

代码量

22K+ 行 · 实际 29 天

→

纯手工约 5-9 个月(单人全职)

技术路线探索

8+ 种方案实跑过

→

纯手工一年最多深入 2-3 种

模型调研

12 个模型完整跑通

→

每个上手 + 调通约 1-2 周

POC 脚本

68 个专题验证

→

每个调研+写+跑约 0.5-1 天

综合估算

29 天实际完成

→

无 AI 辅助约 4-6 个月(单人全职)

估算依据:AI 辅助编程的真实加速比因任务类型不同而差异巨大—— 简单 CRUD 类约 3-5 倍,调研型 / 多模型对比 / 算法实验约 5-10 倍,新框架学习约 5-10 倍。本项目的特点是大量技术路线探索(8+ 种)、模型横向调研(12 个)、性能调优实验(几十次)—— 这些恰好是 AI 加速比最高的场景。

这不是夸大工作量,只是客观说明:在 AI 时代,一个工程师能完成的事比传统模式多得多。但这并不意味着工作变得轻松——决策密度更高、试错更频繁、需要不断判断"哪条路值得继续",反而更费脑。

二、每日工作日志

基于 git commit 时间戳和工具脚本 mtime 还原。每个工作日的具体产出都列出来,看完就明白这一个月发生了什么。

Week 1

项目初始化 · catalog-videos2 雏形

2026-04-13 → 04-16 · 项目搭建期

04-13 (周一) 起点

catalog-videos2 初始版本

初始三栏镜头时间线 UI(shooting-guide3)
Gemini OCR pass + Whisper ASR 混合管线
修 Gemini start_sec/end_sec 错误
细化布局和时间线交互

04-14 (周二)

Phase 2 Doubao 单测收尾

Doubao VLM 接入验证完成
归档:Phase2-Doubao 单测收尾.md

04-15 (周三) 5 commits

Phase 2 完整接入 · 三趟调用

Phase 2:Doubao 三趟调用 + 两道算法后处理
Step 2k:自动 beats 归纳(Pass 4 后处理)
shooting-guide3:cover_title 渲染 / 新字段 / 中栏 4 列布局
9 步统一编号文档重写

04-16 (周四) 3 commits

默认开关治理 · Whisper 切 CUDA

Whisper 切 large-v3 CUDA(质量大幅提升)
关 Pass 2/镜头摘要/字幕互校/beats 默认开关(避免误跑费 API)
--only-file CLI 加入
归档:screen_texts 10 步质量大修

Week 2

数据层质量大修 · OCR + Doubao 时间戳/颜色/位置

2026-04-17 → 04-22 · 6 天 · 单视频质量从"能用"到"准"

04-17 (周五) 10 commits

步骤 7/8 OCR 时间戳矫正

_fuzzy_char_match 改双向对称
种子扩展阶段:修 Doubao end 偏大
每行独立找范围 + 取交集
bbox y 位置验证(治"进行油炸"字幕位)
形状规则性过滤(倾斜装饰字噪音)
字幕区自适应探测(替代硬编码 y=0.60)
bbox_pct 行级位置标注(下游剪辑用)
Pass 1 JSON 解析重试
修 --force blast radius bug(force 不再清空整个 catalog)

04-18 (周六) 2 commits

v2.3 数据层 · 像素真值采样

bbox_pct 中位数聚合
color_pixel 像素真值采样(替代 Doubao 主观色)
shooting-guide3:hover 预览 + color_pixel 优先

04-19 (周日) 4 commits

v2.4 / v2.5 数据层 · 三个 bug 修

bbox 像素 shrink(收缩到字形真身)
颜色用 shrink 区域采样
v2.5 patch:color 改 block 中间帧(挡渐变动画污染)
shrink 加中心漂移检查(挡 argmin 漏字)
OCR 循环健壮性 + cover 部分行时间矫正
shooting-guide3:hover scaleX 压缩 + overflow 修

04-20 (周一) 4 commits

v2.6 / v2.7 / v2.8 / v2.9 字段升级

v2.6 Otsu 字形像素筛(挡深色 pill 底反杀)
v2.7 bbox_pct_aligned(block 内多行对齐框)
v2.8 cover_title 专用规则
v2.9 bbox_pct_segments(cover 分字 bbox)
第一个 rank 批量跑 POC 工具

04-21 (周二) 9 commits

水印识别 · 字形显示特例 · 字幕区

步骤 8.5:常驻身份标识(水印)识别本地算法
字形显示特例白名单(贝兼↔赚 / 走犬↔逛)
水印 occurrences 补全
水印多行合并
字幕区阈值 1% buffer
主站时间轴加水印 track(后回滚)
水印 hover 预览读 lines 字段
剔除被水印吞并的 screen_text block
视频 URL 改 HTTP 相对路径
POC:detect_watermarks / refill_watermarks / rerun_rank6_vlm

04-22 (周三) 11 commits · 单日最高

性能优化爆发日 · 并发 + GPU + 采样

VLM_CONCURRENCY=4 → rank 30 省 27% 总耗时
VLM_CONCURRENCY=8 → rank 38 再省 13%
OCR grab+retrieve → rank 18 省 37%
RapidOCR 采样 0.5s → rank 3 实测省 36%
color_pixel 方案 B(autocorrect + Doubao 弱先验)
RapidOCR CUDA 实验 → cuDNN 冲突,回滚
OCR 独立子进程走 GPU → 实测不值
shrink HSV Hue/V 筛 + edge_margin 自适应
水印覆盖率阈值 0.20→0.40 + Doubao 补遗
OCR 字符集模糊匹配兜底
Whisper 关 condition_on_previous_text(修长视频漏识)

Week 3

架构升级 · 多账号轮询 + 三线并行 + OCR provider 矩阵

2026-04-23 → 04-27 · 5 天 · 工程化深耕

04-23 (周四) 6 commits + 6 POC

B/C 双方案 · 多账号轮询 · Phase A/B 分离

ARK_API_KEYS 批次级轮询(B 方案,实测省 13%)
C 方案:Phase A 本地顺序 + Phase B VLM 多视频并发
Phase A OCR 并发(CATALOG_OCR_CONCURRENCY)
per-thread engine 重构(0 行为变化)
Qwen VLM provider 加入(阿里百炼)
benchmark 工具:批次加耗时打印 + --only-file 多值
POC 6 个:B_verify / B_compare / multi_pool_compare / probe_ark_key / C_top50_rest / C_smoke_single+multi / C_vs_master

04-24 (周五) 7 commits

三线并行 · EasyOCR · PaddleOCR provider

三线并行成为默认:OCR pool ∥ Pass 1 pool → Post pool
EasyOCR GPU provider + batch 推理(共享 reader 4 并发仍 2.5x)
PaddleOCR 3.x GPU provider(方案 6,精度最高)
方案 6:rec_batch=8 + per-thread reader 线程安全
check_and_install_deps 改 find_spec(避免触发 cuDNN 污染)
preset 1/2/3 切换脚本

04-25 (周六) 3 commits + 8 POC

DOUBAO mini 切换(省 28%)· 颜色族自适应

DOUBAO_MODEL 切 lite → mini(¥0.20 vs ¥0.28/M input,质量等价)
color_pixel 按色族自适应采样
_filter_subtitle_leaks 规则 4 Doubao 改写字幕兜底
POC 多个 rerun_rank30/31/33 验证
归档:方案 6 完成 · mini 默认

04-26 (周日) 5 commits

颜色根本解重构 · 规则系统

颜色采集挪回 OCR 第一层(根本解,放弃旁路)
颜色 sanity check A 方案兜底
规则 6 OCR bbox 跨度过滤跟随物体的字
_find_line_range 种子失败兜底
归档:规则系统重构 · 颜色根本解 · 5 commit

04-27 (周一) 4 commits + 6 POC

幻觉过滤 · OpenRouter · voiceover POC

_filter_hallucinated_screen_texts:OCR 真值反查删 Doubao 幻觉
_annotate_color_pixel Doubao per-frame 先验
GEMINI_MODEL env 化(支持 OpenRouter 任意 model)
POC:screen_text_supplement / preset_6_paddleocr / voiceover_split / voiceover_split_by_doubao
归档:VLM 对比 + ASR 调研(Whisper 静音 bug)

Week 4

ASR 全面对比 · voiceover pipeline v2 · 11 步管线定型

2026-04-28 → 05-02 · 5 天 · 第二个核心子系统

04-28 (周二) ASR 调研日 · 8 POC

ASR 全模型横评

sensevoice POC(无 timestamp 弃用)
paraformer-large POC(ms 级时间戳)
whisperx POC(中文对齐失败弃用)
seaco_paraformer POC(热词版)
qwen3_asr_poc(阿里 1.7B + ForcedAligner)
qwen3_punc_split(标点切分)
vad_voiceover_check(Silero VAD 验证)
composite_voiceovers(多 ASR 合成)
实测结论:Whisper 主力 + Paraformer 副助 + Doubao mini 字幕单跑

04-29 (周三) 5 commits + 8 POC · v2.3

step 9 v2 接通 · 11 步管线定型

step 9 v2 阶段 4-5 实施(9.0/9.2/9.3/9.4/9.5)
v2.3 11 步管线:Pass 1 砍字幕 + 9.0 升独立步骤 + Pass 3 注入
step 9 v2 修 merge_result
POC:gemini_subtitle / doubao_10fps / gemini_5fps / doubao_subtitle_only
POC:composite_mini_align_fix / via_llm / regression_v2_vs_poc
build_voiceover_compare_html(对比页)
归档:step 9 v2 工程化全跑通

04-30 (周四) 关键架构日

shot_id 唯一标识 · 13 类 tag POC 启动

shot_id:每个 shot 跨视频唯一(新方向也复用)
POC:propose_tags(DeepSeek-V4-flash 提议三轴标签)
POC:run_pass3_only(单步重跑,并发 8 + 重试 2)
POC:discover_shot_patterns(数据驱动归纳)
归档:v2.3 11 步管线 · shot_id · 标签 POC

05-01 (周五)

三轴架构被推翻

三轴(动作/场景/主体)35 标签:9 个绑品类 / 6 个太抽象
样本小时分类没意义,LLM 被逼着乱填
改数据驱动归纳:v4-flash 跨视频找模式
第 2 版 prompt 跑出 15 个非教学通用镜头
用户合并 1+12 / 13+15 → 13 个 taxonomy_v1

05-02 (周六) 3 POC · beats 8 阶段

beats 多轮自检 POC · 8 阶段流程

stage1 类型 → stage2 粗切 → stage3 边界 → stage4 将来时 → stage5 主次 → stage6 合并 → stage7 功能 → stage8 标题
stage 内增量(5 种 action,减 80% output tokens)
stage 间增量(--invalidate-from)
4 模型并行:doubao-mini/lite + v4-flash/v4-pro
DeepSeek 关思考模式(v4-pro 7→2.7 分钟)
POC:build_beats_compare_html / run_beats_only / inject_beats

Week 5

beat 纠错 UI · embedding workbench 探索 · 方向重大转折

2026-05-07 → 05-11 · 5 天 · 走了一条新路又回头

05-07 (周四) 3 commits

Pass 3 prompt 4 类信号 · beat 纠错 UI

Pass 3 prompt 改 4 类信号(时态/动作主体/完成度/主次)
shooting-guide3 beat 纠错 UI:shot ↑↓ / beat ✏️🗑 / 红线
JS 局部更新 DOM(不刷新页面)
自动重算 beat 边界

05-08 (周五) 1 commit + 1 POC

UI 大块功能 · 项目状态文档

beat ✂️ 拆分 / 🗑 删除 / 自定义 confirm modal
idx 重编号
range_server.py(主站 HTTP + 后端 API)
02 项目状态文档(大白话版)

05-09 (周六)

方向 1:embedding workbench · 砍 13 类 tag

看穿:13 类 tag 通用镜头占比天花板 30%,路线走不通
新方向:X-CLIP embedding + LLM 精排 + workbench 三层
step 12 X-CLIP 工具:修 4 个 transformers 4.57 bug
03 新方向文档
git 分支:shooting-guide3/embedding-workbench

05-10 (周日) embedding demo 验证

embedding workbench 跨账号 demo 失败

build_embedding_index(给所有 shot 算 X-CLIP)
cross_account_match(跨账号余弦相似度 top 5)
build_match_html(可视化 + ffmpeg 切片 + 视频网格)
发现 1:整段嵌入糊化(已修,改细切)
发现 2:embedding 找视觉相似,但内容毫不相干(蚝蛋烧 vs 榴莲饼)
发现 3:素材视频本身有连贯口播,切碎成 4 秒段反而破坏成品

05-11 (周一,当前)

关键认知升级 · 转向 pipeline-perf

看穿:"工具救不了不懂业务"——我自己没亲手剪过任何一条视频
放弃自动化空想,改路线:catalog2 跑完所有 → 亲手剪 5-10 条 → 暴露真痛点 → 再谈 AI
04 转向文档
catalog-videos2 新分支 pipeline-perf · 时间效率优化
step_timer 装饰器加进 catalog2.py(11 步全程 instrumentation)
baseline 跑出来:总 26m33s · VLM 调用 ≈ 全部时间

三、为什么花了这么久

客观说明:这个项目的本质难度,大部分人(包括我自己一开始)严重低估了。下面这几件事任何一件单独拿出来都是一个小型项目,而我同时在做。

难度维度	具体复杂性
单视频管线深度	11 个 step,每个 step 内部又有多个子任务。step 7 OCR 时间戳矫正一项就有"种子扩展 + 每行独立 + 取交集 + 退化兜底"四层算法。
多模型组合	同一管线协调:PySceneDetect + Whisper + Paraformer + RapidOCR + EasyOCR + PaddleOCR + Doubao VLM + Gemini + Qwen + DeepSeek + Silero VAD + OpenCC。每个模型一套依赖、一套调用约定、一套坑。
跨平台 GPU 协调	2080Ti 22G 上同时跑 Whisper(CUDA FP16)+ RapidOCR(CPU)+ PaddleOCR(GPU)+ EasyOCR(GPU),cuDNN 9.x 多版本冲突需要 DLL 改名/复用 workaround(Paddle Issue #75939)。
API 限流博弈	Doubao 账号级限流不是 key 级,需要多账号轮询;老账号被服务端隐式降级;TPM 保障包三处不兼容。整套绕开机制就是一个子项目。
数据准确性	color_pixel 真值采样迭代了 v2.3-v2.9 六个版本才稳定;bbox_pct 加了 segments/aligned 两个字段;_filter_subtitle_leaks 6 条规则才把幻觉过滤干净。
架构演进	从 v1 Gemini 全托管 → v2 本地+VLM 混合 → v2.3 11 步管线 → step 9 v2 五子步 voiceover pipeline → C 方案 Phase A/B 分离 → 三线并行。每一次架构升级都是 N 个小重构组成。
方向探索	三轴架构 → 推翻 → 13 类 taxonomy → 暂停 → embedding workbench → 暂停 → pipeline-perf。每个方向都需要先搭脚手架、跑实验、看数据、做决定。失败的方向同样占工程师时间。
素材/对标多样性	蚝蛋烧 vs 榴莲饼跨品类是核心需求,需要的不仅是技术,还是商业语义对齐。每种品类工艺步骤完全不同,无法直接复用。

四、尝试过的技术路线

每一条线都是真跑过 POC、看过数据、做过判断,不是空想。

路线	状态	原因
Gemini 全托管(初始)	迭代过渡	v1 → v2 本地+VLM 混合,成本/稳定性大幅改善
11 步本地+VLM 管线	✅ 稳定主力	v2.3 定型,可重复跑
多账号 Doubao 轮询(B 方案)	✅ 实测有效	账号级限流必须多账号,key 级不分池
三线并行(C 方案)	✅ 默认开启	Phase A OCR ∥ Pass 1 → Post pool
RapidOCR / EasyOCR / PaddleOCR 三 provider 矩阵	✅ 按场景选	方案 6 PaddleOCR 精度最高,方案 4 RapidOCR CPU 速度可用
step 9 v2 voiceover 五子步	✅ 主力	Whisper + Paraformer + composite + Silero + DeepSeek 错字纠正
Doubao 字幕单跑(Pass 1 砍字幕)	✅ 0 错字	专注力分散是 VLM 致命问题,拆分单跑反而准
Pass 3 4 类信号 prompt	✅ 描述质量提升	时态/动作主体/完成度/主次结构 → LLM 填表比写故事可靠
shooting-guide3 一视频一模板	✅ 哲学定型	拒绝抽象,先落地数据再反向归纳
beat 纠错 UI	✅ 已实现	↑↓✏️🗑✂️ + JS 局部更新 + 自动归档反馈金矿
RapidOCR 走 CUDA	❌ 回滚	cuDNN 多版本不可协调,实测保 Whisper GPU 更划算
OCR 独立子进程走 GPU	❌ 实测不值	启动开销大于收益
本地 VLM(Ollama MiniCPM-V 等 8 模型)	❌ 不经济	2026-04-17 实测,本地 53min/视频 70% 质量 vs Doubao 90s 100%
三轴镜头分类(动作/场景/主体)	❌ 推翻	样本小时强加分类轴,LLM 被逼着乱填
13 类通用镜头 tag 自动打	暂停	通用镜头占比天然 < 30%,自动化覆盖率天花板
embedding workbench 跨账号匹配	暂停	视觉相似 ≠ 内容相关;切碎素材破坏成品;商业知识 AI 学不会
跨品类工艺自动映射	❌ 工程不可行	每条对标都要人写映射表,比手剪还累
TPM 保障包(解 Doubao 限流)	❌ 不兼容	模型/API/JSON 输出三处不匹配

五、成功 vs 失败 · 原因分析

✅ 成功的工程产出

catalog2 11 步管线 v2.3 主线

本地切镜头 / Whisper / OCR + Doubao VLM 富化,各管各的不耦合。

成功原因:本地模型出真值, VLM 出描述/字幕, 职责清晰; 字段级断点续传 + 强制重跑;每个 step 独立可关。架构合理性是稳定性的根。

shooting-guide3 拒绝抽象哲学

每条爆款独立 blueprint,不做聚类/套路归纳。

成功原因:抽象是危险的——抽不准误导整个下游。先落地数据再反向归纳,比一开始建抽象层稳得多。这是工程教训也是哲学。

多 Doubao 账号轮询(B 方案)

批次级轮询多 key,绕开账号级限流池。

成功原因:实测发现限流是账号级而非 key 级。多账号才真分池。验证用了几轮 benchmark,不是猜的。

color_pixel 像素真值(v2.3-v2.9 迭代)

放弃 Doubao 主观色, 改本地像素采样。

成功原因:六个版本迭代——bbox 中位数 → shrink 收缩 → Otsu 字形筛 → 渐变中间帧 → 色族自适应 → A 方案兜底。每次都基于实测发现的问题。

三线并行(C 方案)

Phase A2 OCR pool ∥ Pass 1 pool → Post pool。

成功原因:Whisper 独占 GPU 必须顺序,但 OCR 是 CPU,Pass 1 是 API,各跑各的不冲突。识别瓶颈分类是性能优化的基础。

step_timer instrumentation

2026-05-11 加,每个 step 自动 print 耗时。

成功原因:加之前只看到部分 timing,大头 1340s 不知去向。加完立刻定位 Top 3 全是 VLM(626 / 593 / 500s)。先量再优化是工程铁律。

❌ 失败的方向 · 不是工程问题, 是 AI 能力问题

跨品类工艺自动映射

"蚝蛋烧淋油 ↔ 榴莲饼刷蛋液",视觉/工艺等价。

失败本质:这是商业知识,不是视觉/语言知识。模型训练数据里没有"两种品类工艺等价表"。任何 embedding/VLM/LLM 都解决不了。这不是工程缺陷,是 AI 边界。

embedding 视觉相似 ≠ 内容相关暂停

X-CLIP 跨账号匹配实测发现。

失败本质:embedding 找的是视觉构图。"摊主前操作"画面在跨品类都相似,但内容毫不相干。这是模型设计的固有局限,目前业界开源模型(X-CLIP/SigLIP/InternVideo) 全部如此。

13 类 tag 离散化丢信息暂停

通用镜头占比天然 < 30%。

失败本质:现实是连续的,标签是离散的。强行离散就丢信息。这是哲学问题不是技术问题,人也解决不了——同样的镜头不同人标的不一致。

本地 VLM 化(2026-04-17 实测 8 模型)

Ollama MiniCPM-V 等。

失败本质:本地 53min/视频 70% 质量 vs Doubao 90s 100%。开源模型跟商用大模型差距是结构性的,不是调一调就能赶上。MiniCPM-V 4.5 Ollama 加载死 bug 4 月未修,生态成熟度差距大。

三轴架构(动作/场景/主体)

2026-05-01 推翻。

失败本质:样本小时强加分类轴,LLM 被逼着乱填。这是过早抽象的代价。但失败带来的认知"先落地再归纳"成为了 shooting-guide3 哲学,反而是收获。

TPM 保障包(解 Doubao 限流)

服务商提供的方案。

失败本质:三处不兼容——模型不支持、API 不一致、JSON 输出格式冲突。第三方依赖的稳定性不在我们手里。识别"这条路根本走不通"也算工作。

RapidOCR CUDA / OCR 子进程 GPU

性能优化尝试。

失败本质:cuDNN 多版本冲突 + 启动开销大于收益。实测后回滚——但排除一条路也是有效信息,避免下次踩同样的坑。

六、技术瓶颈 · 现阶段 AI 真的做不到的事

这不是借口,是行业共识。任何号称能做的产品要么是夸大,要么是限定在窄场景。

⚠ 跨品类工艺等价

"蚝蛋烧淋油 ↔ 榴莲饼刷蛋液" 这种映射是商业知识而不是视觉/语言知识。GPT-4o / Claude / Gemini / Doubao 全部做不到,因为训练语料里没有"美食工艺横向映射表"。这不是模型规模能解决的问题,是数据本身缺失。

⚠ 视觉 embedding 的根本天花板

所有视频 embedding 模型(X-CLIP / SigLIP / InternVideo / Marengo)做的都是视觉相似度。"摊主对镜头讲话"画面极像,但开场和收尾用途完全不同——embedding 看不出来。这是模型设计原理的固有局限,不是工程能补的。

⚠ AI 自主选片("哪条素材最好")

平台算法"判好坏"是几十万条数据上跑出来的,单个用户没有这种数据。AI 可以按规则排序,但没法创造判断标准。LLM 给你一个"判断"不代表那个判断准。

⚠ 节奏 / 美感 / 选材的人类直觉

视频剪辑节奏(几秒切一刀,何处加转场,何处留白) 是高度主观的人类判断。AI 可以匹配既定 beat 时长,但创造合适的节奏需要审美。这是这个项目里最不可能"全自动"的部分。

⚠ 业务理解 — 必须人亲手做一遍

这是最深的瓶颈,不是技术问题。所有 AI 工具都建立在"用户已经知道要什么"的前提上。如果用户没亲手剪过,任何工具都只是空中楼阁。这个认知是 5/11 才彻底想通的——也是这一个月最大的收获之一。

七、阶段性产出(能用的成果)

产物	规模	能干嘛
catalog2 11 步管线	~7100 行代码	任意视频 → 切镜头/口播/OCR/描述/字幕/封面/水印/beats 全套数据
shooting-guide3 主站	~3400 行代码	视频按热度排名 + 镜头时间线可视化 + beat 校对 UI
video-match2 草稿	~1500 行代码	blueprint × 素材库 → 剪辑时间线(等下游验证)
167 个 blueprint	JSON 单视频骨架	每条爆款的 beat 数组 + 节奏数据,可直接给剪辑用
13 类 taxonomy_v1	非教学通用镜头清单	未来人工质检参考(自动化暂停)
step_timer 性能基线	15 步完整 timing	定位优化点,目标全量 171 视频 5-25 小时压到 2-5 小时
X-CLIP embedding 工具	4 个脚本 + 9 个视频 embedding	暂停,将来真用得着时还在
9 个阶段归档	每个 500-3000 字	跨会话工作连贯性 + 团队接入 onboarding

八、下一步计划

🎯 短期(本周-本月)· pipeline-perf 分支

step_timer instrumentation 已完成 ✅
baseline 数据已采集(VLM 调用占近 100%)✅
多视频 baseline 验证跨视频并发是否生效(正在跑)
优化方向:VLM 调用合并 / 跨视频并发拉高 / 单步 prompt 优化
目标:全量 171 视频从 5-25 小时压到 2-5 小时

🎯 中期 · catalog2 跑完后, 用户亲手做的阶段

主站看 47 条对标视频,自己总结拍摄套路
用任意视频软件亲手剪 5-10 条素材成片
过程中记下"哪一步最痛"
这是当前线最关键的环节

🎯 长期 · 基于亲手经验造工具

痛点候选:文案改写(对标 → 自家品类) / 标题生成 / 封面挑选 / 字幕对齐 / 修剪点定位 / 选片排序。只针对真痛点造工具,不空想自动化。

九、本项目最值钱的认知

没亲手做过一遍业务的工作, 不要先做工具。

- 别把"技术上能做"等同于"现在该做"
- 用户问"能不能自动化"时, 先问"你亲手做过几遍这件事了"
- 工具是业务理解的产物, 不是业务理解的替代品
- 所有"绕过人类经验"的工具承诺都该警惕

这条原则适用于任何 AI 应用项目。
——2026-05-11 项目方向重大转折记录

客观说明:这一个月没做完"全自动剪同款视频"是事实,但这不是工程懒惰或路线选错——是当前 AI 技术真做不到跨品类工艺自动映射。看清边界本身也是有效工作。这一个月做的事:基础设施搭建(11 步管线 / 主站 / 视频骨架库) + 大量路线探索(8+ 种尝试) + 关键认知升级(从"AI 自动剪"到"AI 辅助人剪")。这些是长期价值,不是这一个月的"失败"。