一、29 天工作量数据
从 git log 和 tools/ 文件 mtime 拉出来的客观数据。
22K+
总代码行数
tools/ + 3 个 skill
68
Python POC 脚本
专题验证 + 临时工具
167
视频骨架(blueprint)
每条爆款独立 JSON
12
深度调研模型
ASR 6 / OCR 3 / VLM 3
🔍 如果没有 AI 辅助,纯手工做这一切大约需要多久?
代码量
22K+ 行 · 实际 29 天
→
纯手工约 5-9 个月(单人全职)
技术路线探索
8+ 种方案实跑过
→
纯手工一年最多深入 2-3 种
模型调研
12 个模型完整跑通
→
每个上手 + 调通约 1-2 周
POC 脚本
68 个专题验证
→
每个调研+写+跑约 0.5-1 天
综合估算
29 天实际完成
→
无 AI 辅助约 4-6 个月(单人全职)
估算依据:AI 辅助编程的真实加速比因任务类型不同而差异巨大——
简单 CRUD 类约 3-5 倍,调研型 / 多模型对比 / 算法实验约 5-10 倍,新框架学习约 5-10 倍。
本项目的特点是大量技术路线探索(8+ 种)、模型横向调研(12 个)、性能调优实验(几十次)——
这些恰好是 AI 加速比最高的场景。
这不是夸大工作量,只是客观说明:在 AI 时代,一个工程师能完成的事比传统模式多得多。
但这并不意味着工作变得轻松——决策密度更高、试错更频繁、需要不断判断"哪条路值得继续",反而更费脑。
二、每日工作日志
基于 git commit 时间戳和工具脚本 mtime 还原。每个工作日的具体产出都列出来,看完就明白这一个月发生了什么。
04-13 (周一) 起点
catalog-videos2 初始版本
- 初始三栏镜头时间线 UI(shooting-guide3)
- Gemini OCR pass + Whisper ASR 混合管线
- 修 Gemini start_sec/end_sec 错误
- 细化布局和时间线交互
04-14 (周二)
Phase 2 Doubao 单测收尾
- Doubao VLM 接入验证完成
- 归档:Phase2-Doubao 单测收尾.md
04-15 (周三) 5 commits
Phase 2 完整接入 · 三趟调用
- Phase 2:Doubao 三趟调用 + 两道算法后处理
- Step 2k:自动 beats 归纳(Pass 4 后处理)
- shooting-guide3:cover_title 渲染 / 新字段 / 中栏 4 列布局
- 9 步统一编号文档重写
04-16 (周四) 3 commits
默认开关治理 · Whisper 切 CUDA
- Whisper 切 large-v3 CUDA(质量大幅提升)
- 关 Pass 2/镜头摘要/字幕互校/beats 默认开关(避免误跑费 API)
- --only-file CLI 加入
- 归档:screen_texts 10 步质量大修
04-17 (周五) 10 commits
步骤 7/8 OCR 时间戳矫正
- _fuzzy_char_match 改双向对称
- 种子扩展阶段:修 Doubao end 偏大
- 每行独立找范围 + 取交集
- bbox y 位置验证(治"进行油炸"字幕位)
- 形状规则性过滤(倾斜装饰字噪音)
- 字幕区自适应探测(替代硬编码 y=0.60)
- bbox_pct 行级位置标注(下游剪辑用)
- Pass 1 JSON 解析重试
- 修 --force blast radius bug(force 不再清空整个 catalog)
04-18 (周六) 2 commits
v2.3 数据层 · 像素真值采样
- bbox_pct 中位数聚合
- color_pixel 像素真值采样(替代 Doubao 主观色)
- shooting-guide3:hover 预览 + color_pixel 优先
04-19 (周日) 4 commits
v2.4 / v2.5 数据层 · 三个 bug 修
- bbox 像素 shrink(收缩到字形真身)
- 颜色用 shrink 区域采样
- v2.5 patch:color 改 block 中间帧(挡渐变动画污染)
- shrink 加中心漂移检查(挡 argmin 漏字)
- OCR 循环健壮性 + cover 部分行时间矫正
- shooting-guide3:hover scaleX 压缩 + overflow 修
04-20 (周一) 4 commits
v2.6 / v2.7 / v2.8 / v2.9 字段升级
- v2.6 Otsu 字形像素筛(挡深色 pill 底反杀)
- v2.7 bbox_pct_aligned(block 内多行对齐框)
- v2.8 cover_title 专用规则
- v2.9 bbox_pct_segments(cover 分字 bbox)
- 第一个 rank 批量跑 POC 工具
04-21 (周二) 9 commits
水印识别 · 字形显示特例 · 字幕区
- 步骤 8.5:常驻身份标识(水印)识别本地算法
- 字形显示特例白名单(贝兼↔赚 / 走犬↔逛)
- 水印 occurrences 补全
- 水印多行合并
- 字幕区阈值 1% buffer
- 主站时间轴加水印 track(后回滚)
- 水印 hover 预览读 lines 字段
- 剔除被水印吞并的 screen_text block
- 视频 URL 改 HTTP 相对路径
- POC:detect_watermarks / refill_watermarks / rerun_rank6_vlm
04-22 (周三) 11 commits · 单日最高
性能优化爆发日 · 并发 + GPU + 采样
- VLM_CONCURRENCY=4 → rank 30 省 27% 总耗时
- VLM_CONCURRENCY=8 → rank 38 再省 13%
- OCR grab+retrieve → rank 18 省 37%
- RapidOCR 采样 0.5s → rank 3 实测省 36%
- color_pixel 方案 B(autocorrect + Doubao 弱先验)
- RapidOCR CUDA 实验 → cuDNN 冲突,回滚
- OCR 独立子进程走 GPU → 实测不值
- shrink HSV Hue/V 筛 + edge_margin 自适应
- 水印覆盖率阈值 0.20→0.40 + Doubao 补遗
- OCR 字符集模糊匹配兜底
- Whisper 关 condition_on_previous_text(修长视频漏识)
04-23 (周四) 6 commits + 6 POC
B/C 双方案 · 多账号轮询 · Phase A/B 分离
- ARK_API_KEYS 批次级轮询(B 方案,实测省 13%)
- C 方案:Phase A 本地顺序 + Phase B VLM 多视频并发
- Phase A OCR 并发(CATALOG_OCR_CONCURRENCY)
- per-thread engine 重构(0 行为变化)
- Qwen VLM provider 加入(阿里百炼)
- benchmark 工具:批次加耗时打印 + --only-file 多值
- POC 6 个:B_verify / B_compare / multi_pool_compare / probe_ark_key / C_top50_rest / C_smoke_single+multi / C_vs_master
04-24 (周五) 7 commits
三线并行 · EasyOCR · PaddleOCR provider
- 三线并行成为默认:OCR pool ∥ Pass 1 pool → Post pool
- EasyOCR GPU provider + batch 推理(共享 reader 4 并发仍 2.5x)
- PaddleOCR 3.x GPU provider(方案 6,精度最高)
- 方案 6:rec_batch=8 + per-thread reader 线程安全
- check_and_install_deps 改 find_spec(避免触发 cuDNN 污染)
- preset 1/2/3 切换脚本
04-25 (周六) 3 commits + 8 POC
DOUBAO mini 切换(省 28%)· 颜色族自适应
- DOUBAO_MODEL 切 lite → mini(¥0.20 vs ¥0.28/M input,质量等价)
- color_pixel 按色族自适应采样
- _filter_subtitle_leaks 规则 4 Doubao 改写字幕兜底
- POC 多个 rerun_rank30/31/33 验证
- 归档:方案 6 完成 · mini 默认
04-26 (周日) 5 commits
颜色根本解重构 · 规则系统
- 颜色采集挪回 OCR 第一层(根本解,放弃旁路)
- 颜色 sanity check A 方案兜底
- 规则 6 OCR bbox 跨度过滤跟随物体的字
- _find_line_range 种子失败兜底
- 归档:规则系统重构 · 颜色根本解 · 5 commit
04-27 (周一) 4 commits + 6 POC
幻觉过滤 · OpenRouter · voiceover POC
- _filter_hallucinated_screen_texts:OCR 真值反查删 Doubao 幻觉
- _annotate_color_pixel Doubao per-frame 先验
- GEMINI_MODEL env 化(支持 OpenRouter 任意 model)
- POC:screen_text_supplement / preset_6_paddleocr / voiceover_split / voiceover_split_by_doubao
- 归档:VLM 对比 + ASR 调研(Whisper 静音 bug)
04-28 (周二) ASR 调研日 · 8 POC
ASR 全模型横评
- sensevoice POC(无 timestamp 弃用)
- paraformer-large POC(ms 级时间戳)
- whisperx POC(中文对齐失败弃用)
- seaco_paraformer POC(热词版)
- qwen3_asr_poc(阿里 1.7B + ForcedAligner)
- qwen3_punc_split(标点切分)
- vad_voiceover_check(Silero VAD 验证)
- composite_voiceovers(多 ASR 合成)
- 实测结论:Whisper 主力 + Paraformer 副助 + Doubao mini 字幕单跑
04-29 (周三) 5 commits + 8 POC · v2.3
step 9 v2 接通 · 11 步管线定型
- step 9 v2 阶段 4-5 实施(9.0/9.2/9.3/9.4/9.5)
- v2.3 11 步管线:Pass 1 砍字幕 + 9.0 升独立步骤 + Pass 3 注入
- step 9 v2 修 merge_result
- POC:gemini_subtitle / doubao_10fps / gemini_5fps / doubao_subtitle_only
- POC:composite_mini_align_fix / via_llm / regression_v2_vs_poc
- build_voiceover_compare_html(对比页)
- 归档:step 9 v2 工程化全跑通
04-30 (周四) 关键架构日
shot_id 唯一标识 · 13 类 tag POC 启动
- shot_id:每个 shot 跨视频唯一(新方向也复用)
- POC:propose_tags(DeepSeek-V4-flash 提议三轴标签)
- POC:run_pass3_only(单步重跑,并发 8 + 重试 2)
- POC:discover_shot_patterns(数据驱动归纳)
- 归档:v2.3 11 步管线 · shot_id · 标签 POC
05-01 (周五)
三轴架构被推翻
- 三轴(动作/场景/主体)35 标签:9 个绑品类 / 6 个太抽象
- 样本小时分类没意义,LLM 被逼着乱填
- 改数据驱动归纳:v4-flash 跨视频找模式
- 第 2 版 prompt 跑出 15 个非教学通用镜头
- 用户合并 1+12 / 13+15 → 13 个 taxonomy_v1
05-02 (周六) 3 POC · beats 8 阶段
beats 多轮自检 POC · 8 阶段流程
- stage1 类型 → stage2 粗切 → stage3 边界 → stage4 将来时 → stage5 主次 → stage6 合并 → stage7 功能 → stage8 标题
- stage 内增量(5 种 action,减 80% output tokens)
- stage 间增量(--invalidate-from)
- 4 模型并行:doubao-mini/lite + v4-flash/v4-pro
- DeepSeek 关思考模式(v4-pro 7→2.7 分钟)
- POC:build_beats_compare_html / run_beats_only / inject_beats
05-07 (周四) 3 commits
Pass 3 prompt 4 类信号 · beat 纠错 UI
- Pass 3 prompt 改 4 类信号(时态/动作主体/完成度/主次)
- shooting-guide3 beat 纠错 UI:shot ↑↓ / beat ✏️🗑 / 红线
- JS 局部更新 DOM(不刷新页面)
- 自动重算 beat 边界
05-08 (周五) 1 commit + 1 POC
UI 大块功能 · 项目状态文档
- beat ✂️ 拆分 / 🗑 删除 / 自定义 confirm modal
- idx 重编号
- range_server.py(主站 HTTP + 后端 API)
- 02 项目状态文档(大白话版)
05-09 (周六)
方向 1:embedding workbench · 砍 13 类 tag
- 看穿:13 类 tag 通用镜头占比天花板 30%,路线走不通
- 新方向:X-CLIP embedding + LLM 精排 + workbench 三层
- step 12 X-CLIP 工具:修 4 个 transformers 4.57 bug
- 03 新方向文档
- git 分支:shooting-guide3/embedding-workbench
05-10 (周日) embedding demo 验证
embedding workbench 跨账号 demo 失败
- build_embedding_index(给所有 shot 算 X-CLIP)
- cross_account_match(跨账号余弦相似度 top 5)
- build_match_html(可视化 + ffmpeg 切片 + 视频网格)
- 发现 1:整段嵌入糊化(已修,改细切)
- 发现 2:embedding 找视觉相似,但内容毫不相干(蚝蛋烧 vs 榴莲饼)
- 发现 3:素材视频本身有连贯口播,切碎成 4 秒段反而破坏成品
05-11 (周一,当前)
关键认知升级 · 转向 pipeline-perf
- 看穿:"工具救不了不懂业务"——我自己没亲手剪过任何一条视频
- 放弃自动化空想,改路线:catalog2 跑完所有 → 亲手剪 5-10 条 → 暴露真痛点 → 再谈 AI
- 04 转向文档
- catalog-videos2 新分支 pipeline-perf · 时间效率优化
- step_timer 装饰器加进 catalog2.py(11 步全程 instrumentation)
- baseline 跑出来:总 26m33s · VLM 调用 ≈ 全部时间
三、为什么花了这么久
客观说明:这个项目的本质难度,大部分人(包括我自己一开始)严重低估了。下面这几件事任何一件单独拿出来都是一个小型项目,而我同时在做。
| 难度维度 | 具体复杂性 |
| 单视频管线深度 |
11 个 step,每个 step 内部又有多个子任务。step 7 OCR 时间戳矫正一项就有"种子扩展 + 每行独立 + 取交集 + 退化兜底"四层算法。 |
| 多模型组合 |
同一管线协调:PySceneDetect + Whisper + Paraformer + RapidOCR + EasyOCR + PaddleOCR + Doubao VLM + Gemini + Qwen + DeepSeek + Silero VAD + OpenCC。每个模型一套依赖、一套调用约定、一套坑。 |
| 跨平台 GPU 协调 |
2080Ti 22G 上同时跑 Whisper(CUDA FP16)+ RapidOCR(CPU)+ PaddleOCR(GPU)+ EasyOCR(GPU),cuDNN 9.x 多版本冲突需要 DLL 改名/复用 workaround(Paddle Issue #75939)。 |
| API 限流博弈 |
Doubao 账号级限流不是 key 级,需要多账号轮询;老账号被服务端隐式降级;TPM 保障包三处不兼容。整套绕开机制就是一个子项目。 |
| 数据准确性 |
color_pixel 真值采样迭代了 v2.3-v2.9 六个版本才稳定;bbox_pct 加了 segments/aligned 两个字段;_filter_subtitle_leaks 6 条规则才把幻觉过滤干净。 |
| 架构演进 |
从 v1 Gemini 全托管 → v2 本地+VLM 混合 → v2.3 11 步管线 → step 9 v2 五子步 voiceover pipeline → C 方案 Phase A/B 分离 → 三线并行。每一次架构升级都是 N 个小重构组成。 |
| 方向探索 |
三轴架构 → 推翻 → 13 类 taxonomy → 暂停 → embedding workbench → 暂停 → pipeline-perf。每个方向都需要先搭脚手架、跑实验、看数据、做决定。失败的方向同样占工程师时间。 |
| 素材/对标多样性 |
蚝蛋烧 vs 榴莲饼跨品类是核心需求,需要的不仅是技术,还是商业语义对齐。每种品类工艺步骤完全不同,无法直接复用。 |
四、尝试过的技术路线
每一条线都是真跑过 POC、看过数据、做过判断,不是空想。
| 路线 | 状态 | 原因 |
| Gemini 全托管(初始) | 迭代过渡 | v1 → v2 本地+VLM 混合,成本/稳定性大幅改善 |
| 11 步本地+VLM 管线 | ✅ 稳定主力 | v2.3 定型,可重复跑 |
| 多账号 Doubao 轮询(B 方案) | ✅ 实测有效 | 账号级限流必须多账号,key 级不分池 |
| 三线并行(C 方案) | ✅ 默认开启 | Phase A OCR ∥ Pass 1 → Post pool |
| RapidOCR / EasyOCR / PaddleOCR 三 provider 矩阵 | ✅ 按场景选 | 方案 6 PaddleOCR 精度最高,方案 4 RapidOCR CPU 速度可用 |
| step 9 v2 voiceover 五子步 | ✅ 主力 | Whisper + Paraformer + composite + Silero + DeepSeek 错字纠正 |
| Doubao 字幕单跑(Pass 1 砍字幕) | ✅ 0 错字 | 专注力分散是 VLM 致命问题,拆分单跑反而准 |
| Pass 3 4 类信号 prompt | ✅ 描述质量提升 | 时态/动作主体/完成度/主次结构 → LLM 填表比写故事可靠 |
| shooting-guide3 一视频一模板 | ✅ 哲学定型 | 拒绝抽象,先落地数据再反向归纳 |
| beat 纠错 UI | ✅ 已实现 | ↑↓✏️🗑✂️ + JS 局部更新 + 自动归档反馈金矿 |
| RapidOCR 走 CUDA | ❌ 回滚 | cuDNN 多版本不可协调,实测保 Whisper GPU 更划算 |
| OCR 独立子进程走 GPU | ❌ 实测不值 | 启动开销大于收益 |
| 本地 VLM(Ollama MiniCPM-V 等 8 模型) | ❌ 不经济 | 2026-04-17 实测,本地 53min/视频 70% 质量 vs Doubao 90s 100% |
| 三轴镜头分类(动作/场景/主体) | ❌ 推翻 | 样本小时强加分类轴,LLM 被逼着乱填 |
| 13 类通用镜头 tag 自动打 | 暂停 | 通用镜头占比天然 < 30%,自动化覆盖率天花板 |
| embedding workbench 跨账号匹配 | 暂停 | 视觉相似 ≠ 内容相关;切碎素材破坏成品;商业知识 AI 学不会 |
| 跨品类工艺自动映射 | ❌ 工程不可行 | 每条对标都要人写映射表,比手剪还累 |
| TPM 保障包(解 Doubao 限流) | ❌ 不兼容 | 模型/API/JSON 输出三处不匹配 |
五、成功 vs 失败 · 原因分析
✅ 成功的工程产出
catalog2 11 步管线 v2.3 主线
本地切镜头 / Whisper / OCR + Doubao VLM 富化,各管各的不耦合。
成功原因:本地模型出真值, VLM 出描述/字幕, 职责清晰; 字段级断点续传 + 强制重跑;每个 step 独立可关。架构合理性是稳定性的根。
shooting-guide3 拒绝抽象哲学
每条爆款独立 blueprint,不做聚类/套路归纳。
成功原因:抽象是危险的——抽不准误导整个下游。先落地数据再反向归纳,比一开始建抽象层稳得多。这是工程教训也是哲学。
多 Doubao 账号轮询(B 方案)
批次级轮询多 key,绕开账号级限流池。
成功原因:实测发现限流是账号级而非 key 级。多账号才真分池。验证用了几轮 benchmark,不是猜的。
color_pixel 像素真值(v2.3-v2.9 迭代)
放弃 Doubao 主观色, 改本地像素采样。
成功原因:六个版本迭代——bbox 中位数 → shrink 收缩 → Otsu 字形筛 → 渐变中间帧 → 色族自适应 → A 方案兜底。每次都基于实测发现的问题。
三线并行(C 方案)
Phase A2 OCR pool ∥ Pass 1 pool → Post pool。
成功原因:Whisper 独占 GPU 必须顺序,但 OCR 是 CPU,Pass 1 是 API,各跑各的不冲突。识别瓶颈分类是性能优化的基础。
step_timer instrumentation
2026-05-11 加,每个 step 自动 print 耗时。
成功原因:加之前只看到部分 timing,大头 1340s 不知去向。加完立刻定位 Top 3 全是 VLM(626 / 593 / 500s)。先量再优化是工程铁律。
❌ 失败的方向 · 不是工程问题, 是 AI 能力问题
跨品类工艺自动映射
"蚝蛋烧淋油 ↔ 榴莲饼刷蛋液",视觉/工艺等价。
失败本质:这是商业知识,不是视觉/语言知识。模型训练数据里没有"两种品类工艺等价表"。任何 embedding/VLM/LLM 都解决不了。这不是工程缺陷,是 AI 边界。
embedding 视觉相似 ≠ 内容相关 暂停
X-CLIP 跨账号匹配实测发现。
失败本质:embedding 找的是视觉构图。"摊主前操作"画面在跨品类都相似,但内容毫不相干。这是模型设计的固有局限,目前业界开源模型(X-CLIP/SigLIP/InternVideo) 全部如此。
13 类 tag 离散化丢信息 暂停
通用镜头占比天然 < 30%。
失败本质:现实是连续的,标签是离散的。强行离散就丢信息。这是哲学问题不是技术问题,人也解决不了——同样的镜头不同人标的不一致。
本地 VLM 化(2026-04-17 实测 8 模型)
Ollama MiniCPM-V 等。
失败本质:本地 53min/视频 70% 质量 vs Doubao 90s 100%。开源模型跟商用大模型差距是结构性的,不是调一调就能赶上。MiniCPM-V 4.5 Ollama 加载死 bug 4 月未修,生态成熟度差距大。
三轴架构(动作/场景/主体)
2026-05-01 推翻。
失败本质:样本小时强加分类轴,LLM 被逼着乱填。这是过早抽象的代价。但失败带来的认知"先落地再归纳"成为了 shooting-guide3 哲学,反而是收获。
TPM 保障包(解 Doubao 限流)
服务商提供的方案。
失败本质:三处不兼容——模型不支持、API 不一致、JSON 输出格式冲突。第三方依赖的稳定性不在我们手里。识别"这条路根本走不通"也算工作。
RapidOCR CUDA / OCR 子进程 GPU
性能优化尝试。
失败本质:cuDNN 多版本冲突 + 启动开销大于收益。实测后回滚——但排除一条路也是有效信息,避免下次踩同样的坑。
六、技术瓶颈 · 现阶段 AI 真的做不到的事
这不是借口,是行业共识。任何号称能做的产品要么是夸大,要么是限定在窄场景。
⚠ 跨品类工艺等价
"蚝蛋烧淋油 ↔ 榴莲饼刷蛋液" 这种映射是商业知识而不是视觉/语言知识。GPT-4o / Claude / Gemini / Doubao 全部做不到,因为训练语料里没有"美食工艺横向映射表"。这不是模型规模能解决的问题,是数据本身缺失。
⚠ 视觉 embedding 的根本天花板
所有视频 embedding 模型(X-CLIP / SigLIP / InternVideo / Marengo)做的都是视觉相似度。"摊主对镜头讲话"画面极像,但开场和收尾用途完全不同——embedding 看不出来。这是模型设计原理的固有局限,不是工程能补的。
⚠ AI 自主选片("哪条素材最好")
平台算法"判好坏"是几十万条数据上跑出来的,单个用户没有这种数据。AI 可以按规则排序,但没法创造判断标准。LLM 给你一个"判断"不代表那个判断准。
⚠ 节奏 / 美感 / 选材的人类直觉
视频剪辑节奏(几秒切一刀,何处加转场,何处留白) 是高度主观的人类判断。AI 可以匹配既定 beat 时长,但创造合适的节奏需要审美。这是这个项目里最不可能"全自动"的部分。
⚠ 业务理解 — 必须人亲手做一遍
这是最深的瓶颈,不是技术问题。所有 AI 工具都建立在"用户已经知道要什么"的前提上。如果用户没亲手剪过,任何工具都只是空中楼阁。这个认知是 5/11 才彻底想通的——也是这一个月最大的收获之一。
七、阶段性产出(能用的成果)
| 产物 | 规模 | 能干嘛 |
| catalog2 11 步管线 | ~7100 行代码 | 任意视频 → 切镜头/口播/OCR/描述/字幕/封面/水印/beats 全套数据 |
| shooting-guide3 主站 | ~3400 行代码 | 视频按热度排名 + 镜头时间线可视化 + beat 校对 UI |
| video-match2 草稿 | ~1500 行代码 | blueprint × 素材库 → 剪辑时间线(等下游验证) |
| 167 个 blueprint | JSON 单视频骨架 | 每条爆款的 beat 数组 + 节奏数据,可直接给剪辑用 |
| 13 类 taxonomy_v1 | 非教学通用镜头清单 | 未来人工质检参考(自动化暂停) |
| step_timer 性能基线 | 15 步完整 timing | 定位优化点,目标全量 171 视频 5-25 小时压到 2-5 小时 |
| X-CLIP embedding 工具 | 4 个脚本 + 9 个视频 embedding | 暂停,将来真用得着时还在 |
| 9 个阶段归档 | 每个 500-3000 字 | 跨会话工作连贯性 + 团队接入 onboarding |
八、下一步计划
🎯 短期(本周-本月)· pipeline-perf 分支
- step_timer instrumentation 已完成 ✅
- baseline 数据已采集(VLM 调用占近 100%)✅
- 多视频 baseline 验证跨视频并发是否生效(正在跑)
- 优化方向:VLM 调用合并 / 跨视频并发拉高 / 单步 prompt 优化
- 目标:全量 171 视频从 5-25 小时压到 2-5 小时
🎯 中期 · catalog2 跑完后, 用户亲手做的阶段
- 主站看 47 条对标视频,自己总结拍摄套路
- 用任意视频软件亲手剪 5-10 条素材成片
- 过程中记下"哪一步最痛"
- 这是当前线最关键的环节
🎯 长期 · 基于亲手经验造工具
痛点候选:文案改写(对标 → 自家品类) / 标题生成 / 封面挑选 / 字幕对齐 / 修剪点定位 / 选片排序。只针对真痛点造工具,不空想自动化。
九、本项目最值钱的认知
没亲手做过一遍业务的工作, 不要先做工具。
- 别把"技术上能做"等同于"现在该做"
- 用户问"能不能自动化"时, 先问"你亲手做过几遍这件事了"
- 工具是业务理解的产物, 不是业务理解的替代品
- 所有"绕过人类经验"的工具承诺都该警惕
这条原则适用于任何 AI 应用项目。
——2026-05-11 项目方向重大转折记录
客观说明:这一个月没做完"全自动剪同款视频"是事实,但这不是工程懒惰或路线选错——是当前 AI 技术真做不到跨品类工艺自动映射。看清边界本身也是有效工作。这一个月做的事:基础设施搭建(11 步管线 / 主站 / 视频骨架库) + 大量路线探索(8+ 种尝试) + 关键认知升级(从"AI 自动剪"到"AI 辅助人剪")。这些是长期价值,不是这一个月的"失败"。