faster-whisper × FFmpeg × NVIDIA NIM

錄完口播
自動出片

雙擊 launch.bat → 瀏覽器自動開 → 拖影片進去 → 拿成品。
語音辨識 + 砍冗言贅字 + 上字幕 + 一次輸出 FB / YouTube / IG Reels / Shorts 四種規格。5 分鐘口播 30 秒搞定。

⬇ 下載 v1.1（Windows · 含 GUI） 📖 怎麼用

免費開源 · 瀏覽器 GUI · Windows 11 + Python 3.11 + NVIDIA GPU（無 GPU 自動降 CPU）

~8×

即時速度 (GPU)

輸出平台

單元測試

繁中

中英混合

真實處理結果

29 秒測試口播，內含「嗯、那個、就是、然後然後、對對對」

處理前 29.2 秒

「嗯，那個今天我要跟你介紹一個程式。啊就是，這個程式可以自動偵測口播裡的冗言贅字。然後然後就是說，它會把那些贅字砍掉。對對對，這樣影片就會變得乾淨很多。」

處理後 25.6 秒（砍掉 13%）

「今天我要跟你介紹一個程式。這個程式可以自動偵測口播裡的冗言贅字。就是說，它會把那些贅字砍掉。這樣影片就會變得乾淨很多。」

+ 自動產生字幕燒在畫面上 + 一次輸出 4 平台

開啟 LLM 模式（NVIDIA NIM Kimi K2.6）可再多砍 14% 語意層贅字（「我重講」「呃我說錯了」）

為什麼這個能省時間

不是 wrapper — 是把 5 個 OSS 工具串成 5 分鐘下班的 pipeline

🎯

語音辨識

faster-whisper large-v3，GPU 加速 8 倍即時速度。繁中/中英混合，word-level 時間戳精準到 50ms。

✂️

自動剪冗詞

50+ 台灣口播贅字庫（嗯/啊/那個/然後然後）+ LLM 語意偵測。三種強度模式可選。

📝

自動上字幕

燒在畫面上（大字 + 描邊 + 半透明底框），每個平台用對應的 PlayResX/Y，字級不會跑掉。

📺

多平台輸出

YT 16:9 / Reels-Shorts 9:16 / IG 方形 1:1 / FB Feed，一次跑完。9:16 用模糊背景填邊。

📦 平台輸出規格

平台	解析度	比例	填邊模式
yt_long	1920 × 1080	16:9	純縮放
reels	1080 × 1920	9:16	模糊背景
square	1080 × 1080	1:1	中央裁切
fb_feed	1920 × 1080	16:9	純縮放（省流量 bitrate）

3 步驟開跑

在 Windows 11 + Python 3.11 + FFmpeg 環境

下載解壓

點上方按鈕拿 zip，解壓到任意位置（例：C:\口播神器）。

⬇ 下載 kuban-v1.1.zip

雙擊 launch.bat

資料夾內找到 launch.bat 雙擊。 首次啟動會自動裝依賴（約 3-5 分鐘，下載 ~1.5GB）。之後雙擊就會立刻開。

瀏覽器會自動跳出 http://127.0.0.1:7860 的 GUI 介面。

拖影片進去 → 拿成品

在 GUI 內：

📁 把口播 .mp4 拖到上傳框（或點擊選檔）
📺 勾選要輸出的平台（YT / Reels / Square / FB）
✂️ 選砍贅字強度（保守 / 標準 / 積極）
🚀 按「開始處理」
📦 等進度條跑完，點下載連結拿成品

仍喜歡命令列？跑 python kuban.py 你的影片.mp4 --platforms all 也行。

系統需求

沒 GPU 也能跑（CPU 模式約慢 10 倍）

✅ 必要

• Windows 11（macOS / Linux 也行但 install 腳本是 Windows）
• Python 3.11+
• FFmpeg 8.0+（含 libass 字幕燒入）
• 8 GB+ RAM
• 5 GB 硬碟空間（含模型快取）

⚡ 建議（GPU 模式）

• NVIDIA GPU CUDA 12+，6 GB+ VRAM
• cuDNN 9（pip wheel 自動裝）
• NVIDIA NIM API key（免費，用於 LLM 偵測）— 申請

沒 GPU？加 --device cpu，慢但能跑。
沒 NIM key？加 --no-llm，純規則庫模式。

常見問題

不是工程師可以用嗎？

▼

目前是 CLI（命令列）工具，需要會在 PowerShell 跑指令。但每個指令都很簡單，README 寫得很白話 — 跟著「下載 → 跑 install.ps1 → 跑 python kuban.py 你的影片.mp4」三步驟就能用。GUI 版本規劃中。

會不會把重要的話也砍掉？

▼

有三種強度可選：gentle（保守）/ normal（預設）/ aggressive（積極）。內建 whitelist 保護「這個案子」「對於」這類含贅字字眼但其實是內容的詞 — 不會誤砍。剪完後給你完整 CutPlan JSON 看每個被砍的時間段 + 原因，可手動調整重跑。

字幕辨識會不會錯？

▼

用 faster-whisper large-v3（OpenAI Whisper 的優化版），繁中辨識率業界頂尖。但專有名詞、人名、特殊術語可能會錯 — 程式同時產出獨立 .srt 給你進剪映/Premiere 手動修。

會傳我的影片到雲端嗎？

▼

影片本身 100% 在你本機處理（faster-whisper + FFmpeg 都跑在本機）。只有開啟 LLM 偵測模式時，逐字稿的文字會送 NVIDIA NIM（雲端 LLM）判斷語意層贅字 — 不送任何音訊/影片。想完全離線，加 --no-llm 即可。

支援多長的影片？

▼

沒有硬上限。實測 5 分鐘片約 30-40 秒（GPU + large-v3 模型）。長片自動切換 segment-based 路徑避免 FFmpeg expression 限制。理論上 1-2 小時的演講也能跑，只是 transcribe 會花較久（仍快過實時 8 倍）。

是免費的嗎？有開源嗎？

▼

免費。下載的 zip 內含完整 Python 原始碼 + 單元測試 + 架構文件，可以自己改 / 加贅字庫 / 改字幕樣式。 NVIDIA NIM 也是免費 tier（40 RPM），個人 / 小團隊用足夠。

錄完口播 自動出片