雙擊 launch.bat → 瀏覽器自動開 → 拖影片進去 → 拿成品。
語音辨識 + 砍冗言贅字 + 上字幕 + 一次輸出 FB / YouTube / IG Reels / Shorts 四種規格。5 分鐘口播 30 秒搞定。
免費開源 · 瀏覽器 GUI · Windows 11 + Python 3.11 + NVIDIA GPU(無 GPU 自動降 CPU)
29 秒測試口播,內含「嗯、那個、就是、然後然後、對對對」
「嗯,那個今天我要跟你介紹一個程式。啊就是,這個程式可以自動偵測口播裡的冗言贅字。然後然後就是說,它會把那些贅字砍掉。對對對,這樣影片就會變得乾淨很多。」
「今天我要跟你介紹一個程式。這個程式可以自動偵測口播裡的冗言贅字。就是說,它會把那些贅字砍掉。這樣影片就會變得乾淨很多。」
+ 自動產生字幕燒在畫面上 + 一次輸出 4 平台
不是 wrapper — 是把 5 個 OSS 工具串成 5 分鐘下班的 pipeline
faster-whisper large-v3,GPU 加速 8 倍即時速度。繁中/中英混合,word-level 時間戳精準到 50ms。
50+ 台灣口播贅字庫(嗯/啊/那個/然後然後)+ LLM 語意偵測。三種強度模式可選。
燒在畫面上(大字 + 描邊 + 半透明底框),每個平台用對應的 PlayResX/Y,字級不會跑掉。
YT 16:9 / Reels-Shorts 9:16 / IG 方形 1:1 / FB Feed,一次跑完。9:16 用模糊背景填邊。
| 平台 | 解析度 | 比例 | 填邊模式 |
|---|---|---|---|
| yt_long | 1920 × 1080 | 16:9 | 純縮放 |
| reels | 1080 × 1920 | 9:16 | 模糊背景 |
| square | 1080 × 1080 | 1:1 | 中央裁切 |
| fb_feed | 1920 × 1080 | 16:9 | 純縮放(省流量 bitrate) |
在 Windows 11 + Python 3.11 + FFmpeg 環境
資料夾內找到 launch.bat 雙擊。
首次啟動會自動裝依賴(約 3-5 分鐘,下載 ~1.5GB)。
之後雙擊就會立刻開。
瀏覽器會自動跳出 http://127.0.0.1:7860 的 GUI 介面。
在 GUI 內:
仍喜歡命令列?跑 python kuban.py 你的影片.mp4 --platforms all 也行。
沒 GPU 也能跑(CPU 模式約慢 10 倍)
沒 GPU?加 --device cpu,慢但能跑。
沒 NIM key?加 --no-llm,純規則庫模式。
目前是 CLI(命令列)工具,需要會在 PowerShell 跑指令。但每個指令都很簡單,README 寫得很白話 — 跟著「下載 → 跑 install.ps1 → 跑 python kuban.py 你的影片.mp4」三步驟就能用。GUI 版本規劃中。
有三種強度可選:gentle(保守)/ normal(預設)/ aggressive(積極)。
內建 whitelist 保護「這個案子」「對於」這類含贅字字眼但其實是內容的詞 — 不會誤砍。
剪完後給你完整 CutPlan JSON 看每個被砍的時間段 + 原因,可手動調整重跑。
用 faster-whisper large-v3(OpenAI Whisper 的優化版),繁中辨識率業界頂尖。但專有名詞、人名、特殊術語可能會錯 — 程式同時產出獨立 .srt 給你進剪映/Premiere 手動修。
影片本身 100% 在你本機處理(faster-whisper + FFmpeg 都跑在本機)。
只有開啟 LLM 偵測模式時,逐字稿的文字會送 NVIDIA NIM(雲端 LLM)判斷語意層贅字 — 不送任何音訊/影片。
想完全離線,加 --no-llm 即可。
沒有硬上限。實測 5 分鐘片約 30-40 秒(GPU + large-v3 模型)。長片自動切換 segment-based 路徑避免 FFmpeg expression 限制。 理論上 1-2 小時的演講也能跑,只是 transcribe 會花較久(仍快過實時 8 倍)。
免費。下載的 zip 內含完整 Python 原始碼 + 單元測試 + 架構文件,可以自己改 / 加贅字庫 / 改字幕樣式。 NVIDIA NIM 也是免費 tier(40 RPM),個人 / 小團隊用足夠。