faster-whisper × FFmpeg × NVIDIA NIM

錄完口播
自動出片

雙擊 launch.bat → 瀏覽器自動開 → 拖影片進去 → 拿成品 語音辨識 + 砍冗言贅字 + 上字幕 + 一次輸出 FB / YouTube / IG Reels / Shorts 四種規格。5 分鐘口播 30 秒搞定。

免費開源 · 瀏覽器 GUI · Windows 11 + Python 3.11 + NVIDIA GPU(無 GPU 自動降 CPU)

~8×
即時速度 (GPU)
4
輸出平台
40
單元測試
繁中
中英混合

真實處理結果

29 秒測試口播,內含「嗯、那個、就是、然後然後、對對對」

處理前 29.2 秒

嗯,那個今天我要跟你介紹一個程式。啊就是,這個程式可以自動偵測口播裡的冗言贅字。然後然後就是說,它會把那些贅字砍掉。對對對,這樣影片就會變得乾淨很多。」

處理後 25.6 秒(砍掉 13%)

「今天我要跟你介紹一個程式。這個程式可以自動偵測口播裡的冗言贅字。就是說,它會把那些贅字砍掉。這樣影片就會變得乾淨很多。」

+ 自動產生字幕燒在畫面上 + 一次輸出 4 平台

開啟 LLM 模式(NVIDIA NIM Kimi K2.6)可再多砍 14% 語意層贅字(「我重講」「呃我說錯了」)

為什麼這個能省時間

不是 wrapper — 是把 5 個 OSS 工具串成 5 分鐘下班的 pipeline

🎯

語音辨識

faster-whisper large-v3,GPU 加速 8 倍即時速度。繁中/中英混合,word-level 時間戳精準到 50ms。

✂️

自動剪冗詞

50+ 台灣口播贅字庫(嗯/啊/那個/然後然後)+ LLM 語意偵測。三種強度模式可選。

📝

自動上字幕

燒在畫面上(大字 + 描邊 + 半透明底框),每個平台用對應的 PlayResX/Y,字級不會跑掉。

📺

多平台輸出

YT 16:9 / Reels-Shorts 9:16 / IG 方形 1:1 / FB Feed,一次跑完。9:16 用模糊背景填邊。

📦 平台輸出規格

平台 解析度 比例 填邊模式
yt_long1920 × 108016:9純縮放
reels1080 × 19209:16模糊背景
square1080 × 10801:1中央裁切
fb_feed1920 × 108016:9純縮放(省流量 bitrate)

3 步驟開跑

在 Windows 11 + Python 3.11 + FFmpeg 環境

1

下載解壓

點上方按鈕拿 zip,解壓到任意位置(例:C:\口播神器)。

⬇ 下載 kuban-v1.1.zip
2

雙擊 launch.bat

資料夾內找到 launch.bat 雙擊。 首次啟動會自動裝依賴(約 3-5 分鐘,下載 ~1.5GB)。 之後雙擊就會立刻開。

瀏覽器會自動跳出 http://127.0.0.1:7860 的 GUI 介面。

3

拖影片進去 → 拿成品

在 GUI 內:

  • 📁 把口播 .mp4 拖到上傳框(或點擊選檔)
  • 📺 勾選要輸出的平台(YT / Reels / Square / FB)
  • ✂️ 選砍贅字強度(保守 / 標準 / 積極)
  • 🚀 按「開始處理」
  • 📦 等進度條跑完,點下載連結拿成品

仍喜歡命令列?跑 python kuban.py 你的影片.mp4 --platforms all 也行。

系統需求

沒 GPU 也能跑(CPU 模式約慢 10 倍)

✅ 必要

  • Windows 11(macOS / Linux 也行但 install 腳本是 Windows)
  • Python 3.11+
  • FFmpeg 8.0+(含 libass 字幕燒入)
  • • 8 GB+ RAM
  • • 5 GB 硬碟空間(含模型快取)

⚡ 建議(GPU 模式)

  • NVIDIA GPU CUDA 12+,6 GB+ VRAM
  • • cuDNN 9(pip wheel 自動裝)
  • NVIDIA NIM API key(免費,用於 LLM 偵測)— 申請

沒 GPU?加 --device cpu,慢但能跑。
沒 NIM key?加 --no-llm,純規則庫模式。

常見問題

不是工程師可以用嗎?

目前是 CLI(命令列)工具,需要會在 PowerShell 跑指令。但每個指令都很簡單,README 寫得很白話 — 跟著「下載 → 跑 install.ps1 → 跑 python kuban.py 你的影片.mp4」三步驟就能用。GUI 版本規劃中。

會不會把重要的話也砍掉?

有三種強度可選:gentle(保守)/ normal(預設)/ aggressive(積極)。 內建 whitelist 保護「這個案子」「對於」這類含贅字字眼但其實是內容的詞 — 不會誤砍。 剪完後給你完整 CutPlan JSON 看每個被砍的時間段 + 原因,可手動調整重跑。

字幕辨識會不會錯?

用 faster-whisper large-v3(OpenAI Whisper 的優化版),繁中辨識率業界頂尖。但專有名詞、人名、特殊術語可能會錯 — 程式同時產出獨立 .srt 給你進剪映/Premiere 手動修。

會傳我的影片到雲端嗎?

影片本身 100% 在你本機處理(faster-whisper + FFmpeg 都跑在本機)。 只有開啟 LLM 偵測模式時,逐字稿的文字會送 NVIDIA NIM(雲端 LLM)判斷語意層贅字 — 不送任何音訊/影片。 想完全離線,加 --no-llm 即可。

支援多長的影片?

沒有硬上限。實測 5 分鐘片約 30-40 秒(GPU + large-v3 模型)。長片自動切換 segment-based 路徑避免 FFmpeg expression 限制。 理論上 1-2 小時的演講也能跑,只是 transcribe 會花較久(仍快過實時 8 倍)。

是免費的嗎?有開源嗎?

免費。下載的 zip 內含完整 Python 原始碼 + 單元測試 + 架構文件,可以自己改 / 加贅字庫 / 改字幕樣式。 NVIDIA NIM 也是免費 tier(40 RPM),個人 / 小團隊用足夠。

準備好讓剪片時間變零?

527 KB · 免費 · 無需註冊 · 完整原始碼

⬇ 下載 v1.0
解開後跑 .\install.ps1 開始