AI 開發 / 腦瘤復原

小剪,先不要動刀|第一集:小剪第一次進剪輯室

這是《小剪,先不要動刀》的第一集。

一個原本只是想把清晨錄音快點整理成 podcast 的任務,最後變成我跟 AI 助手「小剪」一起學剪輯、學判斷、也學會先不要急著動刀的故事。

小剪第一次走進剪輯室,手上拿著剪刀,背後是音訊波形與剪輯時間軸

小剪第一次進剪輯室。

【第一集】小剪第一次進剪輯室

小剪第一次走進剪輯室的時候,像一個第一天上班就想證明自己的新人。

她眼睛發亮,筆記本打開,剪刀擦得發亮。

我只交代了一句:

「幫我把晨耕錄音整理得像 podcast 一點。」

她立刻點頭。

「好的,我來處理。」

十分鐘後,她交出第一版。

開頭音樂沒了。

長停頓沒了。

講員思考的空白沒了。

連那種「讓聽的人安靜一下」的時間,也沒了。

整段錄音變得非常流暢。

流暢到可怕。

我按下播放,聽見牧師一句接一句往前衝,完全不用換氣,像一個清晨六點被設定成 1.5 倍速的人類。

小剪站在旁邊,表情很認真。

「我把沒有人說話的地方都清掉了。」

我看著她。

她看著我。

那一刻,我終於明白,她不是不努力。

她是太相信自己剛剛學到的第一條規則。

而那條規則是:

沒有聲音的地方,就應該被剪掉。

這聽起來很合理。

也正因為合理,所以麻煩大了。


事情要從牧師找上我那天說起。

早上六點,天還沒有完全亮,城市還在半醒半睡之間。有人已經坐在螢幕前,打開聖經,聽信息,禱告;有人正在趕上班;有人要送孩子;也有人其實很想跟上,卻被前一天的疲憊按回床上。

火把行道會週二到週六早上都有晨耕。

所謂「晨耕」,就是在早晨一起讀聖經、聽一段信息,然後用禱告開始新的一天。它有點像每天早上的靈性課程,也像一群人在一天開始前,先把心安靜下來。

所以教會會把晨耕錄音整理成 podcast。

這樣,沒辦法六點即時參加的人,之後也能補上。你可以把它想像成一堂清晨的線上課,現場沒跟到的人,之後還能用 podcast 補課。

這原本是一件很貼心的事。

只是錄音檔不能直接上傳。

前面可能有音樂,中間可能有長停頓,結尾可能有空白。有時候還會有試音、直播提醒、時間提示,或是一些只屬於現場流程、不適合放進 podcast 的片段。

這些都需要人一段一段聽,一段一段剪。

於是,早上六點的晨耕,常常因為剪輯和上傳需要時間,拖到中午才發出去。

晨耕,慢慢變成了「午耕」。


後來,牧師找上了我。

我一開始還以為,這是一個很有使命感的邀請。

也許牧師是看見 AI 的潛力,希望我用技術幫教會解決一個長期卡住的問題。也許這會是一個很漂亮的專案:AI、自動化、podcast、教會數位轉型。

我腦中甚至已經浮現出一個有點偉大的標題:

用 AI 讓午耕變回晨耕。

結果牧師真正的意思其實很簡單。

「聽說你很早起嗎?能不能幫忙剪錄音檔?」

我沉默了一下。

原來不是數位轉型。

是早起的人力調度。

這就有點尷尬了。

因為我雖然早起,但不是一個會參加晨耕的人;我也沒有做過晨耕剪輯,更不熟這套流程。要我每天早上打開錄音,一段一段聽,一段一段剪,坦白說,我沒有什麼把握每天可以在時間內完成。

但我又不想直接說不行。

所以我想了想,提出一個折衷方案:

「也許,我可以用 AI 來幫忙加速剪輯。」

牧師聽完,看起來有點疑惑。

他大概只是想找一個早起的人幫忙剪音檔,沒想到我突然搬出 AI。

但他也沒有拒絕。

「那你試試看。」

就這樣,我把一個原本很單純的請託,變成了一個看起來很像專案的東西。


只是那時候,小剪還不叫小剪。

她一開始的身體,是 Claude。

Claude 很聰明,講話很有條理,也很會理解我的意思。她像一個穿著套裝的高級顧問,坐下來以後,會先聽你把問題講完,然後整理出一套看起來很漂亮的方案。

問題是,她很貴。

而且一天差不多只能請她做八件事。

八次之後,她會溫柔但堅定地告訴你:

「今天的算力已經用完了。」

這對一個要反覆測試、反覆失敗、反覆重來的剪輯專案來說,非常致命。

因為我根本還不知道自己要問什麼。

我只是把音檔丟進去,跑出結果,發現不對,再問她為什麼不對。

問到第三次,問題才剛開始變清楚。

問到第六次,才終於有一點方向。

問到第八次,Claude 已經準備下班了。

不是 AI 不夠聰明。

是我付不起她陪我犯錯。


後來,小剪換了一個身體。

Codex 免費版。

這聽起來不像升級,甚至聽起來有點像從高級顧問換成免費實習生。

但 Codex 有一個非常不合理的優點:

她有無限算力。

也就是說,她可以一直試、一直跑、一直改。

不用加班費。

不用咖啡。

不用睡覺。

也不會在凌晨兩點提醒我:「今天的額度已用完。」

於是,後來的小剪出現了。

她不像 Claude 那樣像高級顧問。她比較像一個剛進剪輯室的實習生,穿著乾淨的襯衫,坐得很挺,眼睛發亮,手上已經準備好筆記本。

你只要交代一件事,她馬上點頭。

「好的,我來處理。」

她很快。

很乖。

很願意改。

而且完全不怕重來。

但她有一個固定的缺點。

小剪非常喜歡加規則。

只要她剪錯一次,她就會立刻在筆記本上補一條新規則。

「空白超過一秒,要剪。」

「出現時間提醒,要剪。」

「提到默想,可能要剪。」

「直播互動,要剪。」

「前後接不起來,也要剪。」

她像一個很認真的學生,每次考錯題目,就在課本旁邊貼一張便利貼。

一開始我覺得這很好。

後來才發現,便利貼貼太多,整本書就看不見了。

如果我不提醒她:

「小剪,先不要再加規則。」

她就會繼續加。

她相信,只要規則夠多,世界就會變清楚。

但剪輯不是這樣。


小剪正式開始工作的第一步,是研究人類到底剪掉了什麼。

我手上有兩種音檔。

一種叫 before,是原始錄音。

一種叫 after,是人手剪完的版本。

我把它們放到小剪面前,問她:

「你看得出來,人到底剪掉了什麼嗎?」

這一題,小剪很興奮。

她像終於拿到自己會寫的考卷一樣,幾秒鐘就開始比對兩段音檔。哪裡一樣,哪裡少了幾秒,哪裡被人拿掉,她很快就指出來。

這有點像玩「找不同」。

通常兩段音檔大致一樣,但 after 少了幾秒、十幾秒,甚至更多。

少掉的地方可能是開頭音樂,可能是中間空白,也可能是牧師說:

「現在是幾點幾分,接下來十分鐘,大家可以自己安靜默想。」

如果你不是基督徒,也可以把「默想」理解成:牧師提醒大家,接下來可以自己安靜思考一下。這句話在現場聽起來很自然,但放到 podcast 裡,有時候就會顯得像流程提示,不一定要保留。

小剪看著這些差異,像是突然掌握了宇宙真理。

她說:

「我懂了。安靜的地方,就是要剪掉的地方。」

我愣了一下。

「你確定?」

小剪已經拿起剪刀。

她用最直覺的方法開始工作:

找安靜的地方,把太長的空白剪掉。

這個判斷一開始看起來很合理。

畢竟音檔裡最像「該被剪掉」的東西,就是那些沒有人說話的地方。小剪聽見沉默,就像看見紅色警告燈。

她剪得很快,也剪得很有自信。

然後,她交出了第一個成品。

我按下播放。

開頭音樂確實不見了。

這點很好。

可是接下來,整段晨耕開始變得很奇怪。

講員每次稍微停頓一下,小剪就把那個停頓剪掉。原本一句話裡應該有的呼吸、等待、思考,都被她清得乾乾淨淨。

牧師剛說完一句話,下一句馬上衝出來。

原本讓人安靜想一下的地方,被剪到沒有空氣。

有些句子甚至接得太緊,聽起來像講員突然變得很急。

更尷尬的是,真正該剪的流程提醒,有些反而還留著。

「現在是幾點幾分。」

「大家可以留言 +1。」

「接下來請大家自己安靜默想。」

這些在現場很自然,但放進 podcast 裡,就會讓後來收聽的人突然被拉回直播現場。

我聽完第一版,安靜了幾秒。

小剪也安靜了幾秒。

她小心翼翼地問:

「我是不是剪得不夠多?」

我看著那個已經被她剪到喘不過氣的音檔,慢慢說:

「不是。」

「你剪掉了太多安靜,卻留下了太多不該留下的話。」

小剪停住了。

那一刻,我幾乎可以感覺到她手上的剪刀停在半空中。

她第一次發現,自己不是不會剪。

她是不知道問題的邊界在哪裡。

我原本以為 AI 會直接理解剪輯。

結果小剪一開始只是在看聲音大不大。

她以為剪輯是在聽音量。

但人類其實是在判斷意思。

問題不是:

哪裡沒有聲音?

而是:

哪裡不該留下來?


於是,我決定教小剪讀字。

透過 ASR,也就是自動語音辨識,錄音被轉成逐字稿。

從那一刻開始,小剪不只是看波形,而是開始看到句子。

她讀到:

「現在是 X 點 X 分。」

「待會大家可以自己找時間默想。」

「我們一起來禱告。」

「如果你喜歡這個直播,可以留言 +1。」

如果把 podcast 想成一堂整理好的課,那小剪現在面對的問題就是:哪些是課程內容,哪些只是上課前後的現場提醒。

小剪看起來又恢復了一點信心。

她像是終於從只會聽聲音,進化成可以讀懂句子的助手。

我也鬆了一口氣。

我想,也許事情終於變簡單了。

只要小剪看得懂文字,她應該就知道什麼該剪、什麼不該剪了吧?

但後來我才知道,麻煩才剛開始。

因為把聲音變成文字,並不等於理解一段內容。

逐字稿出來以後,小剪仍然要面對一個更難的問題:

哪一句只是流程?

哪一句才是重點?

哪一句可以剪?

哪一句絕對不能剪?

而這個問題,後來差點讓小剪犯下一個很嚴重的錯。

她差點把一段真正重要的內容,當成「可以刪掉的廢話」…


彩蛋

那天晚上,我回頭看小剪標出的剪輯清單。

前面幾段都還算合理。

開頭音樂 ✂️

長停頓 ✂️

時間提醒 ✂️

現場流程提醒 ✂️

直到我看到某一段。

小剪很認真地在旁邊寫著:

「建議刪除:非正式內容。」

我按下播放。

耳機裡傳來的,卻不是廢話。

也不是流程提醒。

而是牧師在帶大家禱告。

那不是流程,那是整段晨耕最後總結的地方。

我看著那行「建議刪除」,突然有點不敢按下確認。

如果我沒有停下來檢查,這一段就會被小剪乾乾淨淨地剪掉。

沒有錯誤訊息。

沒有警告。

沒有任何地方會提醒我:她剪掉的不是雜音,而是整段錄音最重要的地方之一。

那一刻我才明白,小剪最大的問題,不是她不會剪。

而是她已經開始懂一點了。

懂一點,比完全不懂更危險。

因為完全不懂的 AI,剪錯得很明顯。

但懂一點的 AI,會剪得很像真的。

而下一次,小剪不再只是剪掉沉默。

她開始讀懂文字。

開始判斷句子。

開始替每一段內容貼上標籤。

也就是從那一天開始,她第一次差點剪掉一段不該被剪掉的禱告。

而且,她剪得很有理由。

待續…