AI｜語音克隆精準重視人說話流暢度及呼吸既創商機又造網絡安全問題

隨「語音克隆」技術提高，演員和網絡犯罪分子對相關技術興趣日益增加。語音克隆是指，用計算機程序去生成一個合成、可適應的人聲音副本，可從某人說話錄音中，複制其聲音，並用其軟件說出輸入的任何東西。

據報，語音克隆技術的最新進展，是計算機生成的音頻已精確到令人不安的程度。軟件不僅能識別口音且識別音色、音調、節奏、說話的流暢度和呼吸，克隆的語音樣本更可被加以調整到表達任何需要的情緒：如憤怒、恐懼、快樂、愛或無聊等。

BBC訪問了一名美國配音藝術家和演員海勒，他從事包括為卡通人物、有聲讀物、紀錄片、遊戲，電影預告片等配音。他最近將興趣轉向語音克隆。他表示，當他第一次聽到自己的語音克隆時，驚訝地感嘆聽到的聲音是如此準確。他續指，語音克隆可令他獲更多工作機會。例如，如果自己被兩項工作同時預訂時，他可以提供克隆配音來代替其中一個工作。

為了克隆自己的聲音，海勒找到一間位於波士頓名為VocaliD的公司。VocaliD的工作，是為那些在沒有幫助的情況下，無法說話的病人創造人工聲音。例如在手術或生病後失聲的人。創辦人帕特爾（Rupal Patel）表示，這項技術是由人工智能主導，軟件可以自行學習和適應，更可以專門為客人定制更加多樣化的聲音。

帕特爾續指，公司製作了一些變性人聲音，還有一些性別中立的聲音。相關技術的應用，會想以所有人的方式說話，包括大家的獨特的口音和聲音。

面對著日益進化聲音克隆科技，雖具明顯的商業潛力，但亦令人擔憂它或會被用作網絡犯罪。用計算機生成的假視頻再加上語音克隆，「深度偽造」（deep fake）便會出現。網絡安全專家Eddy Bobritsky表示，合成聲音將帶來「巨大安全風險」。

他指出，如果有老闆打電話給僱員要求提供敏感信息，而僱員認出聲音後，便立即反應按要求做，就會出現犯罪。

據悉，《華爾街日報》早在2019年時曾報導，有稱一位英國經理被騙，向罪犯轉移22萬歐元（約26萬美元），騙子用其德國老闆的聲音克隆副本行騙。所以Eddy Bobritsky認為，需採取步驟去處理這種新技術及其帶來的威脅。

Source：BBC

Text By FORTUNE INSIGHT