OpenBMB(清華大學相關團隊)開源的語音模型,可輸出 48kHz 影視級音質 支援 30 種語言 + 中文多種方言,零切換。 三種生成模式 1.Voice Design(語音設計模式) 最簡單: 完全不用上傳任何聲音。 你直接用文字描述想要的聲音,例如:「溫柔的年輕女生,說話慢一點,帶點微笑感覺」。 模型就從零創造出全新音色。適合想做卡通配音、虛擬角色或實驗新聲音的人。 優點:零成本、無需錄音;缺點:每次生成可能稍有不同,多試幾次就好。 2.Controllable Cloning(可控克隆模式) 上傳一段短音檔(3-10秒即可),模型先模仿這個人的音色。 同時你還能加文字指令控制:「說快一點、開心一點、嚴肅語氣」。 適合想用某人聲音,但要調整情緒、速度或風格的場合(如故事朗讀、廣告)。 3.Ultimate Cloning(極致克隆模式) 上傳短音檔 + 這段音檔的文字內容。 模型會「接著」這段聲音繼續說後面的文字,盡量還原所有細節(語氣、呼吸、節奏)。 相似度最高,適合需要極度自然的長段語音或精準模仿真人的情況。 怎麼開始使用?(超簡單步驟) 1.最簡單:直接打開官方線上 Demo 網址:https://huggingface.co/spaces/openbmb/VoxCPM-Demo 輸入文字、選模式、上傳音檔或描述聲音,按Generate即可聽到結果。不用安裝任何東西。 (實測在第2和第3模式時有時會顯示忙碌) 2.進階本地使用: - GitHub:專案程式碼存放處(https://github.com/OpenBMB/VoxCPM),像下載軟體一樣下載整個專案。 - Hugging Face:AI模型下載平台(https://huggingface.co/openbmb/VoxCPM2),存放模型檔案。 - LoRA:一種輕量微調技術。只用5-10分鐘你的聲音,就能讓模型更像你自己說話(不用訓練整個大模型,省記憶體又快速)。 推薦新手先用線上Demo玩熟,再考慮本地安裝。全部免費、可商用! 大家快去試試吧!😊