AI學習紀錄 – Tacotron2 中文語音合成

瀏覽數: 2,229

接下來，則是介紹如何使用中文語音合成。本文是引用 Tacotron2-Mandarin 這個專案來測試的，其實也有幾個類似的專案，只能說剛好這個被我測成功。有純英文的、有使用 tensorflow 的，這個是唯一有順利試成功的，效果也不錯。

基本環境安裝

一些基本的環境 (如 anaconda、共用 script) 的設定，已經寫在【共同操作】這篇文章裡，請先看一下，確保所以指令可以正確運作。

建立 conda env

由於每個專案的相依性都不同，這裡會為每個案子都建立環境。

專案下載

這個專案主要的訓練是由下面這個專案完成

安裝套件

安裝該專案套件

但要合成語音則需要下載另一個專案，及其預訓練的模型

將waveglow下的glow.py複制到Tacotron2-Mandarin，可能是Tacotron2-Mandarin裡的glow.py比較舊，用起來會有問題。

另外還要下載 waveglow 已經訓練好的模型，可由此處下載 https://api.ngc.nvidia.com/v2/models/nvidia/waveglow_ljs_256channels/versions/3/files/waveglow_256channels_ljs_v3.pt。將其改名成 waveglow_256channels.pt 放進 Tacotron2-Mandrain的目錄下。此檔案還有好幾個版本，目前只試到ljs_v3可使用. 個人筆記指令如下

數據集下載

訓練的數據集是使用BZNSYP(標貝) 的數具集。原專案的只提供該公司的官網，並無法下載。但在另一個專案 Tacotron-2-Chinese 中，有給出另外的下載連結。讀者可由此處下載

下載後，將其在 data/ 下解壓，得到一個 BZNSYP 目錄。下面會有三個目錄

PhoneLabeling: 每一句的時間
ProsodyLabeling: 每一個檔的中文與拼音
Wave: 每一句話的音檔

音檔預處理

原始的音檔是以 48k 做採樣，但訓練的程式是以22050的採樣率來做處理，所以每次載入音檔後還要用CPU做重取樣，會使得 GPU 閒置，拉長整個訓練時間。所以這邊我們做了一個預處理，來將每個檔案都先轉先 22050 HZ。轉換腳本如下

執行完切回主要的專案目錄

進行訓練

這個語音訓練的腳本，是我自己做時所時用的，可以避免checkpoint被覆蓋。自人的測試結果是epochs 要1000以上才比較能用，預設是10000次。所以也會用到 checkpoint / pretrained 機制。我是以下列自己的腳本做訓練

使用 RTX4090 每個 epoch 大概是120 秒，加上一些其它的時間，大概要15秒，一個epoch就算150秒好了。600次以前的結果，有像人聲，但是不知道在說什麼。800次，就可以聽到明顯的可瞭解的語音了，約1000可以比較好一些，我是覺得訓練到3000次就可以了。

不過預設是10000次，也許效果到那時會更好

進行測試

進行測試，則執行下列命令先將 checkpoint 的檔案輸出成模型檔案 tacotron2-cn.pt

接著再以 python demo.py 來產生wave檔案 output.wav 就可以聽聽看結果了。

訓練結果

Epoch 1

Epoch 236

Epoch 522

Epoch 2462

Epcoh 3894

官方範例 (可能是 Epoch 10000)

月半人的家

AI學習紀錄 – Tacotron2 中文語音合成

基本環境安裝

建立 conda env

專案下載

安裝套件

安裝該專案套件

數據集下載

音檔預處理

進行訓練

進行測試

訓練結果

About The Author

kebi

Leave a Reply(Name請以user_開頭，否則會被判定會垃圾息)

感謝您寶貴意見！

基本環境安裝

建立 conda env

專案下載

安裝套件

安裝該專案套件

數據集下載

音檔預處理

進行訓練

進行測試

訓練結果

分享本文

相關文章:

About The Author

kebi

Leave a Reply(Name請以user_開頭，否則會被判定會垃圾息)

感謝您寶貴意見！