AI 學習紀錄 – PPASR 語音識別

瀏覽數: 1,944

本篇要介紹的是另一個語音識別專案 PPASR，一個基於飛槳的專案。由於之前試用的 ASRT 中文語音識別效果不太好，用 sample 檔辨識不錯，但由我自己錄的聲音卻是一團糟。

今天介紹的這個 PPASR，直接提供了線上即時辨識的Demo，試用後覺得不錯，就clone下來研究了。目前只是直接使用其 model 而已，尚未做自己的訓練。以語音辨識而言，如果辨識率不錯，其實也未必要自己訓練。

基本環境安裝

一些基本的環境 (如 anaconda、共用 script) 的設定，已經寫在【共同操作】這篇文章裡，請先看一下，確保所以指令可以正確運作。

建立 conda env

由於每個專案的相依性都不同，這裡會為每個案子都建立環境。

專案下載

使用下面的命令，將專案下載下來，並建立環境切換檔。

安裝環境

接著安裝專案所指定的套件, 該專案後面有一篇是「快速安裝」，下面的說明內容參考自該頁面。這個專案做的蠻不錯的，說明很齊，真的要給星。

詳細的教學文件

依面下命令，逐個安裝套件

最後一行又裝了 cuda-11.8.0 的 toolkit，是因為我的 cuda 版本就是 11.8 ，讀者也可以依自己所使用的版本安裝。Anaconda 的官方支援 cuda-toolkit 在這裡。

下載數據集

專案裡的「快速使用」有說明如何下載數據集與預處理，這邊我們就下載 thchs_30 這個數據集，可用下面的命令來進行下載。不過由於裡面的網址是連到大陸去的，所以下載會慢到動不了。

要替換下載網址，就編輯 thchs_30.py 這個檔案，修改 DATA_URL 到其它網站，若本地端已下載過，也可以用 file:// 的方式來指向本地檔案。

下載完成後，以下列命令來預處理資料

其中第一行，也請加到 ~/.bashrc 內，裡面的 ‘paddle’ 要改成自己取的虛擬環境的名稱。

測試語音辨識

依專案的範例，建立一個 a.py

執行 python a.py 後，會開始下載另一個model。若之前有下載過，且也有存檔的話，可以將其複製到 lm/ 目錄下，就不用再下載。

辨識結果

使用 web 做串流式辨識

本來想下載專案的AISHELL預訓練模型，但需要csdn的帳號與付費，這邊先暫時略過。直接用前面單句預測的, 將之前單詞預測的模型下載下來的模型，複製到本地端來。

其中的 /cache 目錄，是我自己的 softlink。一般應該會在 $HOME/.cache/ppasr 下面。

接著執行下列命令， server 就會啟動。

然後可依提示連接到 127.xxx 或 192.xxx 的網頁去。如果你是在本機實驗，就連到 127.x 的就好，不用做任何設定。若是連到 192.x 的，就要開啟瀏覽器另外的設定，因為現在瀏覽器預設不允許透過 http 來錄音。

辨識結果

local 的辨識結果沒有線上來的好，可能是模型還是不同的吧。就如同之前所說的， CSDN 上面可以下載的可能比較好，也會收10人民幣左右。花了這麼多電訓練模型，其實也是蠻合理的。

設定Firefox允許http錄音

要使用 firefox 進行 http 錄音，可以在網址列打「about:config」。進到進階設定後，搜尋 insecure.enabled，然後把下面2項都打開。但這方法也只是每次錄音都要選擇「允許」，並無法一直記注選擇。若要一勞永逸，還是要再另外架設一個 https 的 server 來服務這固需求，快速的方法是利用 stunnel 來轉址，可以參考我寫的這篇文章。

月半人的家

AI 學習紀錄 – PPASR 語音識別

基本環境安裝

建立 conda env

專案下載

安裝環境

下載數據集

測試語音辨識

使用 web 做串流式辨識

設定Firefox允許http錄音

About The Author

kebi

Leave a Reply(Name請以user_開頭，否則會被判定會垃圾息)

感謝您寶貴意見！

基本環境安裝

建立 conda env

專案下載

安裝環境

下載數據集

測試語音辨識

使用 web 做串流式辨識

設定Firefox允許http錄音

分享本文

相關文章:

About The Author

kebi

Leave a Reply(Name請以user_開頭，否則會被判定會垃圾息)

感謝您寶貴意見！