隨著人工智慧技術的不斷發展,語音辨識的應用變得越來越廣泛。在這篇文章中,我將示範如何使用 OpenAI 提供的 API,快速實現語音轉文字的功能。本文的程式碼範例基於 Python 語言,並使用 OpenAI 的 Whisper 模型。
必要條件
在開始之前,請確保您已經完成以下準備工作:
- 申請 OpenAI API Key,並安裝相關的 Python 套件。
- 準備好一個音訊檔案(例如 MP3 格式)。
範例程式碼
以下是一段簡單的程式碼,用來實現語音轉文字功能:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
# coding=UTF-8 from openai import OpenAI # 初始化 OpenAI API 客戶端 client = OpenAI() # 開啟音訊檔案 audio_file = open("/mnt/d/tts.mp3", "rb") # 使用 OpenAI Whisper 模型進行語音轉文字 transcription = client.audio.transcriptions.create( model="whisper-1", file=audio_file ) # 輸出轉錄的文字 print(transcription.text) |
程式碼解說
初始化 API 客戶端
1 |
client = OpenAI() |
使用 OpenAI 的 API 之前,必須先初始化客戶端。這段程式碼會建立一個 OpenAI 的實例。
API 金鑰設定
建議會使用環境變數來指定 API key, 將 API Key 寫在文件中比較有安全風險。
1 |
export OPENAI_API_KEY="your_api_key_here" |
讀取音訊檔案
1 |
audio_file = open("/mnt/d/tts.mp3", "rb") |
使用 Python 的 open()
函數以二進制模式開啟音訊檔案。請將路徑替換為您自己音訊檔案的位置。
語音轉文字
1 2 3 4 |
transcription = client.audio.transcriptions.create( model="whisper-1", file=audio_file ) |
調用 audio.transcriptions.create()
方法,指定使用的模型(此處為 whisper-1
)和音訊檔案。Whisper 是 OpenAI 的語音辨識模型,能夠準確地將語音轉換為文字。
輸出結果
程式執行完後,會輸出轉錄的文字結果。
常見問題
1. 支援哪些音訊格式?
OpenAI 的語音辨識支援多種格式,例如 MP3、WAV 等。請確保上傳的音訊品質清晰,這將有助於提升辨識準確率。
2. Whisper 模型的特點是什麼?
Whisper 是一款強大的語音辨識模型,支援多語言轉錄,並能處理背景雜音的音訊。
3. 如何進一步優化?
您可以根據需求設定更多參數,例如語言模式或時間戳,從而滿足特定應用場景。
結語
利用 OpenAI API 實現語音轉文字功能非常簡單且高效,您只需短短幾行程式碼即可完成。無論是用於建立字幕、進行語音分析,還是開發智慧助理,這項技術都能提供極大的便利。
希望這篇文章對您有所幫助,快來試試吧!