作者:蔡可彼
在前一篇利用 Azure TTS 來進行TTS後, 接著就研究反向的技術, 語音轉文字。微軟當然也有這項 API, 但語音識別有 Facebook 推出的 SeamlessM4T 模型可以做,而且效果
前一陣子苦尋免費中文轉語音的語言模型,無耐找了很久,全部都效果不彰。只好學一下怎麼用微軟的文字轉語音服務。 Azure 的 TTS 服務是有口碑的好效果,可選的語言和人聲很多,很多 youtube 上
試用過的大語言模型也有好幾個了,包含 chatGLM2, Baichuan2, Llama,最近又看到一個強大的阿里通義千問 (Qwen)。通義千問在官網實驗數據看的出來其表現(Qwen-14B的模型
人臉識別算是一套很成熟的技術了,早在很久以前的 Google Picassa 相簿就可以做的不錯。但真的想用的時候,才發現網路上找不到一套 Linux 下可以 辨識臉部 標識面孔 支援 CLI 要輕量
前幾篇有一個介紹 人聲分離的文章,其實也是在學習聲音克隆中所要用到的工具。 So-Vits-Svc是「SoftVC VITS Singing Voice Conversion」的縮寫,其原始來自於 V
win11 後,在檔案上按右鍵,很多東西都被縮起來了,用起來很不方便。於是找到這篇文章就直接記錄怎麼做,想看圖文並茂的,可參考原文 方法1: 按著 shift 在按右鍵 方法2: 永久修改, 以 ad
最近看到一個人聲替換的 Youtube 影片,雖然替換效果不太好,但人聲分離效果還不錯,就記下來了。由於這是一個有 GUI 的程式,暫時還無法在 docker 裡成功運行 vnc,所以就先記下來了。
今天突然想到可以在網頁上加一個前置詞的功能,就不用每次都要打要叫他幹麻了。效果如下 主要提供了中翻英、英翻中、還有自定義。要修改的程式 diff 如下
之前紀錄的 LangChain-ChatChat ChatGLM2 個人知識庫整合了大語言與知識庫,算是可以自己架起來的實用工具。所以研究了一下怎麼使用 CLI 呼叫,發現在它已經有一套簡彈易用的 A
Lllama 是 Meta 推出的語言大模型,其第2代 Lllama2 也有 7B, 13B, 與 70B的大尺寸。其自身也有產生程式的 codellama2 與 衍生的 wizardCode 模型