分類:AI人工智慧學習
Stable Diffusion 最近出了 SDXL 1.0 版本 (以下簡稱SD),應該是畫質更好,提示詞更簡單。不過其實 Stable Diffusion 我也沒什麼在用,就是偶爾玩一下而已。最近
Recently started understanding machine learning and often need to reinstall the environment, but som
After using Azure TTS in the previous article (link), I will study the reverse technology: speech re
在前一篇利用 Azure TTS 來進行TTS後, 接著就研究反向的技術, 語音轉文字。微軟當然也有這項 API, 但語音識別有 Facebook 推出的 SeamlessM4T 模型可以做,而且效果
A while ago, I searched for a long time to find a free Chinese-to-speech language model with no resu
前一陣子苦尋免費中文轉語音的語言模型,無耐找了很久,全部都效果不彰。只好學一下怎麼用微軟的文字轉語音服務。 Azure 的 TTS 服務是有口碑的好效果,可選的語言和人聲很多,很多 youtube 上
I have tried several large language models before, including chatGLM2, Baichuan2, and Llama. Recentl
試用過的大語言模型也有好幾個了,包含 chatGLM2, Baichuan2, Llama,最近又看到一個強大的阿里通義千問 (Qwen)。通義千問在官網實驗數據看的出來其表現(Qwen-14B的模型
人臉識別算是一套很成熟的技術了,早在很久以前的 Google Picassa 相簿就可以做的不錯。但真的想用的時候,才發現網路上找不到一套 Linux 下可以 辨識臉部 標識面孔 支援 CLI 要輕量
前幾篇有一個介紹 人聲分離的文章,其實也是在學習聲音克隆中所要用到的工具。 So-Vits-Svc是「SoftVC VITS Singing Voice Conversion」的縮寫,其原始來自於 V