作者:蔡可彼
寫文件一直是一件很煩人的事,尤其是寫一些 API 文件。由於這類的文件的格式很固定,但又不得不寫,又常常要改來改去,弄起來總是很煩心。所以之前就想要透過自動化的方式,來產生word文件。而最近研究 A
目前的語言大模型都有搭配的 http API, 像在這篇裡提到的 Langchat-chatcat 的 API。使用上算不上複雜,但想要使用時要下的參數好像就有點多。其實要搭建自己的 LLM API,
本文參考內容,為 Youtube 上的這個影片。 使用 stable diffusion (以下稱 SD) 一直是隨便玩玩而已,可以說是邊玩邊學一點。因為至今還是沒辦法搞出什麼生產力,所以只能繼續的學
Stable Diffusion 最近出了 SDXL 1.0 版本 (以下簡稱SD),應該是畫質更好,提示詞更簡單。不過其實 Stable Diffusion 我也沒什麼在用,就是偶爾玩一下而已。最近
在前一篇利用 Azure TTS 來進行TTS後, 接著就研究反向的技術, 語音轉文字。微軟當然也有這項 API, 但語音識別有 Facebook 推出的 SeamlessM4T 模型可以做,而且效果
前一陣子苦尋免費中文轉語音的語言模型,無耐找了很久,全部都效果不彰。只好學一下怎麼用微軟的文字轉語音服務。 Azure 的 TTS 服務是有口碑的好效果,可選的語言和人聲很多,很多 youtube 上
試用過的大語言模型也有好幾個了,包含 chatGLM2, Baichuan2, Llama,最近又看到一個強大的阿里通義千問 (Qwen)。通義千問在官網實驗數據看的出來其表現(Qwen-14B的模型
人臉識別算是一套很成熟的技術了,早在很久以前的 Google Picassa 相簿就可以做的不錯。但真的想用的時候,才發現網路上找不到一套 Linux 下可以 辨識臉部 標識面孔 支援 CLI 要輕量
前幾篇有一個介紹 人聲分離的文章,其實也是在學習聲音克隆中所要用到的工具。 So-Vits-Svc是「SoftVC VITS Singing Voice Conversion」的縮寫,其原始來自於 V
win11 後,在檔案上按右鍵,很多東西都被縮起來了,用起來很不方便。於是找到這篇文章就直接記錄怎麼做,想看圖文並茂的,可參考原文 方法1: 按著 shift 在按右鍵 方法2: 永久修改, 以 ad