作者:蔡可彼
Lllama 是 Meta 推出的語言大模型,其第2代 Lllama2 也有 7B, 13B, 與 70B的大尺寸。其自身也有產生程式的 codellama2 與 衍生的 wizardCode 模型
前幾天研究的 ChatGLM2-6B,雖然不錯,但感覺出錯機率也不小,是屬於 better than nothing 的那種。他們其實還有12B的模型,但沒開放出來。不死心的情況下,逛來逛去讓我發現了
在 AI 學習紀錄 – 利用 Docker 部屬模型這篇文章裡,開始試用 Nvidia Docker 來部屬不同的模型,來確保未來的可用性。裝第一個 chatGLM2的時候還蠻順利的,後面
我本來學習 AI 是抱著把流程寫詳細,下次要用就從頭來的把每個步驟跑一遍的想法。這也是我過去工作上的習慣,要搭建一個服務就會寫的詳細一點,下次從頭來省事。但最近學習 AI, 發現很多模組都進版的很快,
在上一篇 AI 學習紀錄 – ChatGLM2-6B 使用與微調 裡,我們單獨的介紹 ChatGLM2 這個類 chatGPT 專案。而本文要介紹的是基於 ChatGLM2 (或其它聊天系
有好一陣子沒研究 AI 了 (RTX 4090 哭哭),最主要的原因是搞不出來個什麼毛。自己訓練的 GPT2 效果一直很差,最受益的可能還是學到它的一點點精神吧。 昨天突然又想到來研究一下有沒有新東西
目前的工作都是在設計自己的一些通訊協定,所以有時都會需要觀察封包收送的內容,但一直是利用 printk / printf 的方式來做。也曾經想過是不是要弄的高級一點,弄成相容於 tcpdump / w
在上一篇AI 學習紀錄 – 單步GPT推論 (2)實現在單步推論後,要回頭過來講訓練的過程。之前的文章沒細看其訓練的過程,所以在這就先從字典產生來看。 基本環境安裝 一些基本的環境 (如 anacon
接著上一篇的AI 學習紀錄 – 單步GPT推論, 網頁架設 (1),接下來就是做單步推論了。單步推論所需要安裝的東西,差不多跟完整的訓練差不多。所以還是 follow 之前的 AI 學習文章,儘量提供
最近生成式 AI 好像有點退燒,所以也少了一點研究,當然自己工作最近也忙了起來,比較沒時間。但最近隨著 Nvidia 股價噴出,多少還是要研究一點,不然貴森森的 RTX4090 就白花了。 之前研究的