AI 學習紀錄 – 語句相似性比較

瀏覽數: 1,087

本篇簡單使用一個語句相似型的模型，做為往後可利用的工具。這可以利用在檢查是否是同類文章或抄襲之類的，效果普普，不過也算是加減用，有需要再找更強大的。

一些基本的環境 (如 anaconda、共用 script) 的設定，已經寫在【共同操作】這篇文章裡，請先看一下，確保所以指令可以正確運作。

由於每個專案的相依性都不同，這裡會為每個案子都建立環境。

安裝下面套件。

程式碼內容是使用用 huggingface 的網站下載模型，列表可在此頁面看到。

根據不認真的觀察，此程式會把list col1 和 col2 的每句話做比較，然後將其相似度存在 consine_scores 裡面. 分數由 0~1, 數值越大就代表越相似，網上抄到的範例程式是以0.5為基準來判斷。

上面的2句話，其相似度是 0.227，所以是不相似。

原始碼內是依 cosine_scores[i][i] 來判斷，這是因為其原始例子是在 col1, col2 是一對一的做比較，所以才會有這樣的寫法。若是n句話對m句話的相似度對比，則 consine_socre[0][5]代表 col1第0句話與 col2的第5句話的相似度。

月半人的家