AI 學習紀錄 – 語句相似性比較

本篇簡單使用一個語句相似型的模型,做為往後可利用的工具。這可以利用在檢查是否是同類文章或抄襲之類的,效果普普,不過也算是加減用,有需要再找更強大的。

基本環境安裝

一些基本的環境 (如 anaconda、共用 script) 的設定,已經寫在【共同操作】 這篇文章裡,請先看一下,確保所以指令可以正確運作。

建立 conda env

由於每個專案的相依性都不同,這裡會為每個案子都建立環境。

安裝環境

安裝下面套件。

程式碼

程式碼內容是使用用 huggingface 的網站下載模型,列表可在此頁面看到。

根據不認真的觀察,此程式會把list col1 和 col2 的每句話做比較,然後將其相似度存在 consine_scores 裡面. 分數由 0~1, 數值越大就代表越相似,網上抄到的範例程式是以0.5為基準來判斷。

上面的2句話,其相似度是 0.227,所以是不相似。

原始碼內是依 cosine_scores[i][i] 來判斷,這是因為其原始例子是在 col1, col2 是一對一的做比較,所以才會有這樣的寫法。若是n句話對m句話的相似度對比,則 consine_socre[0][5]代表 col1第0句話與 col2的第5句話的相似度。

 

Leave a Reply(Name請以user_開頭,否則會被判定會垃圾息)

請輸入答案 ÷ 8 = 1