AI 學習紀錄 – 截取中文WiKi 語料

本文參考自 WikiExtractor 專案 ,來將中文的Wiki下載下來,以做為語料訓練。由於其產生的資料格式與下一篇要提的 GPT2 Chinese 不同,所以再進行一些修改,以符合所需。

下載專案

首先將該專案 clone 下來

Wiki 的中文文章的壓縮檔要另外自行下載,有部份歷史資料可下載,下載位置在

其中最新的一律放在

我們僅需下載最新的文章部份

檔案轉換

將檔案下載儲存到 WiKi_Extractor 同目錄下,然後執行下面命令,將文章取出。

萃取完的資料會放到 ./extracted/AA/ 執行下列指令,將格式轉換,轉成繁體中文輸出成下列格式,檔案會儲存成 wiki.json。由於此步驟需要很久的時間,若不想看原專案的結果,可以先套用「轉換為GPT2 Chinese格式」修改,再執行。

原本的專案在轉換後,會以下列json格式呈現。

此後,原專案隨後會對json做分詞,但這邊我們不需做此部份。

轉換為GPT2 Chinese格式

要產成 GPT2 Chinese 相同的格式,我們需要套用下面修改,來變更輸出的格式。。 套用下列變更到 Wiki_Cleaning.py,再依前例執行一次該指令便可。

結語

本文最主要的目的還是展示怎麼下載 Wiki 資料,以供後續的 GPT2 Chinese 使用,所以應用請見下一篇。

Leave a Reply(Name請以user_開頭,否則會被判定會垃圾息)

請輸入答案 − 2 = 3