AI 學習紀錄 – 截取中文WiKi 語料

瀏覽數: 1,176

本文參考自 WikiExtractor 專案，來將中文的Wiki下載下來，以做為語料訓練。由於其產生的資料格式與下一篇要提的 GPT2 Chinese 不同，所以再進行一些修改，以符合所需。

首先將該專案 clone 下來

Wiki 的中文文章的壓縮檔要另外自行下載，有部份歷史資料可下載，下載位置在

其中最新的一律放在

我們僅需下載最新的文章部份

將檔案下載儲存到 WiKi_Extractor 同目錄下，然後執行下面命令，將文章取出。

萃取完的資料會放到 ./extracted/AA/ 執行下列指令，將格式轉換，轉成繁體中文輸出成下列格式，檔案會儲存成 wiki.json。由於此步驟需要很久的時間，若不想看原專案的結果，可以先套用「轉換為GPT2 Chinese格式」修改，再執行。

原本的專案在轉換後，會以下列json格式呈現。

此後，原專案隨後會對json做分詞，但這邊我們不需做此部份。

要產成 GPT2 Chinese 相同的格式，我們需要套用下面修改，來變更輸出的格式。。套用下列變更到 Wiki_Cleaning.py，再依前例執行一次該指令便可。

本文最主要的目的還是展示怎麼下載 Wiki 資料，以供後續的 GPT2 Chinese 使用，所以應用請見下一篇。

月半人的家