最近在處理一些文本的數據,想要將一些文字記錄的資料透過 ELK 來處理並查詢與檢索,後面的處理器大致上完成了,簡單來說就是中文的分詞與斷字的判斷及新詞的發現及統計,因此先拿測試資料來做處理,拿了網上的範例資料金庸小說的文本大部份都是 GB2312的編碼,因此要先進行編碼的轉換,在轉換的過程中常常發現有一些特殊字元會導致 iconv 處理時會 exception
iconv: illegal input sequence at position 349185
後來查了一下才發現原來文本上有太多字元無法處理,加入 -sc 後即可正常
$ iconv -sc -f GB2312 -t utf-8 笑傲江湖.txt -o novel3.txt
你必須 登入 才能發表評論。