處理文本資料轉碼

最近在處理一些文本的數據,想要將一些文字記錄的資料透過 ELK 來處理並查詢與檢索,後面的處理器大致上完成了,簡單來說就是中文的分詞與斷字的判斷及新詞的發現及統計,因此先拿測試資料來做處理,拿了網上的範例資料金庸小說的文本大部份都是 GB2312的編碼,因此要先進行編碼的轉換,在轉換的過程中常常發現有一些特殊字元會導致 iconv 處理時會 exception

iconv: illegal input sequence at position 349185

後來查了一下才發現原來文本上有太多字元無法處理,加入 -sc 後即可正常

$ iconv -sc -f GB2312 -t utf-8 笑傲江湖.txt -o novel3.txt

Author: jerryw1974

learning and focus on computer science, cloud infrastructure, virtualization and information security, technical, networking,platform system and cyber-security related topic.