社内データ活用の不満、解消できます! 不毛なデータ処理作業を委託で解決 » データ処理で委託・代行依頼できること » データクレンジング

データクレンジング

データは日々蓄積されるにつれ汚れが増していきます。例えば、データの作成ルールが守られなくなってしまったり、多くの人がデータ作成に携わったり、作成者により誤入力が多かったり…。これらのデータが蓄積され続けると“使えない”データとなってしまいます。

データクレンジングとは?

イメージ

「数値が入っていなければならないところに単位がはいっているものがあり、分析結果に精緻な値が算出されない」、「複数データを紐づける主キーの名称に、略称が入っているので一致せず紐づかない」など、 “使えない”データは障害を起こします。

データクレンジングは、データの表記ゆれや誤記などで汚れている“使えない”データをきれいに整備し、 “使える”データにすることです。

データクレンジングはどのようにするのか?

まず、どのような表記の揺れや誤記があるのか、欠損や重複があるかなど、現在のデータの状態を分析し、その後、どのように直すのか・同一するのか(標準化するか)を決定します。決定した基準に従い、データクレンジングを行っていきます。

例えば、不要な単位、記号、スペースの削除、使用禁止文字の削除、セル結合の解除、数値・文字列の統一、桁数の統一、値の妥当性などを標準化します。