社内データ活用の不満、解消できます! 不毛なデータ処理作業を委託で解決 » データ処理で委託・代行依頼できること » データクレンジング

データクレンジング

データは日々蓄積されるにつれ汚れが増していきます。例えば、データの作成ルールが守られなくなってしまったり、多くの人がデータ作成に携わったり、作成者により誤入力が多かったり…。これらのデータが蓄積され続けると“使えない”データとなってしまいます。

データクレンジングとは?

イメージ

「数値が入っていなければならないところに単位がはいっているものがあり、分析結果に精緻な値が算出されない」、「複数データを紐づける主キーの名称に、略称が入っているので一致せず紐づかない」など、 “使えない”データは障害を起こします。

データクレンジングは、データの表記ゆれや誤記などで汚れている“使えない”データをきれいに整備し、 “使える”データにすることです。

データクレンジングはどのようにするのか?

まず、どのような表記の揺れや誤記があるのか、欠損や重複があるかなど、現在のデータの状態を分析し、その後、どのように直すのか・同一するのか(標準化するか)を決定します。決定した基準に従い、データクレンジングを行っていきます。

例えば、不要な単位、記号、スペースの削除、使用禁止文字の削除、セル結合の解除、数値・文字列の統一、桁数の統一、値の妥当性などを標準化します。

データクレンジングと名寄せの違いとは?

データクレンジングと、同じく“使えない”データをきれいに整備し、 “使える”データにすることの手段のひとつに「名寄せ」があります。

名寄せとは、同じ名前を持つデータ同士を集めることを指します。例えば、企業名の株式会社の表記で(株)、または株式会社の表記が揺れていることで、検索時にヒットしなかったりします。

同じ会社を指しているデータを同じ表記にすることで、重複したデータを統合することを、名寄せと言います。多くの場合、データクレンジングと名寄せは同時に行われます。データクレンジングを名寄せの前に行うことで、名寄せをより正確に効率的に行うことができます。

データクレンジングの内容とは?

データクレンジングの具体的な内容としては、さまざまなものがあり、ベースとなるデータの性質や業種によって必要とされる項目も異なります。そのため、必ず自社ニーズや自社が取り扱うデータの特徴と、クレンジングを行う内容を事前にすり合わせることが必要です。

表記内容の統一・分類・誤記修正

名寄せのように、企業名や法人格名を再確認して修正、また、同じ企業が別項目として計上されていないかといった重複の確認などを行います。また、個人名に関しても漢字とひらがなによる区別の有無や、同一人物の疑いのある個人名の重複といったエラーの確認も重要です。

さらに、旧名称の自治体名や旧住所による誤記、住所表記の重複などを確認し、現行情報へ刷新することで、DMの重複や宛先不明による返送といった無駄を削減します。同様に電話番号やFAX番号、メールアドレスに関する修正や有効性の確認もクレンジング対象です。

その他、従業員の部署や役職ごとのカテゴライズ、顧客情報のパーソナライズなど、適切な情報分類が行われることもあります。

数値の確認や単位の統一

数値データの内容に問題がないか検証したり、単位が統一されているか確認したりといったことも重要なデータクレンジングの内容です。また「,(カンマ)」の有無や西暦表示、年号表示の混在を修正してもらうこともできます。

データのマッチング

データ処理業者によっては、それぞれが保有する最新データと、クライアント企業が保有するデータをマッチングさせて、データを補強してくれたり、修正してくれたりといった作業も依頼可能です。

最新情報へのデータ更新

WEB調査や企業ホームページなどから情報を取得し、クライアント企業のデータに不足している情報を追加してくれることもあります。

データクレンジングのメリット

集めたデータを分析できる

データクレンジングを行うメリットは、データの精度を上げること以外にもたくさんあります。データを取りまとめて分析に使う場合、元のデータがきれいに整っていると、使える母数が増えるため分析結果の精度も向上することになります。

データの信頼性も上がることになり、データをしっかりと蓄積しているという社内外からの評価も得られることになります。

誰もが利用できるようになる

会社を運営していく上で大事な書類やデータはどんどんと増えていきますが、データの作成者がそれぞれ異なるといったケースがほとんど。それぞれにデータの入力方法が違うと、データは溜まっていくものの、1つのデータベースのようには使えないという事態に陥っていることも。

しかし、データクレンジングを行い、社内のメンバーで表記を統一することで、誰もが同じ「共通認識」を、もって仕事をすることができます。誰もがデータを共有できるようになれば、仕事も効率的に行えるようになるでしょう。

データクレンジングの必要性

データクレンジングはデータを用いるすべての作業に影響を及ぼすため、作業を行う前に一度は行う必要があります。ピラミッドを建てる際の一段目がボロボロの石だと、上に高く積み上げることはできないのと同じ原理です。

データクレンジングしておくことでそれ以降の業務の精度や確度が高くなります。

データクレンジングの方法

データクレンジングの方法は、データ取り込み、修正・統一、整理・見直しの3つのステップで行います。

1・データ取り込み

データクレンジングは、必要なデータを揃えることからはじまります。場合によっては何万桁にも及ぶExcelデータや書類を扱うことも。その際、PCのスペックの高いものを選びましょう。

場合によっては、処理しきれずにPCが停止する場合もあるようです。もし、時間とコストがかかるようであれば、外部委託を検討することをおすすめします。

2.修正・統一

データの修正・統一が必要になります。データによってどういう表記揺れがあるのかは異なります。株式会社や(株)といった単純なものから、会社名を英語やカタカナの両方で登録している場合には、表記を統一する必要があります。

3.整理・見直し

修正・統一したデータを整理します。不要な列が含まれていないか、検索ができるようになっているか、決めたルールに則って整理されているかを確認しましょう。

データクレンジングの実施方法とは?

データクレンジングでは、自社のリソースを活用するのか、専用の外部ツールなどを活用するのか、大きく2種類の実施方法があります。

自社リソースの活用

データクレンジングの作業対象となるデータの量や種類が少ない場合、Excelなどのツールを使って自社で修正・確認を行うことが可能です。

ただし、新たなツールの購入費用や専門業者への依頼料を節約できる一方、担当者の業務負荷の増大や新たなヒューマンエラーの発生リスクといったデメリットもあります。

外部ツールの活用

専用のツールを導入したり、専門業者へデータクレンジングを依頼したりといった方法もあります。コストがかかりますが、作業効率や将来的なリスク管理として考えれば、総合的にメリットが多いこともあるでしょう。

ただし外部ツールのメリットを最大限に得るためには、それぞれのツールや業者について、自社ニーズとのマッチングや比較検討を正しく行うことで、よりよい結果が得られるようになります。

データクレンジングを行う際の注意点

データクレンジングは最低でも月に一回は実施すること

データクレンジングは、チェック・修正すべきデータの規模が大きくなるほど難易度が高くなり、費用もかさんでしまいがち。 日付の古いデータほど修正箇所も増える可能性が高まるでしょう。そのため、基本的には最低でも月に一度はデータクレンジングを行って、日常的に正確な情報を保管しておくことが大切です。 また、住所改正や法改正といったものがあった際にも、最新情報へ合わせられるようデータクレンジングを行うことが欠かせません。

機械と人の目(目視)でダブルチェックをする

システムによってデータクレンジングを行っても、同姓同名・異漢字といったケースや、表記のゆれがある場合など、機械だけでは対応が不充分になることもあります。そのため、まずは機械によるデータクレンジングを行ったとしても、改めて人の目でダブルチェックを行うことが重要です。特に、機械的に正誤を判断できない固有名詞や、文章的には正しい表現や単位が混在している書類については、経験豊富な人の目で慎重に確かめていくことが必要になります。