精度の高い人工知能(AI)を自社開発する上で重要なのが、高品質なデータを大量に用意することです。そして質の高いデータを確保するため、多くの企業で実践されているのがデータクレンジングです。今回は、そもそもなぜデータのクオリティを維持しなければならないのか、そしてデータクレンジングがどのような意味を持っているのかについて、ご紹介します。データクレンジングとはデータクレンジングはその名の通りデータを綺麗にしてあげることであり、それによりAIが学習しやすいよう促す取り組みです。データクレンジングの役割人間の学習プロセスを想像してもらうとわかりやすいのですが、例えば英語力を鍛えるために英文読解の問題を解いているのにもかかわらず、途中で数式が出てきたとします。こうなると、英語の文章を読み下すのに脳のリソースを使わなければならないことに加え、数式に回答することにもリソースを使う必要が出てきます。英語と数学の両方を勉強するのであれば構いませんが、少なくとも英文読解に充てる時間と労力は失われてしまいます。データクレンジングを行わない場合、AIにも似たような現象が起こります。データを読み込むのに不要な時間を必要としたり、正答率が低下してしまう可能性があります。これを防ぐため、データクレンジングは重要視されています。具体的には、破損している、あるいはミスのあるデータをデータセットから弾いたり、修正したりといった作業のことをデータクレンジングと呼んでいます。名寄せとの違いデータクレンジングと合わせて紹介されることが多いのが、名寄せです。名寄せとは社内データベースを統合して、重複する顧客データを一つにする作業のことを指します。例えば本社と店舗で別々のデータベースを持っている場合、EC化などを進める際にはデータベースを統合しなければなりません。オンラインと店舗で重複する顧客データがあると、円滑な送客や販売促進ができなくなります。このようなケースを回避するために名寄せは行われますが、名寄せもデータクレンジングの一環であると言えます。名寄せはAI導入を含めたデータ活用の効率化を促す取り組みなので、データクレンジングを実施する際には必須となる工程です。データ品質は劣化する?データ活用を推進する上では、データの劣化問題とも向き合っていかなければなりません。データクレンジングを実施したり、適切なデータの蓄積環境を整備したりしておかないと、円滑なAI運用などを妨げる可能性があります。毎日出社するオフィスに掃除が必要だったり、自社サーバーにはメンテナンスが必要だったりなどと同様に、データにも劣化対策を施さなければいけません。データの品質が劣化する理由データの品質が劣化する理由としては、以下の2点が挙げられます。順に見ていきましょう。複数チャネルからデータ入力が行われるため一つ目の理由は、データのインプットが複数のチャネルから行われるというものです。ある時は名刺、ある時はWebアンケート、ある時はウェビナー参加者の登録情報など、会社の資産となり得るデータを獲得できる機会はさまざまですが、問題となるのがフォーマットが統一されていない点です。フォーマットが統一されておらず、データベースに入力する担当者もバラバラとなると、それぞれのやり方で顧客情報が登録されてしまうため、情報の粒度にアラがあったり、情報が重複したりという問題が出てきます。形態の異なるデータを整理せず、そのままAIなどに読み込ませると、AIの精度の低下や学習品質の低下を招くため、回避しなければなりません。データクレンジングの優先度が低く動機付けが弱いため二つ目の理由は、データクレンジングがこれまで重視されてこなかったことや、優先度の高い業務にかかりきりになっている点が挙げられます。データクレンジングを手作業で行う場合、地道な入力作業と情報照会を繰り返すルーティンワークとなるため、好んでやりたいという人は少ないものです。また人材不足が進む各企業では、データの整理よりも他にやることがあるケースも多く、データクレンジングにまで手が回らないのが現状です。データクレンジングが重要視される背景これまで後回しにされてきたデータクレンジングですが、今日では優先的に取り組むべき施策であるとして、注目されています。データクレンジングが重視されるようになった背景には、以下の3つが挙げられます。ビッグデータ活用が進められているため一つ目は、ビッグデータ活用の推進です。AI技術やデジタル機器の普及により、データ活用の機会が増えたことはもちろん、人々の行動がスマホなどを通じてデジタル情報で記録されるようになったため、有益なデータがあらゆる箇所で発見できるようになりました。一つ一つは取るに足らない情報でも、束になって活用することで効果を発揮できるビッグデータへの注目は、その最たる例とも言えます。今や非IT企業でもデータ活用体制が整備されつつあり、データドリブンな意思決定や組織経営が進んでいます。CRMなどのツール導入が進んでいるため二つ目の理由は、ビジネス向けのデータ活用ツールが次々と登場している点です。CRMやMA、SFAなど、クラウド技術の発展により便利なサービスを手軽に利用できるようになってきました。今までは初期費用に十分な投資ができる大企業にデータ活用の機会は限られてきましたが、クラウド型のサービスを利用することで、中小企業や個人でもデータ活用の機会を得られるようになっています。一昔前では近未来のハイテクとされたAIも、今やビジネスの現場では当たり前のように使用されています。データの維持管理に伴うコストを削減するため三つ目の理由が、コストの削減です。クレンジングされていないデータは、データ活用を遠ざけるだけでなく、データベースに負荷をかける側面もあります。重複データはその際たる例とも言え、同じ顧客のデータで通常の2倍3倍も容量をとってしまえば、余計なサーバーコストを発生させてしまいます。こういったデータの無駄を排除し、スマートなデータベースを構築してコスト削減を図る上でも、データクレンジングは有効です。ダーティデータが企業に与える悪影響上記でも少し触れましたが、このような無駄やノイズを含んだデータを海外では「ダーティデータ(dirty data)」と呼んでいます。ダーティデータがどれくらいの悪影響を企業にもたらしているのか、少し確認しておきましょう。10億円を超えるコストの発生を招くことも日本ではあまり注目されていないダーティデータの悪影響ですが、海外企業ではすでに多くのコストをもたらしているという報告が出ています。調査によると、ダーティデータは企業の年間収益におよそ970万ドルの損失をもたらすという試算が出ており、中小企業においても、収益の最大6%が失われる可能性があるとされています*1。データクレンジングの実施環境を整えるのには相応の費用もかかりますが、業務効率化や新しいビジネス創出の可能性を踏まえると、ダーティデータの排除に取り組むメリットも大きくなってくるのではないでしょうか。適切なデータ管理を行えている企業はわずか3%?また、データ活用を適切に行えるほどに整備が行き届いた企業の数も、まだまだ十分ではないという報告もあります。データ活用が十分に行えるレベルのデータ管理が行き届いている企業は、わずか3%にとどまっているという海外での調査結果は、自社のデータベース見直しを検討させられる事実と言えるでしょう*2。データドリブンの時代が到来したとはいえ、企業のデータベースが従来のままでは、その波に乗るのは困難であることを伝えています。データクレンジングを実施するメリットここで、データクレンジングの実施によるメリットを確認しておきましょう。データクレンジングの利点は、以下の4点が挙げられます。高いコスト削減効果が見込める一つ目は、高いコスト削減効果です。データベースを統合すれば、余計なサーバー費用の発生を抑えられるなどの効果を期待できます。データ入力などの作業に労力を必要以上に求められなくなるので、人件費の削減にも貢献するでしょう。意思決定のスピードを高められる二つ目のメリットは、意思決定スピードの向上です。データクレンジングによって整理されたデータベースを参照にすることで、データ不備の懸念をする必要がなくなります。意思決定に必要なデータも迅速に集め、ツール活用で分析を高速化できるため、変化の激しい時代にも対応できる組織作りを進められます。業務効率の向上が期待できる三つ目は、業務の効率化です。手動だったデータ入力作業を解消し、データの活用までを自動化できるため、売り上げ分析などの業務も効率化できます。これによって人材をより複雑な業務や、重要な意思決定の現場に配置が可能になるため、組織のスマート化に役立ちます。サービスの品質向上につながるデータクレンジングは、サービスの品質向上にも貢献します。顧客データが重複していたことで、DMを何通も同じ顧客に送付したりといったケースはなくなり、効率的で効果につながるアプローチを実現します。顧客情報を統合し、顧客との関係値をスコア化することで最適な手段で販売促進を進められるようにもなるでしょう。データクレンジングの具体的な実施プロセスここでは、データクレンジングの実施に際しての具体的な進め方について、ご紹介します。データフィールドの特定まずはじめに実施するのが、データフィールドの特定です。データクレンジングにおいては特定のフォーマットに統一する作業が発生しますが、どんな形式でデータを統一するのが良いのか、検討しましょう。自社で活用しているツールや業務プロセスを見直し、最もこれらに適していると考えられるデータ形式を採用しましょう。データのクレンジング二つ目のプロセスが、データクレンジングです。統一したフォーマットとデータベースに則り、データの統合やソート、重複データの削除などを行います。名寄せ作業も、この工程に含まれるクレンジング作業の一種です。プロセスの標準化データクレンジングは、毎回異なる方法で取り組んでいるとデータ活用に悪影響を及ぼします。実施後にはその効果を検証し、プロセスに問題がなければ標準化に取り組むのが良いでしょう。誰がどんなタイミングで、どのように実施するのかを決定し、マニュアル化することで属人化を回避できます。データクレンジングの主な手段データクレンジングの実施に当たっては、主に2つの方法が採用されています。順に見ていきましょう。社内リソースでの実施一つ目は、社内の人材を起用してデータクレンジングに当たるというものです。データクレンジングは、蓋を開けてみると単純作業の連続であるため、特別なスキルが必要な業務ではありません。しかし、データベースが巨大であるほど、手動でのデータクレンジングは多くの労力を伴います。また、人手を使ったクレンジングはケアレスミスの発生もあり得るため、精度の面で不安が出てしまうのも事実です。人件費や人材負担を考慮しながら検討するのがおすすめです。データクレンジングサービスの活用二つ目の手法は、データクレンジングサービスの活用です。クレンジングを自動で実施し、データ統合を円滑に進められるため、非常に効率的な手法です。運用に際してはクラウドで行えるため導入コストを抑えられるサービスや、AI向けにアノテーションを実施してくれるものもあるため、更なるデータ活用の推進に貢献が期待できます。データクレンジング実施のポイント以上の点を踏まえ、データクレンジングを成功させるために以下の2点を抑えることを意識しましょう。定期的なデータクレンジングを実施する一つ目のポイントは、定期的なデータクレンジングの実施です。どれだけ高度にクレンジングを実施し、入力形式を整備しても、少しずつデータの品質は劣化してしまうものです。データが大きく劣化してしまい、活用が妨げられる事態を防ぐためにも、データクレンジングの定期的な実施は必要です。データクレンジングの標準化の際には、1ヶ月おきに実施するなどのスケジュールについても言及しておくのが賢明です。入力ルールを標準化して品質を維持する二つ目に、入力ルールの徹底です。丁寧なフォーマットを定めても、入力者がそれを守らなければデータの劣化は避けられません。入力ルールについても丁寧に周知し、データベースの品質維持に努めましょう。データクレンジングに活躍する人気のツールまとめ最後に、データクレンジングに活躍する人気のツールについて、3つご紹介します。FastLabelFastLabelはAI開発を高速化するアノテーションプラットフォームとして活躍するサービスで、AI導入を検討している全ての企業で運用してもらうことができます。経験やスキルの豊富なアノテーターを10万人の中から採用し、各プロジェクトに最適な人材を配置しています。アノテーターだけでなく専門スタッフによるレビューも実行され、作業漏れやデータ品質の標準化に努めます。メーカーや建設、ITなど導入企業は幅広く、直感的なUIを採用してDXを始めたばかりの企業にも手厚いサポートを提供しています。公式サイト:https://fastlabel.ai/FORCASFORCASはクラウドを用いたデータクレンジングを実施しているサービスです。オンラインに顧客データをアップロードすれば、自動的に作業が行われます。読み込んだデータを分析し、成約見込みの高い顧客へアプローチできるため、顧客情報の有効活用を進めたい方に特化したサービスです。Syncsort TRILLIUMデータベース上の重複や表記ミスを修正してくれるのが、こちらのツールです。各種辞書に基づくクレンジングを実施し、住所や法人名の自動修正を実行します。米国で登場したツールですが、日本でも導入企業が複数存在する、実績あるサービスと言えます。おわりに今回は、データクレンジングの重要性や、実行によって得られるメリットなどについてご紹介しました。データ活用は単にデータの量を求めれば良いだけでなく、品質にもこだわらなければいけません。高品質なデータ活用を実現すれば、AIのような高度な技術導入を円滑に行い、組織のDXを劇的に推進可能です。データクレンジングの実施の際には、手動ではなく専門のサービスを利用することで、業務効率化を進められます。データの標準化に活躍するだけでなく、データ活用のサポートを得られるサービスも増えています。積極的に活用しましょう。参考:*1 Ring Lead “The Cost of Dirty Data”https://www.ringlead.com/blog/the-cost-of-dirty-data*2 Harvard Business Review “Only 3% of Companies’ Data Meets Basic Quality Standards”https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards本記事やFastLabelプラットフォームに興味のある方はお気軽にお問い合わせください▼