名寄せとは? データクレンジングができる顧客管理ツールまとめ
社内で管理している顧客データの扱いで「重複したデータ」に悩まされた経験があるかと思います。名前や社名の表記ゆれにより1人の顧客に対して複数のデータが存在していると同じDMを誤って送ってしまうミスなどが発生してしまいます。
今回の記事ではデータが重複する理由やデータ重複を解決するためのデータクレンジングと名寄せの方法について紹介します。
国内最大級の営業代行プラットフォーム「カクトク」 カクトクの営業ツール運用支援(MA/SFA/CRM)についてはこちら:https://kakutoku.jp/lp/client/sfa
名寄せとは?
「名寄せ」とは複数のデータベースから氏名・社名・住所・電話番号などの情報を手がかりに同じ人物や会社のデータを1つにまとめる作業のことです。
表記ゆれが原因で起こるデータ重複
表記ゆれが原因で起こるデータ重複の事例について紹介します。
表記ゆれとは?
表記ゆれとは同じ意味を表す言葉ですが漢字などの複数表記が使われている状態を指します。表記ゆれの例として以下のようなものがあげられます。
- 1丁目1番1号と1-1-1の違い
- 髙木と高木の違い
- 株式会社XYZと株式会社エックスワイゼットの違い
- 株式会社と㈱の違い
表記ゆれの原因について
データレコードの重複の原因となりやすい表記は以下の通りです。
- 氏名
- 住所
- 社名
氏名
さきほど例としてあげた「髙木」と「高木」の違い以外にも「斉藤」と「齊藤」や「渡辺」と「渡邊」や「富田」や「冨田」などが氏名でよくある表記ゆれになります。
異なるデータベースに登録される際に、異なる苗字で登録されることは少なくはありません。登録した顧客本人は会員登録時に簡単な名前の方を使って登録するケースもあることから氏名の表記ゆれを完全になくすことは難しいです。
住所
顧客データ管理において表記ゆれが最も多いのが住所だと言われています。代表的な例が「1丁目1番1号」と「1-1-1」のような番地の表現方法が異なるケースです。
変則的な表記方法をOKにしてしまうと上記のような表記ゆれが発生しやすくなるので半角英数字のみで「1-1-1」しか記入できないように限定することも大事です。
社名
社名に関しては「株式会社XYZ」と「株式会社エックスワイゼット」や「株式会社」と「㈱」のような表記ゆれが多く発生します。
法人名の表記は決まっていますが、分かりづらい社名の会社だと誰がみても分かるようにカタカナ表記を別途記載することがあります。そのカタカナ表記をそのままデータベースに登録してしまい、表記ゆれの問題が起きるケースがあります。
同じ会社名でも「前株」や「後株」でそれぞれ異なる会社があるので少しのミスで取引先管理を間違えてしまうので注意が必要です。
また、頻度は少ないですが会社の合併などが発生すると、それぞれ管理している顧客データを統合する必要性が生じます。会社毎に管理している項目が異なることでデータをうまく統合できずに重複データが大量に発生してしまうということもよくあります。
重複した顧客データによって起きる問題
表記ゆれなどが原因で正しい顧客データを管理できていないとどのような問題が起こりうるのでしょうか。会社にとってのリスクを事例を交えて紹介します。
正確な顧客管理や分析ができない
BtoBマーケティングを行うにあたって、顧客データは施策の仮設検討/実行を担う重要な基盤です。この基盤が正しくできていないと効果的なマーケティング施策を打つことが難しいです。
今ではマーケティングオートメーションやCRMといった顧客データを管理して分析するサービスが増えていますが、表記ゆれがあるとこれらのサービスを有効活用することができません。
例えば、「株式会社ABCに所属するユーザーA」が以下の行動をしました。
①セミナー参加
②資料ダウンロード
営業活動をしている方から見たらこのユーザーは優先的に対応したい顧客になり得ます。しかし、「ABC株式会社」と「株式会社ABC」それぞれのデータを登録してしまったら、「ユーザーA」の行動を正しくトラッキングすることが難しくなります。
見込み客になり得るユーザーを見逃すことは致命的なミスになります。
管理コストが積み重なる
1人のユーザーに対して複数の重複したデータが存在している状態でマーケティング活動を行うと無駄なコストが発生する可能性があります。
重複した顧客データがある状態でメール配信やDMを送ってしまうと同一ユーザーに複数のメール/DMが送られる可能性があります。1通0.○円と安く感じるかもしれないですが、これが積み重なると会社にとって無駄なコストを積み上げてしまうことになります。
送信ミスによる社会的な信用の低下
同じユーザーに同一メールやDMを送ってしまっても大きな問題にはならないと思われるかもしれないですが、不正アクセスによるデータ漏洩などの事件が世間を大きく騒がせている現代では顧客は自社の情報取り扱いについて敏感になっている会社が増えています。
同じメールやDMを複数受け取った顧客は送付した会社に対して「データ管理の扱いがちゃんとできていない。このまま取引してもいいのだろうか。」と考えるかもしれません。これまで築いてきた信頼関係が崩れてしまう原因にもなりますので、重複含めた顧客データ管理には慎重になるべきです。
名寄せのプロセス
「名寄せ」は複数のデータベースから氏名・社名・住所・電話番号などの情報を手がかりに同じ人物や会社のデータを1つにまとめる作業と最初に説明しましたが、具体的にどのような手順で行うのか説明します。
①対象データの調査・選別
最初に名寄せしたい複数のデータベース内にある各項目の入力状況を調べ、現在のデータ状況を把握します。
データ状況を確認した上で、どういう方向でデータをまとめていきたのか明確にする必要があります。例として「データベースAにある会社情報とデータベースBにある会社情報を名寄せしてデータ統合したい」などの最終ゴールをここで設定します。
②データ抽出
次に名寄せの対象となるデータベースから、まとめたいデータ対象の各項目を洗い出し、実際に整える必要があるデータを各データソースから抽出します。
名寄せ作業ではデータ内の項目を「キー」と表現することが多いです。この「キー」が異なるデータベースでどれくらい一致しているかを比較し、データを整形します。
名寄せの判定として以下の「キー」が使われることが多いです。
- 氏名
- ふりがな
- 生年月日
- 性別
- 住所
- 自宅電話番号
- 携帯電話番号
- メールアドレス
- 会社名
データ項目を洗い出す際に考えるべきことが他にもあります。あるデータベースでは「会社名」となっている項目が、他のデータベースでは「社名」になっていることがよくあります。これらのデータが同じ内容を扱っているか確認するようにしましょう。
また同じ情報が異なる形式で管理されている場合もどちらの形式で抽出するか事前に決めておく必要があります。
【同じ情報が異なる形式で管理されている例】
- 【データベースA】「郵便番号」「都道府県」「市町村」「番地」「ビル名」「部屋番号」
- 【データベースB】「住所」※データベースAで扱っている情報を1つにまとめている
③データのクレンジング
次に②で抽出したデータをクレンジングします。
データクレンジングとは、データ内の各要素から重複や表記上のミスや表記ゆれを探し出し、それらの削除や修正を行う作業です。一定のルールを定めた上で、全角文字と半角文字、空白や区切り記号などを統一する作業でもあります。
参考例としてデータクレンジングを行う前と行った後のデータ比較してみましょう。
- 氏名
- 会社名
- 住所
これらの項目に「表記ゆれ」が存在するため、データクレンジングを実施しました。
データクレンジング後は「表記ゆれ」が解消されているので次の作業プロセスに進めることができます。
④データのマッチング
データクレンジングが終わったら、同じ種類・属性と識別されたそれぞれの要素に対して同一のIDを付与して同一要素として特定/検索できるようにします。
この作業によってデータベースに存在していた要素の「重複」を排除することができました。①〰④のプロセスを経ることでデータを扱うマーケティング活動や顧客管理の運用に不具合が発生しづらくなります。
名寄せの作業に使えるサービス&顧客管理ツール
「名寄せ」の作業を効率的に行うことができるサービスや顧客管理ツールを紹介します。
Excel
Excelは、マイクロソフトがWindows、macOS、iOSおよびAndroid向けに開発・販売している表計算ソフトです。EXCELを用いて名寄せを行うことができます。下記関数やEXCEL独自の機能を用いてデータクレンジングすることができます。
- TRIM関数
- CLEAN関数
- DATEVALUE関数
- DATEDIF関数
https://products.office.com/ja-jp/excel
FORCAS
FORCAS(フォーカス)は、データ分析に基づいて成約確度の高いアカウントを予測し、マーケティングと営業のリソースをそのターゲットアカウントに集中するABM(アカウント・ベースド・マーケティング)の導入を支援するサービスです。
FORCASは強力な名寄せエンジンを搭載しており、MAやSFAと自動連携し、精度の高い顧客データ統合を実現することができます。
QualityStage
QualityStageでは精度の高い名寄せ処理を行うことができます。住所データ・名前データ(企業名/個人名)を標準化するために住所の県名/市町村名/丁目/番地などのデータを切りだして表記を統一したり、企業名から「株式会社」や事業部名を切りだしたり、個人名の姓と名を切り分けたりといった処理をするためのルールを定義した上でデータクレンジングを行います。
また、クレンジング後のデータからデータの類似性を見つけ、関連性の高い重複データからユニークデータを抽出することも可能になります。
http://www.hitachi.co.jp/Prod/comp/soft1/datastage/info/product/intro/qualitystage_func.html
TRILLIUM
TRILLIUMは住所・姓名・会社名などのキーワードの各種辞書を用いたデータクレンジング機能により、名寄せの際に問題となるデータ表記の違いを解消してくれます。目的に応じた柔軟な名寄せ機能によりデータ内の「表記の不統一」や「重複データ」の問題を早期に解決することが可能です。
https://www.agrex.co.jp/service/detail/customer001
Sansan
SanSanは名刺交換で取得した名刺データから抽出した顧客・顧客候補先の名刺情報を社内で一元管理し、名簿化した上で営業の効率化を促すツールです。外部サービスから顧客データを連携することもでき、また名寄せとデータクレンジングを自動で行うので品質の高い顧客データを管理することができます。
Marketo
Marketoは、マーケティング活動を自動化し、リード育成から営業活動の効率化を実現するMAサービスです。様々な機能を提供していますが、名寄せや重複処理の機能も使うことができます。
OpenRefine(Google Refine)
OpenRefine (※旧Google Refine)は、データ内の「表記の不統一」や「重複データ」を正しく名寄せするために欠かせないサービスです。データクレンジングに必要な機能を無料で使うことができるのがOpenRefineの1番のメリットといえます。
まとめ
顧客データ管理で抱える重複データの課題は、「名寄せ」をすることでデータを整理することができます。精度の高い名寄せツールは導入に一定コストがかかるため、自社の顧客情報に合った名寄せツールを使うようにしましょう。
kakutokuには2022年9月現在、約12,000名の営業人材が登録しています。企業の商材やサービスに合わせて最適な営業代行チームをつくることができます。こちらからお気軽にご相談ください。
国内最大級の営業代行プラットフォーム「カクトク」 カクトクの営業ツール運用支援(MA/SFA/CRM)についてはこちら:https://kakutoku.jp/lp/client/sfa