データレイクとは、社内のあらゆるデータを、形を整える前の生の状態のまま一カ所にためておく大きな保管場所のことです。この記事では、データレイクの意味をデータウェアハウス(DWH)との違いから整理し、中小企業が「自社にはどちらが、そもそも今必要なのか」を判断できるようにします。データ活用を任された情報システム担当の方や経営者の方が、流行りの言葉に振り回されず、自社の身の丈に合った一歩を選べるようになることを目指した内容です。
データレイクとは何か
データレイクとは、構造化データも非構造化データも区別なく、加工せずそのままためておく大規模なデータの保管場所です。販売記録のような表形式のデータから、画像、音声、メール、ログまで、種類を問わず「とりあえず全部入れておける」点が最大の特徴になります。
「レイク(湖)」という名前は、加工していない水が自然のまま流れ込む様子に由来します。決まった形に整えてから入れるのではなく、入ってきた状態のまま広く受け止める器だと考えると分かりやすくなります。
データレイクが注目される背景には、扱うデータの種類が一気に増えた事情があります。
- 売上や在庫などの表形式データに加え、Webのアクセスログが増えました
- 問い合わせメールやチャット、SNSの投稿など文章データも分析対象になりました
- 写真や音声、センサーの記録など、表に収まらないデータが日常的に発生します
こうした多様なデータを、形式を問わず一旦受け止められる場所として、データレイクという考え方が広まってきました。
データレイクとデータベースの違い
データレイクとデータベースは、データの入れ方が根本的に違います。データベースは、あらかじめ決めた表の形にきちんと整えてから入れる仕組みです。一方のデータレイクは、形を決めずに生のまま入れて、使うときに整える発想になります。
たとえるなら、データベースは中身ごとに棚を割り当てた整理棚で、データレイクは何でも放り込める大きな倉庫です。整理棚は取り出しやすい反面、形が決まっていないものは入れにくくなります。倉庫は何でも入る反面、後から探す手間がかかります。
データレイクとデータウェアハウスの違い
データレイクとデータウェアハウスの最大の違いは、「データを整える順番」にあります。データレイクは生のまま先にため、使うときに整えます。データウェアハウス(DWH)は、分析しやすい形に整えてからためる仕組みです。
DWHは、分析という目的に向けてきれいに整理された専用の倉庫です。中身がそろっているので集計や分析がすぐにできます。詳しくはデータウェアハウス(DWH)とは?仕組みと中小企業の導入手順で解説しています。両者の違いは、いくつかの観点で整理すると見えやすくなります。
- データの状態: データレイクは生のまま、DWHは整えた後の状態でためます
- 入れる速さ: データレイクは入れるのが速く、DWHは整える工程の分だけ手間がかかります
- 使うときの手間: データレイクは使うときに整える必要があり、DWHはすぐ使えます
- 向くデータ: データレイクは多様な種類に、DWHは表形式のデータに向きます
「データウェアハウスとの違い」を一言でまとめると、先に整えるか後で整えるかの差です。どちらが優れているという話ではなく、目的によって役割が分かれます。データを一カ所に集める処理そのものを知りたい方は、ETLとは?データ統合の基礎と中小企業の始め方もあわせてご覧ください。
データマートとの関係も整理する
データレイク、DWHと並んでよく登場するのがデータマートです。データマートは、DWHの中から特定の部署や目的に絞って切り出した、小さな分析用のデータの集まりを指します。
3つの関係は、水の流れにたとえると整理できます。多様なデータがまずデータレイクという湖に流れ込み、その中から必要なものを整えてDWHに移し、さらに用途別に取り分けたものがデータマートです。中小企業の段階では、ここまで層を分ける必要はほとんどありません。
データレイクハウスという新しい考え方
近年は、データレイクとDWHの良いところを一つにまとめた「データレイクハウス」という考え方も登場しています。生のデータを広くためられる柔軟さと、整えて分析しやすい使いやすさを両立しようとする発想です。
ただし、これは大量で多様なデータを扱う企業向けに発展してきた仕組みです。言葉として知っておく価値はありますが、中小企業がいま飛びつくべきものではない点には注意が必要です。
中小企業にデータレイクは必要か
結論から言うと、多くの中小企業にとって、いますぐ本格的なデータレイクを構える必要はありません。データレイクは、表に収まらない多様で大量のデータを扱う企業のための仕組みだからです。
中小企業で扱うデータの多くは、売上、顧客、在庫といった表形式のデータです。この種のデータであれば、ExcelやDWHの考え方で十分に整理できます。多様な非構造化データが日々大量に発生していない限り、データレイクの強みは活きにくいのが実情です。
判断の目安として、次のような問いを自社に当てててみてください。
- 画像や音声、長文のログなど、表に収まらないデータを日常的に分析したいか
- データ量が、Excelや既存システムでは明らかに扱いきれない規模か
- 専任で基盤を運用・管理できる人や体制があるか
これらに「はい」が並ばないうちは、データレイクより先に着手すべきことがあります。自社の現状を客観的に把握したい場合は、データ統合基盤とは?仕組み・種類・メリット・導入方法を徹底解説が全体像をつかむ助けになります。
「まず全部ためる」より「使える形で残す」
筆者は以前、営業代行会社でデータ整備に関わったとき、「とにかく全部ためておこう」という発想がかえって動きを止める場面を何度も見ました。生のデータを大量にためても、後から整える人手がいなければ、ただ眠るだけだったのです。
そこで学んだのは、「まず全部ためる」より「使える形で残す」を優先したほうが、小さな組織では確実に成果につながるという点でした。湖いっぱいに水をためることより、すぐ飲める一杯を用意することのほうが、現場ではずっと役に立ちました。
