データウェアハウス(DWH)とは、大量のデータを格納するシステムのことだ。ただ格納するのではなく、分析のために整理して格納するのが特徴だ。
似た概念としてデータベース(DB)やデータレイク、データマートなどがある。DBはデータを1カ所に集めたシステムの総称で、多くの場合リレーショナルデータベース(RDB)と呼ばれる、行列とリレーションで構造化されたDBを指す。データレイクは画像や動画などの非構造化データも含めて全てのデータを保管するシステムのことだ。データマートはDWHで整理したデータから、さらに特定の目的に合わせて抽出したデータを管理するシステムだ。データレイクに格納されているデータを、DWHで整理し、データマートで個々の目的に合わせて加工する、という流れで、分析に必要なデータを用意する。
以下はキーマンズネットで掲載している、DWHの関連記事だ。サービスの導入、運用にぜひ役立ててほしい。
ビッグデータ活用への関心の高まりに象徴されるように、大量かつ多様なデータを分析することで、ビジネスの現状把握や意思決定を迅速化したい。さらには、新たな知見や洞察(気付き)を創出していこうという動きが活発化している。
とはいえ、データ分析は必ずしも最初から大きな成果が見込めるわけではない。試行錯誤を重ねながら、息の長い取り組みが必要となる。場合によっては、途中で頓挫するリスクがあることも覚悟しなければならない。
従って、必要最小限の投資でスモールスタートし、データ量やユーザー数、アクセスの増加、データ分析要件の高度化や処理負荷の増大に応じて、得られた成果とのバランスを見極めながら拡張していくことが望ましい。
そこで注目したいのが、クラウド型のデータウェアハウスだ。サーバやストレージなどのインフラをはじめ、データベースやETLソリューション、場合によってはBI(ビジネスインテリジェンス)ツールを含めたフロントエンドのデータ分析環境まで、必要な機能を全てクラウドから調達できる。
クラウドDWHのメリットは、自社で人員やデータセンターを保持しなくとも良いという点、またリソース要求の急激な変化に対応しやすい点だ。そういった意味では、1年のうち限られた期間だけデータ分析を行いたい、あるいはテスト的にデータ分析を行いたいといった要件にも対応できる。この場合、構築したデータウェアハウスの基盤を安価なアーカイブ用ストレージサービスに保存していくことで、必要になったときにいつでも再開することができる。
DWHを選定する際は、まずデータ統合と管理の機能に着目しよう。複数のデータソースから効率的にデータを抽出や変換、格納できるETL機能や、データクレンジング機能は必須だ。また、データのセキュリティ確保やアクセス制御、バックアップ機能なども重要なポイントになる。
スケーラビリティにも注目が必要だ。将来的なデータ量の増加に備え、柔軟に拡張できるアーキテクチャを持つ製品を選ぶ必要がある。クラウドDWHであれば、オンプレミスと比べて容易にスケールアウトできる。
DWHに蓄積したデータを活用するには、BIツールやデータ分析ツールとの連携が欠かせない。選定する製品が「Tableau」や「Power BI」「Qlik Sense」といった主要な分析ツールとスムーズに連携できるかどうかを確認しよう。
APIやコネクターの充実度も重要だ。社内の他のシステムやアプリケーションとのデータ連携がしやすいかチェックしてほしい。
クラウドDWHはオンプレミスに比べて初期費用や運用フェーズ以降のコストを大きく削減できる可能性があるが、従量課金の仕組みが製品によって異なる。
「BigQuery」はSQLクエリで読み込んだデータ量や、保存されているデータ量に応じて課金される一方、「Snowflake」は「クレジット」という独自の単位に従い、稼働させるウェアハウスのサイズや稼働時間などに応じて課金される。
それぞれの製品のライセンス体系や従量課金の仕組みをよく確認した上で、自社の活用例でどの程度課金することになるのか試算する必要があるだろう。
また、ベンダーのサポート体制も見逃せない。導入時のコンサルティングや技術支援、トラブル発生時の対応など、充実したサポートを提供してくれるベンダーを選ぼう。国内に開発・サポート拠点があるとより安心だ。
製品名 | ベンダー名 | 特徴 |
---|---|---|
Snowflake | Snowflake Japan | 標準SQLベースのDWHに加えて、データシェアリングやマルチクラウドレプリケーションといった機能を備えた製品。さまざまなデータソースと連携でき、高い拡張性と柔軟性に強み |
BigQuery | グーグル・クラウド・ジャパン | 「Google Cloud Platform」(GCP)で提供されているクラウドDWH。データの処理速度やGoogle関連サービスとの連携に強み |
Amazon Redshift | アマゾンウェブサービス ジャパン | 「Amazon Web Services」(AWS)で提供されているクラウドDWH。AWSの他サービスとの連携に強み |