NHN テコラスの担当者が2025年8月開催のイベント「Google Cloud Next Tokyo」に登壇し、漫画アプリ「comico」を支えるデータ分析基盤をオンプレミス環境からGoogle Cloudへ移行したいきさつとその効果、移行で意識した点などについて説明した。
漫画アプリ「comico」を運営するNHN comicoは、日々のデータ分析に苦戦していた。障害対応が年に数十回発生し、運用コストがかさみ、日々の売上データの集計に6時間以上かかる状況だったという。
グループでクラウドの導入や移行の支援を手掛けるNHN テコラスの江頭峻氏(マーケティング本部)が2025年8月開催のイベント「Google Cloud Next Tokyo」に登壇し、データ分析基盤を「Apache Hadoop」(Hadoop)ベースのオンプレミス環境から「Google Cloud」へ移行したいきさつとその効果、移行で意識した点などについて説明した。
comicoはスマートフォンでの閲覧に特化した漫画アプリだ。全世界での累計ダウンロード数は4000万を超える。Google Cloudへ移行前は、comicoのデータ分析基盤はオープンソースのミドルウェアであるHadoopをベースにしていた。
当時のデータ分析基盤には、運用負荷とコスト、パフォーマンスの3面で課題があった。障害対応回数は年に数十回に及び、データセンターや運用保守にかかるコストは上昇した。特にパフォーマンスの課題は当時のcomicoのビジネスに大きな影響を与えていた。データ集計に時間がかかり過ぎて、朝の営業開始時点になっても前日の売上データを確認できないこともあったという。経営層から年単位の集計データを求められた際も迅速に提供できないことがあった。
数あるデータ分析基盤の中でGoogle Cloudと「BigQuery」を選んだ理由は、次の3つだ。
「他にも、Google Cloudが統合するAIへの期待もあった。『BigQuery ML』や『Google Gemini』『Vertex AI』『Google Agentspace』などの多くのAIサービスがBigQueryに統合されている」(江頭氏)
移行後は、データの集約先がクラウドストレージになり、BigQueryで処理し「Looker Studio」で可視化するようになった。
一方、データ抽出とスケジューラーにはGoogle Cloudのネイティブサービスを使用せず、既存のものを使い続けた。comicoのワークロードでは日次で数千件のバッチが稼働していたため、既存のOSSツールを選定した方がコストメリットにつながると考えたためだ。試算すると、年間で数百万円規模のコスト削減が見込めるという。
結果的に、障害対応はゼロになり、コストは50%削減。日次のバッチ処理にかかる時間を80%削減できた。前日の売上データを朝に確認できるようになり、年単位の売上データの集計も1日かからずに終えられるようになったという。
データ分析環境の移行は5ステップで実行した。1つ目は、現状を把握するための評価だ。データ量やデータの保存形式を確認し、HadoopとBigQueryの互換性を調査した。その上で安全かつ効率的なデータ転送の方法を検討したという。
2つ目は設計だ。BigQueryの性能を最大限に発揮するための再設計をした。ファイル形式の変換や、仕様の違いを吸収するために関数の挙動を調整するなどの作業をした。
3つ目はデータ転送だ。ネットワーク帯域の制限を考慮し、クラウドストレージに直接転送するのではなく、踏み台サーバを経由してクラウドストレージへ転送した。データの破損が起こらないように、データのパイプラインでリトライ処理を自動実行できるようにした。
4つ目は検証だ。レコード件数やデータの一致状況を地道に検証していったという。最後に実際の業務で使っている代表的なクエリを実施し、Hadoop側での集計とBigQuery側での集計が一致するかを確認した。同一の値が返ってこない場合は、データパイプラインの見直しや個別の修正を続けた。
5つ目は最適化だ。Looker Studioのダッシュボードで必要なスキーマを再定義し、ダッシュボードの表示速度を改善した。時間がかかるスキーマについては、BigQuery側であらかじめ集計しておくようにした。
NHN ComicoとNHN テコラスは今後、生成AIを活用することで、これまで手作業だったデータのクレンジング作業の効率化や自然言語によるデータ分析などを目指す。
Copyright © ITmedia, Inc. All Rights Reserved.
製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。