ECサイトのスクレイピングされたデータは分析に使われている
2020.10.20
インターネット上にある情報は公開されている限り、自身で使うことも、誰かに使われることもあります。サイトの情報を2次的に有効利用するためにピックアップしてくるのがスクレイピングの技術です。
このスクレイピングはECサイトの運営でも情報を集めるためにはよく使われている技術です。しかし、使い方を間違えてしまうと、その対象となったサイトの運営に対して物理的な迷惑行為をしてしまうことに繋がることもあります。ここではECサイトを中心にあらゆるサイト運営とスクレイピングについて解説します。
スクレイピングはWEB上の情報を収集すること
スクレイピングとはサイト上の情報を抽出しコピーして集め、データベースに載せて再利用する技術のことです。
PC、もっと広くはコンピュータでの作業のメリットの一つはコピー&ペーストが容易なことですが、インターネット上に置かれているデータは膨大です。そこから必要な情報を抜き出すことは容易ではありません。
そのため、抜き出すデータの範囲が多くなってくれば専用にプログラムを組んだりする必要も出てきます。これらをいわゆるWEBスクレイピングと呼びます。基本的に情報収集はWEBスクレイパー、あるいはWEBクローラーという自動プログラムを使って行います。Googleでクローラーと呼ばれる巡回ボットがありますが、これはつまりWEBスクレイパーです。また文章だけでなく画像なども収集できたりします。
スクレイピングについては専用のソフトウエアが普及しており、自前でプログラムを組まなくてもその機能を利用することができます。こうしたツールを用いて情報収集し、ランキングサイトの制作に役立てたり、WEB上の口コミを集めて傾向を分析したりするなど、WEB分析を生業とするような人にとってはなくてはならない存在です。
ECサイトの運営においては個別に用意する必要があるほど無くてはならない存在というわけではありませんが、スクレイピングした情報を利用したものは何気なく意識しないでも扱う場面は少なくありません。
スクレイピングはそのもの全部を外部の調査会社に依頼する方法もありますし、前述したWEBスクレイパーを活用する場合もあります。WEBスクレイパーはブラウザで情報を閲覧できるので手軽ですが、カスタマイズした情報が欲しいという場合は少し不便かもしれません。しかし、情報収集自体はものすごく簡単に行える仕組みになっています。
また自分で直接やってみたいという場合はPythonというプログラム言語を利用することが一般的です。
一方でスクレイピングは情報を収集するサーバーに負荷をかける行為でもあります。そのため、知らないうちに迷惑行為になっている可能性もあるのです。
ECサイトでも分析に使われている
インターネットに置かれている情報はアクセスに制限をかけなければ誰でも見ることができます。ECサイトでは商品ページなどは常に見られている状態と考えるべきです。そこに制限をかける必要はありません。
こうしたECサイトの価格を含めた商品情報はスクレイピングされ分析に用いられることもあります。市場での取引金額を調べる価格調査や出品情報の傾向など事業を運営する上で他社の傾向も含めて情報を持つことは、戦略的にも必要です。価格を比較しやすいECサイトにとっても重要な運営の指針になり得ます。
実際に運営する側としても、気になる情報があり、それがスクレイピングで効率的に収集しデータを取得できるのであれば、有効に利用することであればいい方法です。WEBのことはWEBに聞くのが一番です。そうした場合は、プログラミング技術があるというのであれば別ですが、WEBスクレイパーや調査会社の利用で多くの場合は十分といってもいいでしょう。大規模なECサイトではスクレイピングのチームを形成して情報収集に当たっているケースもあり、ECサイトの運営は情報戦という側面を強く感じさせます。
これとは別にスクレイピングされることに対して対策をしておく必要もあります。過度な負荷をサーバーにかける「Dos攻撃」という嫌がらせがあります。何度もサーバーに情報をリクエストして読み出しを依頼し、負担をかけてサーバーをダウンさせるというものです。実はスクレイピングによりDos攻撃のような状態をおこし、サーバーがダウンしてしまったという事例はいくつも存在します。
スクレイピングを規約で禁止することも可能ですが、そうなると検索エンジン対策に問題の出るケースもあります。そのため、あまり規模の大きくないWEBサービスではスクレイピングを禁止するケースはそう多くはありません。そのため、そうした被害が出ないよう、それなりに余裕のある規模のサーバーをECサイトは使い、バッファーを考えておくことも必要です。
また、もしスクレイピングを使う側となる場合は情報収集に便利ですが、独自でプログラムを組み込んでECサイトの運営で利用する場面では、しっかりと情報源となる相手側のリスクも理解して利用することが求められます。あまりやりすぎると相手側のサーバー管理者からブラックリストに入れられアクセスができなくなります。
現在はこうしたサーバーに負荷を与える行為についてまだ法整備は進んでいません。しかし、今後の動向次第では状況が変わる可能性もあります。
また、インターネットの利用人口が上昇していく流れはまだもう少しの期間は止まないことを考えるとスクレイピングについても今後ルール化が進んでいく可能性もあります。いずれにしても節度を持って利用するようにしてください。