ウェブクローラとはインターネット上の情報を収集するプログラムのことです。
クローラ(またはクローラー)は英単語ののcrawlerのこと。
crawlはみなさんご存知、水泳のクロールと同じ単語で「はう」「腹ばいで動く」という意味です。
(私はクロールの語源を今初めて知りました。)
ということで、ウェブクローラとは、
ウェブで、クロールするもの(プログラム)ということです。
GoogleやYahoo!などの検索エンジンがなぜ、検索結果を出せるかというと、
ウェブクローラがネット上を巡回・収集しているからです。
また、webcrawlerを画像検索をすると、蜘蛛(スパイダー)の画像がたくさん出てきます。これはネット上の情報を這ってさがす、という動きが蜘蛛に似ているからでしょう。Googleもクロールのロボットを「スパイダー」と名付けています。
具体的にはウェブサイトのファイルのソースコードを読み取り、
・タイトルは何か
・見出しは何を入れているか
・リンクしているサイトは何か
などの情報をデータベースに登録していきます。
簡単に言ってしまえば、検索エンジンとは
ウェブクローラが収集した情報を整理し、検索結果として返す仕組みです。
クローラや仕組みについては、Google検索の仕組みの検索が情報を整理する仕組みページに掲載されているので、興味がありましたらご覧ください。
「実はGoogle検索が行われるとき、ユーザーはウェブを検索しているのではなく、Googleが持つウェブのインデックス、つまりGoogleがウェブ上で見つけることができたものの中から検索をしているのです。」という説明、結構衝撃的じゃないですか?
そうなんです。ウェブ上には検索に引っかからないサイトや情報が検索できる情報量より多いといわれています。
深層ウェブとかいわれたりしますが、その説明はまた今度。
目次
●他のサイトでの説明
weblio辞書 ー 別名「検索ロボット」「サーチボット」だそうです。
https://www.weblio.jp/content/クローラ
Serch console ー Googleのクローラ紹介ページです。
https://support.google.com/webmasters/answer/
うぃる育成日記 ー Webクローラを作ってみよう。という記事。クローラを作る視点で見るとウェブはもっと面白くなると思います。
https://will-ikusei.blogspot.jp/2016/02/wget.html
●使い方や場面
ウェブクローラという言葉がよく使われる場面・会話
「クローラを意識したコーディングが重要です。」
「グーグルボットはグーグルのクローラーです。」
「あー、クロールエラーが増えてるー」
●復習クイズ
説明がわかりづらい、間違っているなど御指摘ありましたらお問い合わせよりご連絡いただけると幸いです。