robots.txtの編集|書き方の基礎と意味

ホームページ関連

robots.txtとは

Google、Bing、Yahoo、実に様々な検索エンジンが存在します。

これらの検索エンジンにホームページが登録されるのは「クローラー」と呼ばれる自動巡回プログラムが動作しているからです。

クローラーが定期的にホームページを巡回することで、そのホームページの情報を検索エンジンに都度、登録しています。

しかし、ホームページを作成する管理者で、特定の記事を非公開にしたい場合もあると思います。

そんな時には、各検索エンジンのクローラーの巡回を制御することで、指定した記事やファイルを、検索エンジンに登録させないようにすることができます。

そのための命令文を記載するテキストファイルとして「robots.txt」が存在します。

WordPressのrobots.txtの確認方法

WordPressを利用している方でrobots.txtの内容を知りたい方もいらっしゃると思います。

確認方法は、

  • https://〇〇〇.com/robots.txt

上記のようにURLを入力して頂くとrobots.txtが確認できます。

ただし、WordPressのrobots.txtは設定内容に従って自動で作成されます。

以下の内容は筆者がURLに入力し、robots.txtの命令を確認した結果です。

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://〇〇〇.com/wp-sitemap.xml

Sitemap: https://〇〇〇.com/sitemap.xml

それぞれの意味と内容は以下で解説しています。

robots.txtの作成

robots.txtを編集する前に「メモ帳」でrobots.txtを作成しましょう。

Windowsの検索ボックスに「メモ帳」と入力すると出てきます。

メモ帳を用意できたら、以下の手順に沿ってrobots.txtの編集を行います。

robots.txtの基礎の形

始めにrobots.txtに記載する内容は以下の通りです。

基本的に何も設定しない場合は以下の記述で事足ります。

User-Agent:*
Disallow:

それぞれの役割としては、

  1. User-Agent(クローラーの指定)
  2. Disallow(User-Agentで指定したクローラーの制御:拒否)

robots.txtの基礎の形は以上の2つの命令で構成されます。

また、Disallowと一緒に利用される命令:Allow

  • Allow(User-Agentで指定したクローラーの制御:許可)

サイトマップを指定する命令:Sitemap

  • Sitemap(サイトマップの指定)

それぞれが存在します。

これらの意味について解説しています。

User-Agent(ユーザーエージェント)

User-Agent(ユーザーエージェント)は「どのクローラーに命令するか」を表しています。

書き方は、

  • User-Agent:Googlebot(グーグルボットを指定)
  • User-Agent:*(全てのクローラーを指定)
  • User-agent: bingbot(ビングボットを指定)

このように使います。

ただし、User-Agentに関してはクローラーを指定するだけの役割なので、処理に関してはUser-Agent以下の命令文で行うことになります。

上記のソースコードは「User-Agent:*」なので、全てのクローラーを指定しています。

Disallow(ディサロウ)

Disallow(ディサロウ)は「User-Agentで指定したクローラーの制御:拒否」を担当します。

書き方は、

  • Disallow:(全てのクローラーの巡回)
  • Disallow: /(全てのクローラーを拒否)
  • Disallow: /category/(カテゴリーディレクトリ以下をブロック)
  • Disallow: /category/sample(カテゴリーの中のページをブロック)
  • Disallow: /sample(記事ページのブロック:〇〇〇.com/sample)

このように記載することでUser-Agentで指定したクローラーの巡回をブロックすることができます。

Disallowはクローラーの巡回をブロックする命令になります。

Allow(アロー)

Disallow(ディサロウ)とは反対にAllow(アロー)と呼ばれる命令も存在します。

Allowは「User-Agentで指定したクローラーの制御:許可」を担当します。

ただし、robots.txtにおいて記載しないこと自体が許可になります。

つまり、robots.txtで制御が行われない状態では常にクローラーの巡回が許可された(クローラーを拒否しない)設定となっています。

では、どのような時にAllow(アロー)を使用するの?

それは、Disallow(ディサロウ)で拒否した一部のディレクトリ、ページを許可する場合に利用します。

Allowの書き方はUser-Agent、Disallowと一緒に解説していきましょう。

User-Agent:*
Disallow: /
Allow: /sample

上記のrobotx.txtでは、

  • User-Agent:*(全てのクローラーを指定)
  • Disallow: /(全てのページのクローラーの巡回を拒否)
  • Allow: /sample(sampleページのクローラーの巡回を許可)

それぞれの命令は、このような意味合いになります。

Disallowでは全てのページの巡回を拒否したものの、Allowで一部のページの巡回を許可しています。

このようにDisallow(ディサロウ)とAllow(アロー)は一緒に利用されます。

Sitemap(サイトマップ)

Sitemap(サイトマップ)はサイトマップを指定する命令です。

サイトマップは、ホームページのリンクをリスト形式で記述した「xml」ファイルです。

サイトマップがあることで検索エンジンにホームページの正確な構成を伝えることができます。

書き方は、

Sitemap: https://〇〇〇.com/sitemap.xml

このようにサイトマップを作成した絶対パス指定します。

robots.txtの保存場所

robots.txtはルートディレクトリに保存します。

ルートディレクトリは、

  • https://〇〇〇.com/robots.txt

上記の配置になるようにFTPツール、また、サーバーのファイルマネージャーを活用してアップロードします。

WordPressを利用されている方は以下の配置になります。

  • /public_html/robots.txt

robots.txtをpublic_htmlの直下になるように設置するとアップロードしたrobots.txtが優先されます。

robots.txtでクローラーをコントロールしよう!

robots.txtに命令文を書くだけでクローラーの動きを制御することができます。

特定のクローラーの存在が邪魔に思えた時には便利です。

クローラーの制御を行いたい時にはrobots.txtで指定してみてはいかがでしょうか。

ホームページ関連
国内シェアNo.1「エックスサーバー
Word Press初心者向けのサーバーでホームページ・ブログが初めての方でも簡単に始めることができます。また、毎日、自動でバックアップをサーバーに保存してくれる他、昔からあるサーバーなので情報量が多く、トラブルになっても検索して自分で解決することができます。

1. WordPress簡単インストール
2. 毎日、自動バックアップ
3. 手動バックアップ可
4. 無料で復旧可能(14日)
5. 複数のドメイン運用可
6. 基本プランでも大容量
7. 手厚いサポート

迷ったらエックスサーバーにすれば大丈夫。
低コストから成長「カラフルボックス
低コストからホームページ・ブログを始められるサーバーです。サイトの成長に合わせてプランを変更することで高性能なサーバーへ徐々に切り替えることもできます。ホームページとサーバーが一緒に成長でき、低コストながら初心者の方向けの機能も豊富です。かんたん操作のコンパネによって初めての方でも簡単に始めることができます。

1. 低コストから始められる
2. かんたん操作のコンパネ
3. 自動バックアップ(14日)
4. マルウェア・改ざんを防止
5. サーバーは超高速
6. 充実したサポート

お試し運用ならカラフルボックス。
ぜろぶろぐ

コメント

タイトルとURLをコピーしました