- 2010-07-23 (金) 14:15
- カテゴリ:クロール
特定の検索エンジジン以外を拒否したい場合
拒否するエンジンを指定して、最後に許可するエンジンを入れるという方法が思い浮かびます。
Disallow: /
User-Agent: Yahoo-MMCrawler
Disallow: /
User-Agent: psbot
Disallow: /
・
・
・
User-Agent: Googlebot
allow: /
しかし面倒くさい。
もっとスマートな書き方が無いか調べていたらrobots.txtの大元に書いてあったので紹介します。
原文:To allow a single robot
和訳:特定の検索エンジンのクローラーだけクロールを許可
Disallow:
User-agent: *
Disallow: /
だそうです。
allow: /
User-agent: *
Disallow: /
ではありませんでした。
ということはよくあるGooglebotを拒否してGooglebot-Mobileを許可したい場合は
Disallow:
User-agent: *
Disallow: /
ということですね。
他にもrobots.txtの大元に書いてあった原文を抜粋します。
robots.txtの原文(英語)
原文:To exclude all robots from the entire server
和訳:全ての検索エンジンのクローラーを拒否
Disallow: /
原文:To allow all robots complete access
和訳:全ての検索エンジンのクローラーに対してクロールを許可
Disallow:
原文:To exclude all robots from part of the server
和訳:全ての検索エンジンのクローラーに対して特定のディレクトリだけクロールを拒否
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
原文:To exclude a single robot
和訳:特定の検索エンジンのクローラーだけクロールを拒否
Disallow: /
既知でしたらすいません。
この記事を読んだ人は次の記事もチェックしています
- Newer: 「ただ古いだけ」ではリンクの価値は上がらない!
- Older: ページ移転ではなくサイト移転を知らせる 役立つ方法
コメント : 0
Trackbacks:0
- Trackback URL for this entry
- http://seoinfo.sitemix.jp/related_crawl/884.html/trackback
- Listed below are links to weblogs that reference
- robots.txtで特定のクローラーだけ許可する方法 from ああそうそうこれこれw的な、SEO情報のまとめ
