Baiduのクローラーが暴れん坊な件

この間サーバーが異常に高負荷になって少しイヤーンな気持ちになった。

ログを調べると"BaiduMobaider"とやらが1000回ぐらいクロールして来ている!
しかも、robots.txtで禁止しているディレクトリのところに!?
どういう事ですかバイドゥさん??


そんなわけでちょっと調べたりしたわけですが、
現在のrobots.txt

User-agent: *
Allow: /
Disallow: /hoge/hoge/*
みたいな感じにしてて、特定のディレクトリだけはじいているのですが。
Baiduのサポートページによると
”disallow”って小文字で書かなくちゃいけない???

にわかには信じられないけれどとりあえず
user-agent: Baiduspider
disallow: /

user-agent: BaiduImagespider
disallow: /

user-agent: BaiduMobaider
disallow: /
 ってのを追加して様子をみることとする。(全拒否w

コメント

このブログの人気の投稿

CrossOver MAC のアンインストール

[eclipse]エラー.classpath に書き込めませんでした。