忘れたときに備えた記録

トップ 最新 追記
2005|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|11|12|
2009|01|02|03|04|05|06|10|12|
2010|06|07|08|12|
2011|07|09|
2012|09|11|
2013|02|03|09|
2015|10|11|
2016|01|08|11|
2017|02|08|10|
2018|11|

2009-10-17(Saturday)

GoogleのクローラがどんなAcceptヘッダを使っているのか知りたい

というわけで、こんなページを用意してみました。

スクリプト自体はこんなのです。

オレオレrack on github

最近、rackに興味があってCGIスクリプトで使ってみたらPOSTメソッドでうまく動かない問題が発生したんですが(標準入力をrewindしようとする)、とうとうgitに手を出してブランチを作ってみました。http://github.com/hiraku/rack に置いてあります。


2009-10-19(Monday)

Googleがなかなかクロールしてくれない

GoogleのクローラがどんなAcceptヘッダを使っているのか知りたいの続き

Googleのクローラは他のページをちょろちょろとつまみ食いしていってくれているのに、肝心のページにアクセスしてくれません。URLの書き方(前回は文中に書いた)が悪いのかと思って、リストに置いてみたり

…URLにgoogleを含んでいたらダメとか、そういうのだったらどうしよう


2009-10-21(Wednesday)

Googleがクロールしていってくれた

キターてな感じで

Tue Oct 20 05:25:19 +0900 2009
GATEWAY_INTERFACE: CGI/1.1
HTTP_ACCEPT: */*
HTTP_ACCEPT_ENCODING: gzip,deflate
HTTP_CONNECTION: Keep-alive
HTTP_FROM: googlebot(at)googlebot.com
HTTP_HOST: www.hinet.mydns.jp
HTTP_USER_AGENT: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
HTTP_VERSION: HTTP/1.1
QUERY_STRING:
REMOTE_ADDR: 66.249.65.121
REMOTE_HOST: crawl-66-249-65-121.googlebot.com
REMOTE_PORT: 38810
REQUEST_METHOD: GET
REQUEST_PATH: /
REQUEST_URI: /google_crawler_collector/

Acceptヘッダは*/*だけなんですな。拡張子とかlink要素のtype属性とかがあったらどうなるのかな。