У нас возникла проблема со сканированием на нашей платформе электронной коммерции.
Проблема не в соскабливании как таковой, дело в том, что тот, кто это делает, подделывает устаревший реферер, заполненный нашими пользовательскими параметрами аналитики. Это разрушает наш внутренний аналитический пакет.
Все IP-адреса происходят из 1e100.net
, то есть IP-адреса Google.
Я хочу заблокировать все эти адреса от меня. Я обеспокоен тем, что могу случайно остановить Google Компания ресурсы от доступа к нашему сайту. К ним могут относиться, например, ресурсы, которые индексируют наш сайт, или другие ресурсы, принадлежащие команде Adwords / Analytics.
Есть ли способ отличить Google App Engine трафик (я подозреваю, что это трафик), а Google Компания трафик.
Google ведет список сетевых блоков в записи TXT _netblocks.google.com
это сетевые блоки, которые GAE может использовать для запросов. Текущий ответ выглядит так:
gbeech@ny-man01:~$ dig -t TXT _netblocks.google.com @ns1.google.com
; <<>> DiG 9.7.0-P1 <<>> -t TXT _netblocks.google.com @ns1.google.com
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 64157
;; flags: qr aa rd; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 0
;; WARNING: recursion requested but not available
;; QUESTION SECTION:
;_netblocks.google.com. IN TXT
;; ANSWER SECTION:
_netblocks.google.com. 3600 IN TXT "v=spf1 ip4:216.239.32.0/19 ip4:64.233.160.0/19 ip4:66.249.80.0/20 ip4:72.14.192.0/18 ip4:209.85.128.0/17 ip4:66.102.0.0/20 ip4:74.125.0.0/16 ip4:64.18.0.0/20 ip4:207.126.144.0/20 ip4:173.194.0.0/16 ?all"
;; Query time: 33 msec
;; SERVER: 216.239.32.10#53(216.239.32.10)
;; WHEN: Wed May 9 22:41:45 2012
;; MSG SIZE rcvd: 254