Mengusir Robot Jahat

Written By batikbumi on 7 Mar 2012 | 01.29

Web crawler yang tidak beritikad baik akan mengabaikan robots.txt, atau lebih parahnya, justru menggunakan robots.txt untuk mengakses direktori yang disallow, ia juga tidak perduli berapa sering mengunjungi sebuah website untuk mengambil konten yang diinginkan.

Untunglah masih ada cara untuk mengusirnya. Mengusir robot jahat cukup mudah. Jika anda administrator website, dapat membuat jebakan misalnya dengan mendefinisikan sebuah direktori (misalkan direktori itu bernama /rahasia_5824, angka 5824 adalah angka acak agar direktori ini kecil kemungkinan diakses oleh user biasa/bukan web crawler) pada robots.txt dan set sebagai direktori yang disallow. Setiap akses yang terjadi pada direktori ini bisa diasumsikan merupakan web crawler yang tidak sopan, dan anda dapat memperoleh IP-nya melalui log file maupun database yang dihasilkan oleh script yang sengaja dipasang pada direktori tersebut. IP sang robot jahat dapat di blok melalui file .htaccess, contohnya dengan perintah berikut :

RewriteEngine on

Options +FollowSymlinks

RewriteBase /

RewriteCond %{REMOTE_HOST} ^xxx.xxx.xxx.xxx

RewriteRule ^.*$ x.html [L]

Perhatikan baris dengan perintah RewriteCond, ganti xxx.xxx.xxx.xxx dengan IP web crawler tersebut. Jika nama web crawler yang ingin diblok sudah diketahui, anda dapat juga menuliskannya, contoh :

RewriteCond %{HTTP_USER_AGENT} Slurp

RewriteRule ^*$ X.html [L]

Baris di atas akan memblok web crawler slurp (dari Yahoo!) jika karena satu dan lain hal, anda tidak menginginkan web crawler tersebut mengakses website anda.

Tutorial Website

Mengusir Robot Jahat

Written By batikbumi on 7 Mar 2012 | 01.29

1 komentar:

Posting Komentar

Koleksi Batik Terlengkap

Paling Sering Dibaca

Kategori