Skip to content
Follow us on Twitter or subscribe to this
website by email or with the RSS feed

Tips Praktis Efektifkan “robots.txt”

Anda tahu kan apa yang dimaksud dengan crawler atau spider? Kalau belum tahu silakan baca terlebih dahulu artikel yang berjudul Mengenal Istilah Spider di situs ini. Nah, pada tulisan ini saya akan membahas spider yang berkaitan dengan search engine.

Spider tidak boleh sembarangan saja mengindeks website. Ada batasan-batasan tertentu yang harus ditaati oleh spider (search engine crawler) yang “baik” dalam menjalankan tugasnya yaitu mengindeks suatu halaman web. Aturan tersebut ditulis dalam sebuah file yang dinamakan “robots.txt”.

Kenapa ada istilah spider yang “baik” di sini?

Tentu ada alasannya, yaitu karena ada spider yang tidak mematuhi aturan dalam “robots.txt”. File “robots.txt” harus diletakkan pada direktori root dari website, dan dapat diakses melalui URL:

http://www.example.com/robots.txt.

Berikut ini contoh isi file “robots.txt”:

User-agent: *
Disallow: /images/
Disallow: /feed/

Maksud dari aturan di atas yaitu spider tidak boleh mengakses dan mengindeks isi dari direktori /images/ dan semua URL yang dimulai dengan /feed/.

Meskipun sudah ada “robots.txt”, tidak ada jaminan bahwa semua spider akan mematuhi aturan-aturan yang sudah diberikan. Itulah sebabnya ada istilah “bad spider” atau spider jahat. Bad spider biasanya memang dibuat untuk tujuan-tujuan yang kurang baik misalnya untuk mengumpulkan daftar email yang akan dipakai oleh spammer.

Untuk mencegah hal-hal yang tidak diinginkan, jangan sekali-kali menggunakan robots.txt untuk memproteksi halaman web atau direktori yang sifatnya rahasia. Anda harus menggunakan alternatif lain, misalnya dengan .htaccess.

Mengapa demikian? Karena selain spider, orang lain juga bisa melihat kode yang ditulis dalam file robots.txt tersebut. Sangat berbahaya jika orang lain sampai tahu nama halaman web atau direktori yang sifatnya rahasia tersebut.

Kalau demikian, lalu kapan sebaiknya kita menggunakan “robots.txt”?

Berikut ini beberapa kasus yang perlu ditangani dengan “robots.txt”.

1. Duplicate Content

Search engine tidak menyukai halaman web yang merupakan duplikasi (duplicate content). Jadi jika website Anda terdapat beberapa halaman yang isinya sama tapi format filenya berbeda, misalnya html dan pdf, sebaiknya Anda memberikan aturan pada “robots.txt”, mana halaman yang boleh di-indeks oleh search engine dan mana yang tidak.

2. Search Result

Pada umumnya website memiliki kotak pencarian (search) untuk memudahkan pengunjung dalam mencari informasi yang dibutuhkan. Sebaiknya halaman yang merupakan hasil pencarian tersebut tidak diakses oleh spider karena tidak memberikan nilai lebih terhadap peringkat situs pada search engine.

3. RSS Feed / Atom

Halaman web lainnya yang juga tidak perlu dimasukkan dalam indeks search engine adalah RSS Feed atau atom.

Barangkali ada yang mau menambahkan?

Post to Twitter Tweet This Post to Delicious Delicious Post to Digg Digg This Post to Facebook Facebook Post to MySpace MySpace Post to StumbleUpon Stumble This

Artikel Terkait:

POST BANNER

Bagaimana Komentar Anda?

Monggo kalau Anda mau mengomentari tulisan di atas! Bertanya atau mengkritik juga boleh, tapi jangan terlalu menyakitkan :).

  • Seorang blogger | September 1st, 2009 jam 1:45 am

    sedikit lebih jelas.. tapi ane masih bingung.. kiranya perlu baca lebih mengenai hal ini.. terimakasih mas

  • Shanty | July 26th, 2010 jam 5:41 pm

    iya nech masih bingung mas… buka halaman laen lagi deh…

Tinggalkan Pesan