Inwepo Tutorial - Sekilas tentang pengertian file Robots.txt, sebuah file teks yang secara de-facto dijadikan sebagai rujukan awal oleh program penelusur milik mesin pencari (search engine) atau layanan internet sejenis.
Program penelusur yang lazim disebut sebagai web robot, web crawler, atau web spider, akan memeriksa apakah sebuah situs memiliki file robots.txt dan kemudian memeriksa instruksi yang diberikan di dalamnya.
Para robot mesin pencari ini kemudian akan meng-indeks semua halaman web berdasarkan instruksi yang ada pada file robots.txt.
Untuk mengizinkan semua program robot untuk mengindeks situs, tulis perintah seperti berikut:
User-agent: *
Disallow:
Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs, tulis perintah seperti berikut:
User-agent: *
Disallow: /
Untuk melarang program robot mengakses halaman tertentu, tulis perintah berikut:
User-agent: *
Disallow: /admin.htm
Disallow: /private/
Disallow: /info/user.php
Untuk melarang sebuah robot tertentu tetapi mengijinkan robot-robot lainnya, tulis perintah berikut:
User-agent: NamaRobot
Disallow: /
Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya,
Contohnya seperti robot Google boleh mangeindeks, lainnya tidak boleh. tulis perintah berikut:
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Kamu juga dapat menuliskan lokasi file sitemap.xml situs yang kamu punya di baris terakhir, sebagai berikut:
User-agent: *
Disallow:
Sitemap: http://tutorial.inwepo.com/feeds/posts/default?orderby=updated
Sitemap: http://tutorial.inwepo.com/feeds/posts/default?orderby=updated&max-results=999
Robot mesin pencari juga dapat memahami penggunaan wildcard untuk melarang beberapa lokasi baris perintah, contohnya melarang meng-index semua file pdf, maupun folder archives, berikut perintahnya:
User-agent: *
Disallow: /*.pdf$
Disallow: /archives*/
File robots.txt harus diletakkan di direktori utama. Contohnya: http://tutorial.inwepo.com/robots.txt
Untuk pengguna Blogger, kamu juga dapat membuat file robots.txt, caranya sebagai berikut:
Masuk ke dashboard --> Settings --> Search Preferences --> Crawlers and indexing, kemudian edit Custom Robots.txt
Cek di sini untuk mengetahui nama-nama robot tersebut, bila kalian ingin membuat larangan dari nama robot tersebut.
Hati-hati dalam membuat perintah di robots.txt, kesalahan perintah bisa berakibat situs kamu tidak ter-indeks oleh mesin pencari.
Posting Komentar