Robot.txt adalah standar pengecualian robot.
Robot.txt juga dikenal sebagai protokol pengecualian robot atau protokol robots.txt.
Robot.txt adalah ketentuan untuk mencegah web crawler dan robot web lain, dari pengaksesan seluruh atau sebagian situs web.
Robot ini berguna untuk mengontrol halaman-halaman tertentu agar tidak diindeks oleh spider mesin pencari, atau situs jejaring sosial seperti Facebook dan Twitter. (Wikipedia).
Di blog (Blogger/Blogspot), robot.txt ada di dashboard bloggger bagian bawah Setting paling akhir. Anda bisa membiarkannya (disable), bisa juga melakukan setting dengan edit / enable dengan cara di bawah ini.
Cara Setting Robot.txt Blog Termudah
1. Setting > Search Preferences > Crawlers and indexing > Edit2. Custom robot.txt? Klik "Edit"
Copas kode robot.txt berikut ini:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://cara-jawa.blogspot.com/sitemap.xml
Ganti alamat blognya dengan milik Anda.
ARTI KODE:
- User-agent: Mediapartners-Google (menandakan bahwa blog ini adalah partner dari Google)
- Disallow: Yang tidak diperbolehkan tidak ada alias harus ada.
- User-agent: * Semua robot Search Engine/mesin pencari
- Disallow: /search Tidak diperbolehkan merayapi folder search
- Allow: / Mengizinkan semua halaman untuk dirayapi, kecuali yang tertulis pada Disallow di atas. Tanda / kurang lebih artinya nama blog
- Sitemap:http://cara-jawa.blogspot.com/sitemap.xml sitemap blog.
3. Custom robots header tags? Klik Edit
Lakukan Setting sebagai berikut:
- Homepage/Beranda: Centang > all
- Archieve and Search pages/Laman Arsip dan Penelusiran: Centang > noindex, nofollow, noarchieve
- Default for Posts and Pages/Default untuk Post dalm Laman : Centang > all