Cara menggunakan Robot.txt paling efektif

Mungkin bagi blogger veteran sudah Khatam mengenai Robot.txt namun bagi blogger pemula pada umumnya tidak tau apa itu robot.txt , robot.txt juga merupakan salahsatu dari banyaknya fitur yg disediakan oleh mesin telusur dan fitur ini pada dasarnya berfungsi sebagai pengaman perayapan artikel kita. Jadi saya kali ini akan memberikan sdikit penjelasan mengenai robot.txt supaya kita bisa memanfaatkan fitur yg disediakan.

Kita bisa batasi perayapan jika tidak diperlukan dengan robots.txt

File "robots.txt" memberi tahu mesin telusur apakah dapat mengakses kemudian merayapi bagian situs Anda (1). File ini, yang harus dinamai "robots.txt", ditempatkan di direktori akar situs Anda (2).

User-agent: *
Disallow: /gambar/
Disallow: /cari

(1) Semua bot mesin telusur yang patuh (ditandai dengan simbol pengganti *) seharusnya tidak mengakses dan merayapi konten dengan /images/ atau URL apa pun yang jalurnya dimulai dengan /search.

Cara menggunakan robot.txt paling efektif
(2) Alamat file robots.txt kita.

Anda mungkin tidak ingin laman tertentu dari situs Anda dirayapi karena laman tersebut mungkin tidak berguna bagi pengguna atau ada kesalahan/error  yang belum ditemukan solusinya agar jangan ditemukan sebagai bagian dari hasil mesin telusur, karena jikan blog anda merupakan blog Besar mungkin akan terjadi beberapa hal yang tidak diinginkan dan saat itulah fitur ini akan terpakai.  Jika Anda ingin mencegah mesin telusur merayapi laman Anda, Alat Webmaster Google memiliki pembuat robots.txt untuk membantu Anda membuat file ini. Perhatikan bahwa jika situs Anda menggunakan subdomain dan Anda ingin laman tertentu tidak dirayapi pada subdomain tertentu, Anda harus membuat file robots.txt terpisah untuk subdomain tersebut. Untuk informasi selengkapnya tentang robots. txt, sebaiknya Anda membaca panduan Pusat Bantuan Webmaster tentang menggunakan file robots.txt ini.

Selalu berhati-hatilah saat mengelola informasi mana yang benar-benar ingin dirayapi dan mana yang tidak ingin dirayapi!

Terdapat beberapa cara lain untuk mencegah konten muncul di hasil penelusuran, seperti menambah "NONINDEX" ke tag meta robots Anda, menggunakan .htaccess pada direktori yang dilindungi kata sandi, dan menggunakan Alat Webmaster Google untuk menghapus konten yang telah dirayapi.
Gunakan metode yang lebih aman untuk konten yang sensitive
Jangan merasa aman begitu saja saat menggunakan robots.txt untuk mencekal materi yang sensitif atau rahasia. Salah satu alasan adalah mesin pencari masih dapat memberi referensi URL yang Anda blokir (hanya menunjukkan URL, tidak ada judul atau snippet) jika ternyata ada tautan ke URL itu di Internet (seperti catatan perujuk). Tidak hanya itu, mesin telusur yang tidak patuh atau sembarangan yang tidak mengakui Robots Exclusion Standard dapat mengabaikan instruksi dari robots.txt Anda. Terakhir, pengguna yang ingin tahu dapat memeriksa direktori atau subdirektori pada robots.txt Anda dan menebak URL dari konten yang Anda tidak ingin perlihatkan. Mengenksipsi konten atau melindunginya dengan kata sandi dengan .htaccess merupakan alternatif yang lebih aman.
Hindari :
1. memungkinkan laman mirip hasil penelusuran untuk dirayapi   -  pengguna tidak suka meninggalkan satu laman hasil penelusuran dan membuka laman hasil penelusuran lain yang tidak menambahkan nilai yang signifikan bagi mereka.
2. membiarkan terbentuknya URL sebagai hasil dari layanan proxy untuk dirayapi.


Glosarium:
1. Standar Pengecualian Robot (Robots Exclusion Standard) Sebuah konvensi untuk mencegah perayap/spider web yang bekerja sama, misalnya Googlebot, mengakses semua atau sebagian situs web yang dapat dilihat oleh publik.
2. Layanan proxy Sebuah komputer yang mengganti sambungan jika ada jaringan internal dan jaringan eksternal yang tersambung, atau perangkat lunak yang memiliki fungsi untuk tujuan ini.

Share this

Related Posts

Previous
Next Post »

7 comments

comments
December 27, 2015 at 12:25 AM delete

masih ga ngerti gan, jadi robot.txt nya ditaroh dimana ya?

Reply
avatar
December 27, 2015 at 2:46 PM delete

mantap gan infonya.. tambah informasi lagi nih

Reply
avatar
December 27, 2015 at 4:46 PM delete

makasih ya gan triknya sangat membantu

Reply
avatar
December 29, 2015 at 3:06 AM delete

Ditaruh di artikel yg tidak ingin di rayapi search engine gan. :D

Reply
avatar