Fungsi dan Cara Pakai Robots.txt & Robots Meta Tag

Setiap mesin pencari memiliki robot-robotnya masing-masing yang bertugas untuk menelusuri halaman-halaman yang ada di web dan kemudian memasukkannya ke dalam index mereka. Robots.txt dan robots meta tag dibuat dan ditujukan untuk para robot tersebut. Keduanya memiliki fungsi yang sama, hanya bentuknya saja yang berbeda. robots.txt adalah sebuah file text yang berdiri sendiri, sedangkan robots meta tag terdapat di bagian header dari source code halaman itu sendiri.

Prinsip cara kerja Robots
Ketika robot search engine menelusuri sebuah website, mereka memeriksa apakah ada file yang ditujukan untuk mereka yang bernama “Robots.txt”. Kalau ya, mereka akan memeriksa terlebih dahulu file tersebut dan kondisi apa saja yang telah ditetapkan di sana untuk mereka patuhi. Kalau tidak ada, mereka langsung pergi ke halaman-halaman yang ada dan bisa mereka telusuri dan kemudian memeriksa bagian header. Jika ada robots meta tag, mereka akan menjalankan perintah yang dituliskan di sana. Jika tidak, mereka akan melanjutkan tugas mereka seperti biasa.
Jadi bisa dikatakan bahwa Robots.txt adalah file yang memberikan perintah secara global untuk sebuah situs, sedangkan robots meta tag adalah sedikit perintah melalui coding secara lokal untuk sebuah halaman di dalam sebuah situs.
Mungkin terkesan membingungkan tapi sebenarnya idenya sangatlah simple.

Bentuk dan cara pakai Robots.txt
Robots.txt adalah file dengan extension .txt yang biasanya diupload ke root folder sebuah situs. Berikut adalah tampilan root folder untuk blog ini melalui FTP:

Isi dari file itu sendiri sangatlah simple karena hanya berupa perintah-perintah dengan tujuan untuk memblokir halaman apa dari robot search engine yang mana. Syntax / bentuk penulisannya juga sangat mudah. Contoh:
User-agent: googlebot
Disallow: /
User-agent adalah nama variable untuk robot search engine. Disallow adalah perintah untuk memblokir sebuah halaman / file dari search engine yang ditetapkan di variable User-agent.
Jadi perintah di atas berarti: blokir semua halaman dari googlebot (‘/’ menunjukkan level paling atas dari sebuah situs).
User-agent: googlebot-image
Disallow: /images/
Perintah di atas berarti: blokir semua halaman / file di dalam folder images
User-agent: robots
Disallow: /contoh/*.jpg
User-agent: Yahoo-Test
Disallow: /hahahihi.html

Perintah di atas ditujukan untuk 2 pihak:

untuk semua robot: blokir semua file dengan extension .jpg (gambar) dari folder contoh
untuk yahoo bot: blokir halaman dengan nama hahahihi

CATATAN: daftar lengkap User-agent bisa kamu lihat di user-agents.org

Bentuk dan cara pakai robots meta tag
Bentuknya mirip seperti meta tag lainnya dan berlokasi di bagian header setiap halaman:

Syntaxnya seperti yang kamu lihat:
meta name="" content=""
Yang harus kamu lakukan hanyalah menulisnya sendiri ke dalam bagian header dari coding halaman kamu. Sangat mudah!

Robots meta tag: command / perintah yang paling berguna

noindex: halaman yang mendapat tag “noindex” tidak akan dimasukkan ke dalam index search engine
nofollow: semua link di dalam halaman yang mendapat tag “nofollow” akan diperlakukan sama dengan jika mereka dipasang tag rel=”nofollow”.
noydir: mesin pencari menggunakan beberapa sumber untuk ditampilkan sebagai deskripsi / sinopsis di bawah title di halaman hasil cari, salah satunya adalah dari Yahoo! Directory. Jika kamu memasukkan situs kamu ke direktori online tersebut, halaman yang mendapat tag noydir tidak akan mengambil deskripsi yang telah ditetapkan di sana
noodp: open directory (yang paling terkenal adalah dmoz.org) juga sebuah sumber deskripsi untuk ditampilkan di halaman hasil cari. Jika kamu memasukkan situs kamu ke direktori online tersebut, halaman yang mendapat tag noodp tidak akan mengambil deskripsi yang telah ditetapkan di sana
noarchive: robot mesin pencari tidak akan men-cache halaman dengan tag ini. Dengan demikian, halaman ini juga tidak akan masuk ke dalam catatan arsip online seperti archive.org

“Bagaimana misalkan kalau “noindex” dipasang setelah halamannya terlanjur terindex?”
Ketika robot mesin pencari datang lagi ke situs kamu dan melihat perintah noindex baru yang kamu berikan di meta tag halamannya, halaman tersebut akan ditarik dari index search engine sepenuhnya.

TIPS: selain memiliki fungsi yang sedikit berbeda, kamu juga sebaiknya menggunakan robots.txt dan robots meta tag secara bersamaan untuk lebih amannya. Terkadang ada search engine yang tidak melihat robots meta tag tapi melihat robots.txt dan juga sebaliknya

Manfaat menggunakan robots

Tujuan utama menggunakan robots.txt adalah untuk mengatur jalan kerja robot crawler untuk tidak melirik halaman-halaman yang berpotensi dinilai kembar. Tapi teknik ini juga dapat digunakan untuk beberapa hal lainnya, seperti:

mencegah search engine mencatat halaman-halaman yang memiliki informasi pribadi sehingga informasi tersebut tidak bisa didapat sebagai hasil cari.
Halaman-halaman yang bersifat internal juga biasanya tidak diindex. Contohnya: agak kurang masuk akal kalau halaman contact us dicatat di search engine bukan? Contact page ditujukan untuk menjadi contact point bagi orang-orang yang memang tertarik dengan situs tersebut. Biasanya orang-orang tersebut sudah menghabiskan beberapa waktu di dalam situsnya dan barulah mereka ingin untuk berhubungan lebih lanjut.
file-file yang bersifat internal seperti file-file wordpress yang terdapat di robots.txt blog ini.

Ini adalah teknik yang sangat mudah untuk dilakukan, tidak menghabiskan waktu yang banyak, tapi sangat bermanfaat untuk menetapkan kuasa atas visibilitas situs kita di search engine.