Prinsip cara kerja Robots
Ketika robot search engine menelusuri sebuah website, mereka memeriksa apakah ada file yang ditujukan untuk mereka yang bernama “Robots.txt”. Kalau ya, mereka akan memeriksa terlebih dahulu file tersebut dan kondisi apa saja yang telah ditetapkan di sana untuk mereka patuhi. Kalau tidak ada, mereka langsung pergi ke halaman-halaman yang ada dan bisa mereka telusuri dan kemudian memeriksa bagian header. Jika ada robots meta tag, mereka akan menjalankan perintah yang dituliskan di sana. Jika tidak, mereka akan melanjutkan tugas mereka seperti biasa.
Jadi bisa dikatakan bahwa Robots.txt adalah file yang memberikan perintah secara global untuk sebuah situs, sedangkan robots meta tag adalah sedikit perintah melalui coding secara lokal untuk sebuah halaman di dalam sebuah situs.
Mungkin terkesan membingungkan tapi sebenarnya idenya sangatlah simple.
Bentuk dan cara pakai Robots.txt
Robots.txt adalah file dengan extension .txt yang biasanya diupload ke root folder sebuah situs. Berikut adalah tampilan root folder untuk blog ini melalui FTP:
Isi dari file itu sendiri sangatlah simple karena hanya berupa perintah-perintah dengan tujuan untuk memblokir halaman apa dari robot search engine yang mana. Syntax / bentuk penulisannya juga sangat mudah. Contoh:
User-agent: googlebot
Disallow: /
User-agent adalah nama variable untuk robot search engine. Disallow adalah perintah untuk memblokir sebuah halaman / file dari search engine yang ditetapkan di variable User-agent.
Jadi perintah di atas berarti: blokir semua halaman dari googlebot (‘/’ menunjukkan level paling atas dari sebuah situs).
User-agent: googlebot-image
Disallow: /images/
Perintah di atas berarti: blokir semua halaman / file di dalam folder images
User-agent: robots
Disallow: /contoh/*.jpg
User-agent: Yahoo-Test
Disallow: /hahahihi.html
Perintah di atas ditujukan untuk 2 pihak:
- untuk semua robot: blokir semua file dengan extension .jpg (gambar) dari folder contoh
- untuk yahoo bot: blokir halaman dengan nama hahahihi
Bentuk dan cara pakai robots meta tag
Bentuknya mirip seperti meta tag lainnya dan berlokasi di bagian header setiap halaman:
Syntaxnya seperti yang kamu lihat:
meta name="" content=""
Yang harus kamu lakukan hanyalah menulisnya sendiri ke dalam bagian header dari coding halaman kamu. Sangat mudah!
Robots meta tag: command / perintah yang paling berguna
- noindex: halaman yang mendapat tag “noindex” tidak akan dimasukkan ke dalam index search engine
- nofollow: semua link di dalam halaman yang mendapat tag “nofollow” akan diperlakukan sama dengan jika mereka dipasang tag rel=”nofollow”.
- noydir: mesin pencari menggunakan beberapa sumber untuk ditampilkan sebagai deskripsi / sinopsis di bawah title di halaman hasil cari, salah satunya adalah dari Yahoo! Directory. Jika kamu memasukkan situs kamu ke direktori online tersebut, halaman yang mendapat tag noydir tidak akan mengambil deskripsi yang telah ditetapkan di sana
- noodp: open directory (yang paling terkenal adalah dmoz.org) juga sebuah sumber deskripsi untuk ditampilkan di halaman hasil cari. Jika kamu memasukkan situs kamu ke direktori online tersebut, halaman yang mendapat tag noodp tidak akan mengambil deskripsi yang telah ditetapkan di sana
- noarchive: robot mesin pencari tidak akan men-cache halaman dengan tag ini. Dengan demikian, halaman ini juga tidak akan masuk ke dalam catatan arsip online seperti archive.org
Ketika robot mesin pencari datang lagi ke situs kamu dan melihat perintah noindex baru yang kamu berikan di meta tag halamannya, halaman tersebut akan ditarik dari index search engine sepenuhnya.
TIPS: selain memiliki fungsi yang sedikit berbeda, kamu juga sebaiknya menggunakan robots.txt dan robots meta tag secara bersamaan untuk lebih amannya. Terkadang ada search engine yang tidak melihat robots meta tag tapi melihat robots.txt dan juga sebaliknya
Manfaat menggunakan robots
Tujuan utama menggunakan robots.txt adalah untuk mengatur jalan kerja robot crawler untuk tidak melirik halaman-halaman yang berpotensi dinilai kembar. Tapi teknik ini juga dapat digunakan untuk beberapa hal lainnya, seperti:- mencegah search engine mencatat halaman-halaman yang memiliki informasi pribadi sehingga informasi tersebut tidak bisa didapat sebagai hasil cari.
- Halaman-halaman yang bersifat internal juga biasanya tidak diindex. Contohnya: agak kurang masuk akal kalau halaman contact us dicatat di search engine bukan? Contact page ditujukan untuk menjadi contact point bagi orang-orang yang memang tertarik dengan situs tersebut. Biasanya orang-orang tersebut sudah menghabiskan beberapa waktu di dalam situsnya dan barulah mereka ingin untuk berhubungan lebih lanjut.
- file-file yang bersifat internal seperti file-file wordpress yang terdapat di robots.txt blog ini.
Thanks friend tak cobanya... Bisa dengan google wobmaster tools nggak ya..?
BalasHapuswah mantep nih, dr tadi aq googling tentang Robots.txt & Robots Meta Tag, akhirnya baru ketemu yg lengkap & mantabz disini, makasih..
BalasHapusTerima kasih sebelumnya untuk ruang komentarnya.
BalasHapusTerima kasih untuk artikel Robots.txt & Robots Meta,menjadi pengetahuan baru,
Salam, http://www.hawila-organizer.com
Kok kelihatanya rada' susah ya....
BalasHapusMantap bro infonya, lsg meluncur ke tkp....
BalasHapustengkiu bro
BalasHapusTA gan, baru belajar ngeBLOG ni gan... jd mash lom faham bangettt.. tp tenkyu paling tidk ada dikit gambaran sekarang.
BalasHapusbisa...bisa....
BalasHapusboleh di coba...
Huhuhu umi tak faham .. uuuu
BalasHapusFriend bagaimana cara menggunakan masing masing robot search engine
BalasHapusInfo yang bermanfaat
BalasHapustreimaksih mas infonya, walau masih bingung nich...:)
BalasHapusbingung,gimana cara menggunakanya?
BalasHapusmantap mas..bermanfaat..tadinya kirain robots.txt itu otomatis ada..ternyata harus manual upload yaa. bener gak?
BalasHapusTerima kasih. Lumayan berat bagi pemula seperti saya. Lanjutkan....
BalasHapus