Wednesday, August 21, 2019

Cara Mengatur Robot.txt Dan Tag Tajuk Khusus Di Blogger

Cara Mengatur Robot.txt Dan Tag Tajuk Khusus Di Blogger dengan aman - dengan cara setting robot.txt khusus dan tag tajuk khusus pada blog supaya aman blogger kita dari crawling dan menjadikan lebih seo friendly terhadap search engines.

Cara Setting Robots.txt dan Tag Tajuk Robot Khusus yang Aman di Blogger - Konfigurasi pengaturan pada Robot.txt dan Tag Tajuk Robot Khusus atau Tag Cara mengatur robots.txt dan custom robots header tags (tag tajuk robot khusus) di Blogger (Blogspot) agar SEO friendly dan artikel cepat terindex.

File robots.txt ada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir (atau mengizinkan) akses crawler tertentu ke jalur file tertentu di situs tersebut.
Cara Mengatur Robot txt Dan Tag Tajuk Khusus Di Blogger
Cara Mengatur Robot.txt Dan Tag Tajuk Khusus Di Blogger
Berikut adalah sebuah file robots.txt sederhana yang memuat dua aturan beserta penjelasannya:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/
# Group 2
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml
Penjelasan:
Agen pengguna yang disebut crawler "Googlebot" tidak boleh meng-crawl folder http://example.com/nogooglebot/ atau subdirektori mana pun.
Semua agen pengguna lainnya dapat mengakses situs secara keseluruhan. (Hal ini bisa dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsi.)
File peta situs untuk situs berada di http://www.example.com/sitemap.xml

Panduan robots.txt dasar
Berikut adalah beberapa panduan dasar untuk file robots.txt. Sebaiknya baca sintaks lengkap file robots.txt karena sintaks robots.txt memiliki beberapa perilaku yang hampir tidak terlihat yang harus Anda pahami.

Format dan lokasi
Anda dapat menggunakan hampir semua editor teks untuk membuat file robots.txt. Editor teks dapat membuat file teks UTF-8 standar. Jangan gunakan pengolah kata karena aplikasi tersebut sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak terduga, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler.

Gunakan fitur Penguji robots.txt untuk menulis atau mengedit file robots.txt untuk situs Anda. Fitur ini memungkinkan Anda menguji sintaks dan perilaku terhadap situs Anda.

Aturan format dan lokasi:
  • File harus diberi nama robots.txt
  • Situs hanya boleh memiliki satu file robots.txt.
File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada http://www.example.com/, file robots.txt harus berada di http://www.example.com/robots.txt. File tidak boleh berada di subdirektori (misalnya, di http://example.com/pages/robots.txt). Jika Anda tidak tahu pasti cara mengakses root situs, atau memerlukan izin untuk mengaksesnya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.

File robots.txt dapat diterapkan ke subdomain (misalnya, http://website.example.com/robots.txt) atau port yang tidak standar (misalnya, http://example.com:8181/robots.txt).

Komentar adalah konten apa pun setelah tanda #.

Sintaks
robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Himpunan karakter lain tidak boleh digunakan.
  • File robots.txt terdiri dari satu atau beberapa grup.
  • Setiap grup terdiri dari beberapa aturan atau perintah (petunjuk), satu perintah per baris.
  • Grup memberikan informasi berikut:
  • Untuk siapa grup berlaku (agen pengguna)
  • Direktori atau file mana yang dapat diakses oleh agen, dan/atau
  • Direktori atau file mana yang tidak dapat diakses oleh agen.
Grup diproses dari atas ke bawah, dan sebuah agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu aturan pertama dan paling spesifik yang cocok dengan agen pengguna tertentu.

Asumsi defaultnya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan Disallow:.

Aturan bersifat peka terhadap huruf besar dan kecil. Misalnya, Disallow: /file.asp berlaku untuk http://www.example.com/file.asp, namun tidak berlaku untuk http://www.example.com/FILE.asp.

Perintah berikut digunakan dalam file robots.txt:
User-agent: [Wajib, satu atau lebih untuk setiap grup] Nama robot mesin telusur (software web crawler) tempat aturan diterapkan. Ini adalah baris pertama untuk aturan apa pun. Sebagian besar nama agen pengguna Google tercantum di Database Robot Web atau di Daftar agen pengguna Google. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur. Penggunaan tanda bintang (*) seperti dalam contoh di bawah akan mencocokkan dengan semua crawler kecuali beberapa crawler AdsBot, yang harus dinamai secara eksplisit. (Lihat daftar nama crawler Google.) Contoh:

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all but AdsBot crawlers
User-agent: *
Disallow: /
Disallow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur.

Allow: [Minimal satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang boleh di-crawl oleh agen pengguna yang disebutkan. Aturan ini digunakan untuk mengganti Disallow guna mengizinkan crawling subdirektori atau halaman pada direktori yang dilarang. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur.

Sitemap: [Opsional, nol atau beberapa per file] Lokasi peta situs untuk situs ini. Harus berupa URL yang sepenuhnya memenuhi syarat; Google tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari lebih lanjut peta situs. Contoh:
Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Aturan lain akan diabaikan.

Contoh file lainnya
File robots.txt terdiri dari satu atau beberapa grup, yang masing-masing diawali dengan baris User-agent yang menentukan target dari grup tersebut. Berikut adalah sebuah file dengan dua grup; komentar inline menjelaskan setiap grup:
# Block googlebot from example.com/directory1/... and example.com/directory2/...
# but allow access to directory2/subdirectory1/...
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/
# Block the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Sintaks robots.txt lengkap

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:
AturanContoh
Larang crawling keseluruhan situs. Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun belum di-crawl. Catatan: aturan ini tidak cocok dengan berbagai crawler AdsBot, yang harus disebutkan secara eksplisit.
User-agent: *
Disallow: /
Larang crawl direktori dan kontennya dengan garis miring ke depan setelah nama direktori. Perlu diingat bahwa Anda seharusnya tidak menggunakan robots.txt untuk memblokir akses ke konten pribadi: sebagai gantinya, gunakan autentikasi yang tepat. URL yang dilarang oleh file robots.txt masih dapat diindeks tanpa di-crawl, dan file robots.txt dapat dilihat oleh siapa saja yang berpotensi mengungkap lokasi konten pribadi Anda.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Izinkan akses ke sebuah crawler
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Izinkan akses ke semua kecuali sebuah crawler
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Larang crawling sebuah halaman web dengan mencantumkan halaman tersebut setelah garis miring:
User-agent: *
Disallow: /private_file.html
Blokir gambar tertentu dari Google Gambar:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Blokir semua gambar di situs dari Google Gambar:
User-agent: Googlebot-Image
Disallow: /
Larang crawling file jenis tertentu (misalnya .gif):
User-agent: Googlebot
Disallow: /*.gif$
Larang crawl situs secara keseluruhan, namun tampilkan iklan AdSense di halaman tersebut, melarang semua crawler web selain Mediapartners-Google. Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, namun crawler web Mediapartners-Google tetap dapat menganalisisnya untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Cocokkan URL yang diakhiri dengan string tertentu, menggunakan $. Misalnya, kode contoh untuk memblokir URL apa pun yang diakhiri dengan .xls:
User-agent: Googlebot
Disallow: /*.xls$

I.Cara Menyetel ulang dan setting pada tag tajuk khusus dan robot txt agar seo friendly
Cara Mengatur Robot.txt Dan Tag Tajuk Khusus Di Blogger
Seperti tampilan gambar diatas adalah pengaturan terbaik untuk bagian tag tajuk khusus pada blogger dan untuk bagian robot.txt khusus silahkan aktifkan dan pasang kode seperti dibawah ini.
User-agent: *
Allow: /
Disallow: /search
Sitemap: https://www.blogkamu.com/sitemap.xml
Dan bagi anda yang ingin blockir atau disallow bagian url situs tidak ingin tampil agar lebih seo friendly silahkan dengan memasang kode di bawah ke bagian robot,txt khusus pada blogger.
User-agent: *
Allow: /
Disallow: /search
Disallow: /p/kontak-lama.html
Disallow: /2009/01/test-postingan-pertama.html
Sitemap: https://www.blogkamu.com/sitemap.xml
II.Kenapa arsip atau achive atau arsip dan pencarian atau search tidak boleh dirayapi ?
karena kedua link pada halaman di blog mengandung URL yang sama pada bagian depan dan harus segera memperbaiki.

Nah itulah artikel saya hari mengenai Cara Mengatur Robot.txt Dan Tag Tajuk Khusus Di Blogger semoga dengan adanya artikel ini bisa bermanfaat,sekian dan terimakasih


EmoticonEmoticon