Google memiliki banyak jenis perayap untuk mengindeks konten web misalnya, Googlebot, Googlebot-gambar, Googlebot-berita, Googlebot-Video dll., Tetapi pertama-tama mari kita lihat

Apa itu perayapan web?
Merangkak tidak lain adalah proses sederhana yang menyalin atau Anda dapat mengatakan mengunduh konten situs web kami dan menyimpannya di beberapa komputer / server.
Ini sederhana seperti Anda menyimpan beberapa halaman web di komputer Anda, dan kemudian Anda dapat menemukan halaman-halaman itu dengan tombol pencarian komputer Anda. Tetapi menghemat milyaran data bukan pekerjaan komputer kita, Google memiliki pusat data besar, yang menyimpan ribuan gigabytes (GB) konten setiap hari di pusat data mereka. Di sini kita tidak berbicara tentang Bagaimana Google bekerja.

Bot / spider / crawler utama Google adalah Googlebot, yang merayapi laman web mana pun pertama kali, jika mereka menemukan situs web atau laman web tertentu hanya berisi gambar, maka lain kali gambar-Googlebot akan merayapi laman web tersebut, dan demikian pula, jika Google mengetahuinya halaman berisi video (seperti konten situs YouTube) maka Googlebot-Video akan menangani hal itu di perayapan mendatang dan untuk situs web berita, Googlebot-news akan melakukan tugasnya. Tetapi sebagian besar pertama kalinya, Googlebot akan merayapi situs web atau blog Anda, karena kami memiliki sebagian besar konten teks.

Dan ada beberapa perayap lama yang digunakan Google pada tahun 1998, dan kemudian ditambahkan banyak perayap yang tidak bergantung pada tautan.

Perayap Tua dan Efisien untuk merayapi, laman web penting terlebih dahulu
Perayap Berdasarkan Tautan: Abstrak utama Google tentang perayapan adalah untuk merayapi laman-laman penting terlebih dahulu, jadi bagaimana mereka mengetahui laman-laman penting, jawabannya yang sederhana adalah, melalui backlink, artinya jika saya menautkan ke beberapa halaman web lain di artikel saya, maka itu dianggap sebagai halaman penting sehingga harus diindeks lebih cepat. Tetapi tautan memiliki nilai yang berbeda, jika saya menautkan ke artikel Anda maka itu akan merangkak lebih lambat dibandingkan dengan jika beranda Google tautan ke Anda. Google juga mengikuti tautan internal Anda, artinya jika beranda Anda terdaftar dengan artikel baru di situs web Anda, maka Google akan merayapi URL itu dari beranda Anda. Secara sederhana Google mengikuti tautan untuk merayapi semua halaman web.

Crawler berdasarkan PageRank: PageRank masih digunakan oleh Google secara internal, dan itu masih merupakan faktor penting. Saat kami menautkan ke beberapa halaman web, maka sejumlah PageRank akan meneruskan tautan itu, artinya jika Anda memiliki PageRank yang lebih tinggi, semakin banyak Google akan merayapi halaman web itu. Wikipedia sering merangkak karena PR-nya tinggi (Anda tidak dapat memeriksa PR sekarang, karena PR sudah mati pada bilah alat, dan jika Anda mencoba memeriksa maka Anda akan mendapatkan nilai yang lama / usang).

Kedua perayap ini masih sangat penting, sehingga situs web yang memiliki backlink Baik dan PageRank Tinggi masih dirayapi lebih dulu dan secara otomatis dibandingkan dengan perayap di bawah ini.
Perayap Baru dan Cukup untuk menjelajah, lebih banyak konten web.
Crawler berdasarkan sitemap: Ada banyak halaman web yang tidak akan dijelajahi oleh Google jika mereka hanya mengandalkan tautan, sehingga mereka telah menerapkan crawler sitemap, sehingga webmaster baru dapat mengirimkan sitemap mereka ke konsol pencarian Google, sehingga Google akan menjelajah situs mereka secara teratur, ketika URL baru diterbitkan di sitemap.

Crawler berdasarkan permintaan webmaster: Kami tahu berkali-kali kami mengubah konten kami di situs web, dan kami ingin mengundang Googlebot lagi untuk melihat perubahan itu, jadi sekarang webmaster dapat meminta, mengambil, dan merender alat dari konsol pencarian, untuk meminta perayapan ulang halaman itu lagi. Anda harus perhatikan bahwa perlu waktu, itu murni berdasarkan berapa banyak webmaster yang meminta hal yang sama dalam satu hari ke server Google. Google memproses hanya permintaan terbatas pada satu hari, permintaan lainnya akan diproses pada hari berikutnya dan seterusnya .... Ini berarti URL Anda akan berada di antrian perayap Google, Anda hanya perlu menunggu, itu tidak merangkak dalam hitungan jam.

Perayap berdasarkan halaman lama: Setelah Google menjelajah halaman web apa pun, halaman itu akan disimpan di pusat data mereka, dan mereka akan terus memeriksa halaman lama Anda untuk melihat apakah ada perubahan yang dibuat. Ya, mereka akan menjelajah halaman web yang sama lagi, bahkan jika Anda tidak menautkan / menghapus URL dari mana saja juga tidak termasuk dalam peta situs Anda, tetapi masih akan dirayapi oleh Google, karena Google sudah memiliki informasi tentang URL itu dan mereka ingin periksa apakah halaman itu memperbarui informasi atau tidak.

Crawler berdasarkan popularitas halaman web: Jenis crawler ini juga ada, tetapi saya tidak memiliki informasi lebih lanjut tentang itu. Saya hanya ingin mengatakan, mereka dapat menggunakan informasi produk Google lainnya untuk mengindeks konten semacam itu, misalnya, Riwayat pengguna yang menggunakan Google Chrome, Pengguna yang menggunakan DNS publik Google, Pengguna yang menggunakan Google Cloud dll. Itu hanya asumsi saya, Saya tidak 100% yakin, tetapi jika kontennya menjadi viral atau populer maka Google akan mencari tahu secara otomatis, itulah yang ingin saya katakan.

Hal terpenting tentang Google Crawler
Mesin pencari utama Crawler tidak merayapi seluruh situs web Anda hanya dalam satu waktu karena ada miliar halaman web, Google perlu merayapi mereka secara teratur. Mereka telah mendistribusikan karya-karya mereka dan menambahkan URL Anda pada antrian, sehingga Anda harus menunggu perayapan berikutnya, tidak seperti seluruh situs web Anda dengan 10k halaman akan dirayapi dalam satu hari, itu bisa memakan waktu hingga beberapa minggu, dan jika ini adalah situs web yang sangat besar dan memiliki backlink dan PageRank yang lebih rendah, maka itu bisa memakan waktu hingga berbulan-bulan

Bagaimana cara memblokir perayap Google?
Ada juga beberapa situasi di mana Anda perlu memblokir halaman web atau seluruh direktori, misalnya halaman login, direktori afiliasi / iklan atau semacam halaman demo, jadi ada beberapa teknik untuk memblokir crawler ke direktori tertentu melalui robots.txt, atau ke halaman web tertentu menggunakan meta tag dan x Robots tag.

Tetapi satu hal yang harus Anda perhatikan bahwa, direktori yang dilindungi kata sandi tidak akan merayapi, juga direktori CGI juga tidak akan merayapi oleh Google, karena kadang-kadang itu menghasilkan jumlah halaman yang tak terbatas, yang dapat membuat Googlebot sibuk selama beberapa kali. Jadi secara umum Google telah menyiapkan semacam algoritma untuk menghindari hal seperti itu, itu berarti mereka berhenti merangkak hal seperti itu yang menghasilkan halaman web secara otomatis.

Beberapa catatan di Google Crawler.
Google selalu memeriksa robot.txt Anda terlebih dahulu sebelum mereka mulai merayapi situs web Anda.

Perayapan bukan faktor peringkat, Ini hanya satu tahap dari Google untuk mengetahui tentang konten Anda.

Google tidak meneruskan PageRank ke direktori yang diblokir (melalui robots.txt).

Google tidak akan melihat meta tag Anda seperti noindex, nofollow jika diblokir oleh robots.txt