Cara Mesin Google Perayap Situs Google Mencari di Situs mengumpulkan indeks informasi dari ratusan miliar Google Mencari Situs halaman web google melakukan Mencari Pada Situs anda dan mengaturnya dalam indeks ( index ) Pencarian atau mesin google merayapi atau perayap dari google untuk pengindeksan di situs milik anda.
Cara Mesin Google Mencari Situs Anda
Dasar-dasar Pencarian
Proses perayapan dimulai dengan daftar alamat web dari perayapan dan peta situs sebelumnya yang disediakan oleh pemilik situs web. Saat perayap google mengunjungi situs web ini, mereka menggunakan tautan di situs tersebut untuk menemukan halaman lain. Perangkat lunak ini memberikan perhatian khusus pada situs baru, perubahan pada situs yang ada, dan tautan mati. Program komputer menentukan situs mana yang akan dirayapi, seberapa sering dan berapa banyak halaman yang harus diambil dari setiap situs.
perayap google mengunjungi situs web
google menawarkan Alat Webmaster untuk memberikan pilihan terperinci kepada pemilik situs tentang cara Google merayapi situs mereka: mereka dapat memberikan instruksi terperinci tentang cara memproses halaman di situs mereka, dapat meminta pengacakan ulang atau dapat memilih keluar dari merangkak sama sekali menggunakan file yang disebut "robots.txt ” Google tidak pernah menerima pembayaran untuk menjelajah situs lebih sering - google menyediakan alat yang sama untuk semua situs web untuk memastikan hasil terbaik bagi pengguna google.

Menemukan informasi dengan mengcrawling
Web seperti perpustakaan yang terus berkembang dengan miliaran buku dan tidak ada sistem pengarsipan pusat. google menggunakan perangkat lunak yang dikenal sebagai perayap web untuk menemukan halaman web yang tersedia untuk umum. Crawler melihat halaman web dan mengikuti tautan pada halaman-halaman itu, sama seperti Anda jika Anda meramban konten di web. Mereka beralih dari tautan ke tautan dan membawa data tentang laman web itu kembali ke server Google.

Pengorganisasian informasi dengan pengindeksan
Ketika crawler menemukan halaman web, sistem google membuat konten halaman, seperti halnya browser. google mencatat sinyal utama - dari kata kunci hingga kesegaran situs web - dan google melacak semuanya dalam indeks Pencarian.

Indeks Google Search berisi ratusan miliar halaman web dan berukuran lebih dari 100.000.000 gigabytes. Ini seperti indeks di bagian belakang buku - dengan entri untuk setiap kata yang terlihat di setiap halaman web yang google indeks. Saat google mengindeks halaman web, google menambahkannya ke entri untuk semua kata yang dikandungnya.

Dengan Grafik Pengetahuan, google terus melampaui pencocokan kata kunci untuk lebih memahami orang, tempat, dan hal-hal yang Anda pedulikan. Untuk melakukan ini, google tidak hanya mengatur informasi tentang halaman web tetapi juga tipe informasi lainnya. Hari ini, Google Search dapat membantu Anda mencari teks dari jutaan buku dari perpustakaan utama, menemukan waktu perjalanan dari agen angkutan umum lokal Anda, atau membantu Anda menavigasi data dari sumber publik seperti Bank Dunia.

Meta tag tag dan spesifikasi header HTTP X-Robots-Tag
Abstrak
Dokumen ini merinci bagaimana pengaturan pengindeksan tingkat halaman memungkinkan Anda untuk mengontrol bagaimana Google membuat konten tersedia melalui hasil pencarian. Anda dapat menentukan ini dengan memasukkan tag meta pada (X) halaman HTML atau di header HTTP.

Ingatlah bahwa pengaturan ini dapat dibaca dan diikuti hanya jika crawler diizinkan untuk mengakses halaman yang menyertakan pengaturan ini.

Tag atau arahan <meta name = "robots" content = "noindex" /> berlaku untuk perayap mesin pencari. Untuk memblokir perayap non-pencarian, seperti AdsBot-Google, Anda mungkin perlu menambahkan arahan yang ditargetkan ke perayap tertentu (misalnya, <meta name = "AdsBot-Google" content = "noindex" />).

Menggunakan tag meta robot
Tag meta robot memungkinkan Anda memanfaatkan pendekatan khusus halaman untuk mengontrol bagaimana setiap halaman harus diindeks dan disajikan kepada pengguna dalam hasil pencarian. Tempatkan tag meta robot di bagian <head> pada halaman tertentu, seperti ini:
  • <! DOCTYPE html>
  • <html> <head>
  • <meta name = "robots" content = "noindex" />
  • (...)
  • </head>
  • <body> (...) </body>
  • </html>
Tag meta robot dalam contoh di atas menginstruksikan sebagian besar mesin pencari untuk tidak menampilkan halaman dalam hasil pencarian. Nilai atribut nama (robot) menentukan bahwa arahan berlaku untuk semua perayap. Untuk mengatasi perayap tertentu, ganti nilai robot dari atribut nama dengan nama perayap yang Anda tangani. Perayap khusus juga dikenal sebagai agen-pengguna (crawler menggunakan agen-penggunanya untuk meminta halaman.) Perayap web standar Google memiliki nama agen-pengguna Googlebot. Untuk mencegah Googlebot dari merayapi halaman Anda, perbarui tag sebagai berikut:
  • <meta name = "googlebot" content = "noindex" />
Tag ini sekarang menginstruksikan Google (tetapi tidak ada mesin pencari lainnya) untuk tidak menampilkan halaman ini dalam hasil pencarian webnya. Atribut nama dan konten tidak peka huruf besar-kecil.

Mesin pencari mungkin memiliki crawler yang berbeda untuk properti atau tujuan yang berbeda. Lihat daftar lengkap perayap Google. Misalnya, untuk menampilkan halaman di hasil pencarian web Google, tetapi tidak di Google News, gunakan tag meta berikut:
  • <meta name = "googlebot-news" content = "noindex" />
Jika Anda perlu menentukan beberapa perayap secara individual, boleh saja menggunakan beberapa tag meta robot:
  • <meta name = "googlebot" content = "noindex">
  • <meta name = "googlebot-news" content = "nosnippet">
Jika arahan yang bersaing ditemui oleh perayap google, google akan menggunakan arahan paling ketat yang google temukan.

Menggunakan header HTTP X-Robots-Tag
X-Robots-Tag dapat digunakan sebagai elemen dari respons tajuk HTTP untuk URL yang diberikan. Arahan apa pun yang dapat digunakan dalam tag meta robot juga dapat ditentukan sebagai X-Robots-Tag. Berikut adalah contoh respons HTTP dengan X-Robots-Tag yang memerintahkan crawler untuk tidak mengindeks halaman:
  • HTTP / 1.1 200 OK
  • Tanggal: Sel, 25 Mei 2010 21:42:43 GMT
  • (...)
  • X-Robots-Tag: noindex
  • (...)
Beberapa header X-Robots-Tag dapat digabungkan dalam respons HTTP, atau Anda dapat menentukan daftar arahan yang dipisahkan koma. Berikut adalah contoh respons tajuk HTTP yang memiliki Tag-X-Robots noarchive yang digabungkan dengan tag-X yang tidak tersedia.
  • HTTP / 1.1 200 OK
  • Tanggal: Sel, 25 Mei 2010 21:42:43 GMT
  • (...)
  • X-Robots-Tag: noarchive
  • X-Robots-Tag: available_after: 25 Jun 2010 15:00:00 PST
  • (...)
X-Robots-Tag secara opsional dapat menentukan agen-pengguna sebelum arahan. Misalnya, kumpulan header HTTP X-Robots-Tag berikut dapat digunakan untuk memungkinkan menampilkan suatu halaman dalam hasil pencarian untuk mesin pencari yang berbeda:
  • HTTP / 1.1 200 OK
  • Tanggal: Sel, 25 Mei 2010 21:42:43 GMT
  • (...)
  • X-Robots-Tag: googlebot: nofollow
  • X-Robots-Tag: otherbot: noindex, nofollow
  • (...)
Arahan yang ditentukan tanpa agen-pengguna valid untuk semua perayap. Bagian di bawah ini menunjukkan bagaimana menangani arahan gabungan. Baik nama dan nilai yang ditentukan tidak peka huruf besar-kecil.

Arahan pengindeksan & penyajian yang valid
Beberapa arahan lain dapat digunakan untuk mengontrol pengindeksan dan penyajian dengan tag meta robot dan X-Robots-Tag. Setiap nilai mewakili arahan khusus. Tabel berikut menunjukkan semua arahan yang dihormati Google dan artinya. Catatan: ada kemungkinan bahwa arahan ini mungkin tidak diperlakukan sama oleh semua crawler mesin pencari lainnya. Berbagai arahan dapat digabungkan dalam daftar yang dipisahkan koma (lihat di bawah untuk penanganan arahan gabungan). Arahan ini tidak peka terhadap huruf besar-kecil.

Setelah file robots.txt (atau tidak ada file) memberikan izin untuk merayapi halaman, secara default halaman diperlakukan sebagai dapat dirayapi, diindeks, dapat diarsipkan, dan kontennya disetujui untuk digunakan dalam cuplikan yang muncul di hasil pencarian, kecuali izin secara khusus ditolak dalam tag meta robot atau X-Robots-Tag.

Menangani arahan pengindeksan dan penyajian gabungan
Anda dapat membuat instruksi multi-direktif dengan menggabungkan arahan tag meta robots dengan koma. Berikut adalah contoh tag meta robot yang memerintahkan perayap web untuk tidak mengindeks laman dan untuk tidak merayapi salah satu tautan di laman:
  • <meta name = "robots" content = "noindex, nofollow">
Untuk situasi di mana beberapa perayap ditentukan bersama dengan arahan yang berbeda, mesin pencari akan menggunakan jumlah arahan negatif. Sebagai contoh:
  • <meta name = "robots" content = "nofollow">
  • <meta name = "googlebot" content = "noindex">
Halaman yang berisi tag meta ini akan ditafsirkan sebagai memiliki noindex, arahan nofollow saat dirayapi oleh Googlebot.

Implementasi praktis dari X-Robots-Tag dengan Apache
Anda dapat menambahkan X-Robots-Tag ke respons HTTP situs menggunakan file .htaccess dan httpd.conf yang tersedia secara default di server web berbasis Apache. Manfaat menggunakan X-Robots-Tag dengan respons HTTP adalah Anda dapat menentukan arahan perayapan yang diterapkan secara global di seluruh situs. Dukungan ekspresi reguler memungkinkan tingkat fleksibilitas yang tinggi.

Misalnya, untuk menambahkan noindex, nofollow X-Robots-Tag ke respons HTTP untuk semua file .PDF di seluruh situs, tambahkan cuplikan berikut ke root situs .htaccess file atau file httpd.conf:
  • <File ~ "\ .pdf $">
  • Header mengatur X-Robots-Tag "noindex, nofollow"
  • </Files>
Anda dapat menggunakan X-Robots-Tag untuk file non-HTML seperti file gambar di mana penggunaan tag meta robots tidak dimungkinkan. Berikut adalah contoh menambahkan direktif X-Robots-Tag noindex untuk file gambar (.png, .jpeg, .jpg, .gif) di seluruh situs:
  • <File ~ "\. (Png | jpe? G | gif) $">
  • Header mengatur X-Robots-Tag "noindex"
  • </Files>
Menggabungkan perayapan dengan petunjuk pengindeksan / penayangan
Tag meta robot dan header HTTP X-Robots-Tag ditemukan ketika URL dirayapi. Jika halaman tidak diizinkan merangkak melalui file robots.txt, maka informasi apa pun tentang pengindeksan atau arahan penyajian tidak akan ditemukan dan karenanya akan diabaikan. Jika pengindeksan atau penyajian arahan harus diikuti, URL yang berisi arahan tersebut tidak dapat dilarang merangkak.