Dasar-dasar Pencarian
Proses perayapan dimulai dengan daftar alamat web dari perayapan dan peta situs sebelumnya yang disediakan oleh pemilik situs web. Saat perayap google mengunjungi situs web ini, mereka menggunakan tautan di situs tersebut untuk menemukan halaman lain. Perangkat lunak ini memberikan perhatian khusus pada situs baru, perubahan pada situs yang ada, dan tautan mati. Program komputer menentukan situs mana yang akan dirayapi, seberapa sering dan berapa banyak halaman yang harus diambil dari setiap situs.
Proses perayapan dimulai dengan daftar alamat web dari perayapan dan peta situs sebelumnya yang disediakan oleh pemilik situs web. Saat perayap google mengunjungi situs web ini, mereka menggunakan tautan di situs tersebut untuk menemukan halaman lain. Perangkat lunak ini memberikan perhatian khusus pada situs baru, perubahan pada situs yang ada, dan tautan mati. Program komputer menentukan situs mana yang akan dirayapi, seberapa sering dan berapa banyak halaman yang harus diambil dari setiap situs.
google menawarkan Alat Webmaster untuk memberikan pilihan terperinci kepada pemilik situs tentang cara Google merayapi situs mereka: mereka dapat memberikan instruksi terperinci tentang cara memproses halaman di situs mereka, dapat meminta pengacakan ulang atau dapat memilih keluar dari merangkak sama sekali menggunakan file yang disebut "robots.txt ” Google tidak pernah menerima pembayaran untuk menjelajah situs lebih sering - google menyediakan alat yang sama untuk semua situs web untuk memastikan hasil terbaik bagi pengguna google.
Menemukan informasi dengan mengcrawling
Web seperti perpustakaan yang terus berkembang dengan miliaran buku dan tidak ada sistem pengarsipan pusat. google menggunakan perangkat lunak yang dikenal sebagai perayap web untuk menemukan halaman web yang tersedia untuk umum. Crawler melihat halaman web dan mengikuti tautan pada halaman-halaman itu, sama seperti Anda jika Anda meramban konten di web. Mereka beralih dari tautan ke tautan dan membawa data tentang laman web itu kembali ke server Google.
Pengorganisasian informasi dengan pengindeksan
Ketika crawler menemukan halaman web, sistem google membuat konten halaman, seperti halnya browser. google mencatat sinyal utama - dari kata kunci hingga kesegaran situs web - dan google melacak semuanya dalam indeks Pencarian.
Indeks Google Search berisi ratusan miliar halaman web dan berukuran lebih dari 100.000.000 gigabytes. Ini seperti indeks di bagian belakang buku - dengan entri untuk setiap kata yang terlihat di setiap halaman web yang google indeks. Saat google mengindeks halaman web, google menambahkannya ke entri untuk semua kata yang dikandungnya.
Dengan Grafik Pengetahuan, google terus melampaui pencocokan kata kunci untuk lebih memahami orang, tempat, dan hal-hal yang Anda pedulikan. Untuk melakukan ini, google tidak hanya mengatur informasi tentang halaman web tetapi juga tipe informasi lainnya. Hari ini, Google Search dapat membantu Anda mencari teks dari jutaan buku dari perpustakaan utama, menemukan waktu perjalanan dari agen angkutan umum lokal Anda, atau membantu Anda menavigasi data dari sumber publik seperti Bank Dunia.
Dokumen ini merinci bagaimana pengaturan pengindeksan tingkat halaman memungkinkan Anda untuk mengontrol bagaimana Google membuat konten tersedia melalui hasil pencarian. Anda dapat menentukan ini dengan memasukkan tag meta pada (X) halaman HTML atau di header HTTP.
Ingatlah bahwa pengaturan ini dapat dibaca dan diikuti hanya jika crawler diizinkan untuk mengakses halaman yang menyertakan pengaturan ini.
Tag atau arahan <meta name = "robots" content = "noindex" /> berlaku untuk perayap mesin pencari. Untuk memblokir perayap non-pencarian, seperti AdsBot-Google, Anda mungkin perlu menambahkan arahan yang ditargetkan ke perayap tertentu (misalnya, <meta name = "AdsBot-Google" content = "noindex" />).
Menggunakan tag meta robot
Tag meta robot memungkinkan Anda memanfaatkan pendekatan khusus halaman untuk mengontrol bagaimana setiap halaman harus diindeks dan disajikan kepada pengguna dalam hasil pencarian. Tempatkan tag meta robot di bagian <head> pada halaman tertentu, seperti ini:
Mesin pencari mungkin memiliki crawler yang berbeda untuk properti atau tujuan yang berbeda. Lihat daftar lengkap perayap Google. Misalnya, untuk menampilkan halaman di hasil pencarian web Google, tetapi tidak di Google News, gunakan tag meta berikut:
Menggunakan header HTTP X-Robots-Tag
X-Robots-Tag dapat digunakan sebagai elemen dari respons tajuk HTTP untuk URL yang diberikan. Arahan apa pun yang dapat digunakan dalam tag meta robot juga dapat ditentukan sebagai X-Robots-Tag. Berikut adalah contoh respons HTTP dengan X-Robots-Tag yang memerintahkan crawler untuk tidak mengindeks halaman:
Arahan pengindeksan & penyajian yang valid
Beberapa arahan lain dapat digunakan untuk mengontrol pengindeksan dan penyajian dengan tag meta robot dan X-Robots-Tag. Setiap nilai mewakili arahan khusus. Tabel berikut menunjukkan semua arahan yang dihormati Google dan artinya. Catatan: ada kemungkinan bahwa arahan ini mungkin tidak diperlakukan sama oleh semua crawler mesin pencari lainnya. Berbagai arahan dapat digabungkan dalam daftar yang dipisahkan koma (lihat di bawah untuk penanganan arahan gabungan). Arahan ini tidak peka terhadap huruf besar-kecil.
Menemukan informasi dengan mengcrawling
Web seperti perpustakaan yang terus berkembang dengan miliaran buku dan tidak ada sistem pengarsipan pusat. google menggunakan perangkat lunak yang dikenal sebagai perayap web untuk menemukan halaman web yang tersedia untuk umum. Crawler melihat halaman web dan mengikuti tautan pada halaman-halaman itu, sama seperti Anda jika Anda meramban konten di web. Mereka beralih dari tautan ke tautan dan membawa data tentang laman web itu kembali ke server Google.
Pengorganisasian informasi dengan pengindeksan
Ketika crawler menemukan halaman web, sistem google membuat konten halaman, seperti halnya browser. google mencatat sinyal utama - dari kata kunci hingga kesegaran situs web - dan google melacak semuanya dalam indeks Pencarian.
Indeks Google Search berisi ratusan miliar halaman web dan berukuran lebih dari 100.000.000 gigabytes. Ini seperti indeks di bagian belakang buku - dengan entri untuk setiap kata yang terlihat di setiap halaman web yang google indeks. Saat google mengindeks halaman web, google menambahkannya ke entri untuk semua kata yang dikandungnya.
Dengan Grafik Pengetahuan, google terus melampaui pencocokan kata kunci untuk lebih memahami orang, tempat, dan hal-hal yang Anda pedulikan. Untuk melakukan ini, google tidak hanya mengatur informasi tentang halaman web tetapi juga tipe informasi lainnya. Hari ini, Google Search dapat membantu Anda mencari teks dari jutaan buku dari perpustakaan utama, menemukan waktu perjalanan dari agen angkutan umum lokal Anda, atau membantu Anda menavigasi data dari sumber publik seperti Bank Dunia.
Meta tag tag dan spesifikasi header HTTP X-Robots-Tag
AbstrakDokumen ini merinci bagaimana pengaturan pengindeksan tingkat halaman memungkinkan Anda untuk mengontrol bagaimana Google membuat konten tersedia melalui hasil pencarian. Anda dapat menentukan ini dengan memasukkan tag meta pada (X) halaman HTML atau di header HTTP.
Ingatlah bahwa pengaturan ini dapat dibaca dan diikuti hanya jika crawler diizinkan untuk mengakses halaman yang menyertakan pengaturan ini.
Tag atau arahan <meta name = "robots" content = "noindex" /> berlaku untuk perayap mesin pencari. Untuk memblokir perayap non-pencarian, seperti AdsBot-Google, Anda mungkin perlu menambahkan arahan yang ditargetkan ke perayap tertentu (misalnya, <meta name = "AdsBot-Google" content = "noindex" />).
Menggunakan tag meta robot
Tag meta robot memungkinkan Anda memanfaatkan pendekatan khusus halaman untuk mengontrol bagaimana setiap halaman harus diindeks dan disajikan kepada pengguna dalam hasil pencarian. Tempatkan tag meta robot di bagian <head> pada halaman tertentu, seperti ini:
- <! DOCTYPE html>
- <html> <head>
- <meta name = "robots" content = "noindex" />
- (...)
- </head>
- <body> (...) </body>
- </html>
- <meta name = "googlebot" content = "noindex" />
Mesin pencari mungkin memiliki crawler yang berbeda untuk properti atau tujuan yang berbeda. Lihat daftar lengkap perayap Google. Misalnya, untuk menampilkan halaman di hasil pencarian web Google, tetapi tidak di Google News, gunakan tag meta berikut:
- <meta name = "googlebot-news" content = "noindex" />
- <meta name = "googlebot" content = "noindex">
- <meta name = "googlebot-news" content = "nosnippet">
Menggunakan header HTTP X-Robots-Tag
X-Robots-Tag dapat digunakan sebagai elemen dari respons tajuk HTTP untuk URL yang diberikan. Arahan apa pun yang dapat digunakan dalam tag meta robot juga dapat ditentukan sebagai X-Robots-Tag. Berikut adalah contoh respons HTTP dengan X-Robots-Tag yang memerintahkan crawler untuk tidak mengindeks halaman:
- HTTP / 1.1 200 OK
- Tanggal: Sel, 25 Mei 2010 21:42:43 GMT
- (...)
- X-Robots-Tag: noindex
- (...)
- HTTP / 1.1 200 OK
- Tanggal: Sel, 25 Mei 2010 21:42:43 GMT
- (...)
- X-Robots-Tag: noarchive
- X-Robots-Tag: available_after: 25 Jun 2010 15:00:00 PST
- (...)
- HTTP / 1.1 200 OK
- Tanggal: Sel, 25 Mei 2010 21:42:43 GMT
- (...)
- X-Robots-Tag: googlebot: nofollow
- X-Robots-Tag: otherbot: noindex, nofollow
- (...)
Arahan pengindeksan & penyajian yang valid
Beberapa arahan lain dapat digunakan untuk mengontrol pengindeksan dan penyajian dengan tag meta robot dan X-Robots-Tag. Setiap nilai mewakili arahan khusus. Tabel berikut menunjukkan semua arahan yang dihormati Google dan artinya. Catatan: ada kemungkinan bahwa arahan ini mungkin tidak diperlakukan sama oleh semua crawler mesin pencari lainnya. Berbagai arahan dapat digabungkan dalam daftar yang dipisahkan koma (lihat di bawah untuk penanganan arahan gabungan). Arahan ini tidak peka terhadap huruf besar-kecil.
Setelah file robots.txt (atau tidak ada file) memberikan izin untuk merayapi halaman, secara default halaman diperlakukan sebagai dapat dirayapi, diindeks, dapat diarsipkan, dan kontennya disetujui untuk digunakan dalam cuplikan yang muncul di hasil pencarian, kecuali izin secara khusus ditolak dalam tag meta robot atau X-Robots-Tag.
Menangani arahan pengindeksan dan penyajian gabungan
Anda dapat membuat instruksi multi-direktif dengan menggabungkan arahan tag meta robots dengan koma. Berikut adalah contoh tag meta robot yang memerintahkan perayap web untuk tidak mengindeks laman dan untuk tidak merayapi salah satu tautan di laman:
Implementasi praktis dari X-Robots-Tag dengan Apache
Anda dapat menambahkan X-Robots-Tag ke respons HTTP situs menggunakan file .htaccess dan httpd.conf yang tersedia secara default di server web berbasis Apache. Manfaat menggunakan X-Robots-Tag dengan respons HTTP adalah Anda dapat menentukan arahan perayapan yang diterapkan secara global di seluruh situs. Dukungan ekspresi reguler memungkinkan tingkat fleksibilitas yang tinggi.
Misalnya, untuk menambahkan noindex, nofollow X-Robots-Tag ke respons HTTP untuk semua file .PDF di seluruh situs, tambahkan cuplikan berikut ke root situs .htaccess file atau file httpd.conf:
Menangani arahan pengindeksan dan penyajian gabungan
Anda dapat membuat instruksi multi-direktif dengan menggabungkan arahan tag meta robots dengan koma. Berikut adalah contoh tag meta robot yang memerintahkan perayap web untuk tidak mengindeks laman dan untuk tidak merayapi salah satu tautan di laman:
- <meta name = "robots" content = "noindex, nofollow">
- <meta name = "robots" content = "nofollow">
- <meta name = "googlebot" content = "noindex">
Implementasi praktis dari X-Robots-Tag dengan Apache
Anda dapat menambahkan X-Robots-Tag ke respons HTTP situs menggunakan file .htaccess dan httpd.conf yang tersedia secara default di server web berbasis Apache. Manfaat menggunakan X-Robots-Tag dengan respons HTTP adalah Anda dapat menentukan arahan perayapan yang diterapkan secara global di seluruh situs. Dukungan ekspresi reguler memungkinkan tingkat fleksibilitas yang tinggi.
Misalnya, untuk menambahkan noindex, nofollow X-Robots-Tag ke respons HTTP untuk semua file .PDF di seluruh situs, tambahkan cuplikan berikut ke root situs .htaccess file atau file httpd.conf:
- <File ~ "\ .pdf $">
- Header mengatur X-Robots-Tag "noindex, nofollow"
- </Files>
- <File ~ "\. (Png | jpe? G | gif) $">
- Header mengatur X-Robots-Tag "noindex"
- </Files>
Tag meta robot dan header HTTP X-Robots-Tag ditemukan ketika URL dirayapi. Jika halaman tidak diizinkan merangkak melalui file robots.txt, maka informasi apa pun tentang pengindeksan atau arahan penyajian tidak akan ditemukan dan karenanya akan diabaikan. Jika pengindeksan atau penyajian arahan harus diikuti, URL yang berisi arahan tersebut tidak dapat dilarang merangkak.