Googlebot
Googlebot เป็นชื่อทั่วไปของ Web Crawler ซึ่งมีอยู่ 2 ประเภทที่ Google Search ใช้ดังนี้
- Googlebot สำหรับสมาร์ทโฟน: Crawler สําหรับอุปกรณ์เคลื่อนที่ซึ่งจำลองเป็นผู้ใช้ในอุปกรณ์เคลื่อนที่
- Googlebot สำหรับเดสก์ท็อป: Crawler ในเดสก์ท็อปซึ่งจำลองเป็นผู้ใช้ในเดสก์ท็อป
คุณระบุประเภทย่อยของ Googlebot ได้จากการดูส่วนหัวของคำขอ user-agent
HTTP ในคำขอ อย่างไรก็ตาม Crawler ทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดกลุ่มเป้าหมาย Googlebot สำหรับสมาร์ทโฟนหรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้
สำหรับเว็บไซต์ส่วนใหญ่ Google Search จะจัดทำดัชนีเนื้อหาเวอร์ชันสำหรับอุปกรณ์เคลื่อนที่เป็นหลัก ด้วยเหตุนี้ คําขอทำการ Crawl ส่วนใหญ่ของ Googlebot ก็จะทําโดยใช้ Crawler สำหรับอุปกรณ์เคลื่อนที่ และใช้ Crawler สำหรับเดสก์ท็อปเป็นส่วนน้อย
วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ
สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคำขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl
Googlebot สามารถทำการ Crawl 15 MB แรกของไฟล์ HTML หรือไฟล์ข้อความที่รองรับ โดยจะดึงข้อมูลทรัพยากรแต่ละรายการที่อ้างอิงใน HTML เช่น CSS และ JavaScript แยกกัน และการดึงข้อมูลแต่ละรายการจะอยู่ในขอบเขตของขีดจํากัดขนาดไฟล์เดียวกัน หลังจากไฟล์ 15 MB แรก Googlebot จะหยุด Crawl และจะส่งเฉพาะ 15 MB แรกของไฟล์ในการจัดทําดัชนี และมีการจำกัดขนาดไฟล์สำหรับข้อมูลที่ไม่ได้บีบอัด Crawler อื่นๆ ของ Google เช่น Googlebot Video และ Googlebot Image อาจมีขีดจํากัดที่แตกต่างออกไป
เมื่อทำการ Crawl จากที่อยู่ IP ในสหรัฐอเมริกา เขตเวลาของ Googlebot คือเวลาเขตแปซิฟิก
คุณสมบัติทางเทคนิคอื่นๆ ของ Googlebot มีอธิบายอยู่ในภาพรวมเกี่ยวกับ Crawler ของ Google
การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์
Googlebot จะค้นพบ URL ใหม่ที่จะทำการ Crawl ได้จากลิงก์ที่ฝังอยู่ในหน้าที่ทำการ Crawl ไปก่อนหน้านี้เป็นหลัก การเก็บเว็บไซต์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บไซต์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนติดตามลิงก์จากเว็บไซต์ "ลับ" ของคุณไปยังเว็บไซต์อื่น URL ของเว็บไซต์ "ลับ" อาจจะปรากฏในแท็กผู้บอกต่อ รวมถึงจะจัดเก็บและเผยแพร่ได้โดยเว็บไซต์อื่นในบันทึกผู้บอกต่อ
หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl เนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าการ Crawl และการจัดทำดัชนีนั้นแตกต่างกัน การบล็อก Googlebot ไม่ให้ทำการ Crawl หน้าเว็บไม่ได้ป้องกันไม่ให้ URL ของหน้าเว็บปรากฏในผลการค้นหา
- หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl หน้าเว็บ ใช้ ไฟล์ robots.txt
-
หากไม่ต้องการให้ Google จัดทำดัชนีหน้าเว็บ ใช้
noindex
- หากต้องการป้องกันไม่ให้ทั้ง Crawler หรือผู้ใช้เข้าถึงหน้าเว็บเลย ใช้วิธีอื่น เช่น การป้องกันด้วยรหัสผ่าน
การบล็อก Googlebot จะส่งผลต่อ Google Search (รวมถึงฟีเจอร์สำรวจและฟีเจอร์ทั้งหมดของ Google Search) รวมถึงผลิตภัณฑ์อื่นๆ เช่น Google รูปภาพ, Google วิดีโอ และ Google News
การยืนยัน Googlebot
ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าส่วนหัวของคำขอ user-agent
HTTP ที่ Googlebot ใช้นั้นมักจะถูก Crawler อื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot