-----------------------------------------------------
User-agent: * ---> ใส่ชื่อ bot ที่ต้องการ เช่น User-agent: msnbot ก็บอก msn ว่าไม่ต้องมา index เว็บของฉัน แต่ใส่ถ้า * ก็หมายถึงทุก S/E ไม่ต้องมา index
Disallow: / ---> บรรทัดนี้ ใส่ ชื่อ folder หรือ ชื่อ file หรือ File extension ที่ไม่ต้องการให้ถูกเก็บไป index
-----------------------------------------------------
Case Study สำหรับ robots.txt
1. ถ้าไม่ต้องการให้ S/E ทุกยี่ห้อมาเก็บเว็บไซต์ทั้งเว็บไป index ใช้ข้อความข้างล่าง
User-agent: *
Disallow: /
2. ถ้าต้องการให้ S/E เฉพาะบางยี่ห้อมาเก็บเว็บไซต์ไป index ใช้ข้อความข้างล่าง เช่น msn ,google
User-agent: Googlebot
User-agent: msnbot
Disallow: [สังเกตุว่า ไม่มีเครื่องหมายใดหลัง disallow:]
User-agent: *
Disallow: /
หมายเหตุ ---> ในทางกลับกัน ถ้าไม่ต้องการให้ googlebot หรือ MSNbot ก็สลับบรรทัดกันระหว่างบรรทัด * กับ User-agent: Googlebot / User-agent: msnbot
3. ถ้าในกรณีของ ไม่ต้องการให้เก็บ Folder / File หรือ บาง File Extension ก็
User-agent: *
Disallow: /folder
Disallow: /file.extension อาทิ disallow:/indexhome.php ก็ไม่ต้องเก็บไฟล์ indexhome.php หรือ disallow:/indexhome.php?id ก็ไม่ต้องเก็บไฟล์ indexhome.php?[เป็น case ของ dynamic page]
Disallow:/*.file extension$ อาทิ disallow:/*.jpg$ ก็ไม่ต้องเก็บไฟล์ ที่มีนามสกุล jpg$
-----------------------------------------------------------
เหตุผลหลักๆที่ต้องใส่ robots.txt ก็เพราะต้องการป้องกันไม่ให้ robot ของ S/E มาเก็บข้อมูลที่เราไม่ต้องการให้แสดงใน S/E นั้น ๆอาจมีเหตุผลมาจากใน file/folder นั้น เป็น ความลับหรือ restriction zone/Log-in required zone เป็นต้น