ทำให้ ChatGPT อ่านเว็บโรงแรมเจอ — AI crawlability

BoydWee

2 days ago

ภาพประกอบบทความ ทำให้ ChatGPT อ่านเว็บโรงแรมเจอ — AI crawlability

GUSORNHAI Hotel AI

Hotel AI

อยากให้ ChatGPT แนะนำโรงแรมคุณ — แต่ก่อนมันจะ “แนะนำ” ได้ มันต้อง “อ่านเจอ” ก่อน

อยากให้ ChatGPT, Perplexity, Gemini เห็นเว็บโรงแรม เริ่มที่ robots.txt, AI crawler, sitemap และ render ที่ถูกต้อง บทความนี้บอกวิธีทำให้ AI เข้าถึงเนื้อหา

โดย BoydWee

คำตอบสั้น

คำตอบสั้นๆ: การทำให้ ChatGPT, Perplexity, Gemini อ่านเว็บโรงแรมคุณเจอ เริ่มที่การเปิดทางให้ AI crawler เข้าถึงเนื้อหา — ตรวจ robots.txt ว่าไม่ได้บล็อก crawler อย่าง GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot และ Google-Extended, มี XML sitemap ที่อัปเดต, และทำให้เนื้อหาสำคัญแสดงผลได้โดยไม่ต้องพึ่ง JavaScript หนักเกินไป ส่วน llms.txt เป็นมาตรฐานใหม่ที่ทำเสริมได้แต่ยังไม่มีเครื่องมือไหนยืนยันว่า AI ใช้จริงในวงกว้าง crawlability คือด่านแรก — เนื้อหาดีแค่ไหน ถ้า AI เข้าไม่ถึง ก็เหมือนไม่มี

ก่อนหน้าที่จะพูดเรื่องเขียนเนื้อหายังไงให้ AI ชอบ มีคำถามที่พื้นฐานกว่านั้น และคนมักข้าม — AI เข้ามาอ่านเว็บคุณได้หรือเปล่า?

เพราะ AI หลายตัวสร้างคำตอบจากสองแหล่ง: ข้อมูลที่มันเรียนมาตอนเทรน และข้อมูลที่มัน “ไปดึงสดๆ” จากเว็บตอนตอบ (retrieval) ทั้งสองทางต้องการให้ crawler ของมันเข้าถึงหน้าคุณได้ ถ้าด่านนี้ปิดอยู่ งาน AEO ที่ทำมาทั้งหมดก็ไปไม่ถึงปลายทาง

robots.txt — ไฟล์เล็กๆ ที่ตัดสินว่าใครเข้าได้

robots.txt คือไฟล์ข้อความที่วางที่ราก domain (เช่น yourhotel.com/robots.txt) บอก crawler แต่ละตัวว่าหน้าไหนเข้าได้ หน้าไหนห้าม เป็นด่านแรกสุดที่ crawler อ่านก่อนเข้าเว็บ

ปัญหาที่เจอบ่อยในโรงแรม: เว็บถูกตั้งค่าบล็อก AI crawler ไว้โดยไม่ได้ตั้งใจ — บางทีมาจากค่า default ของธีม บางทีจากคนทำเว็บที่ตั้งกันไว้ตอนยังไม่มีใครคิดเรื่องนี้ ผลคือ AI อ่านหน้าไม่ได้เลย และคุณไม่มีทางโผล่ในคำตอบ

นี่คือ user-agent ของ crawler ฝั่ง AI ที่ควรรู้จัก (ชื่อตรงตามที่แต่ละเจ้าประกาศ):

GPTBot — crawler ของ OpenAI สำหรับเก็บข้อมูลไปเทรนและปรับปรุงโมเดล
OAI-SearchBot — ตัวที่ OpenAI ใช้ดึงผลมาแสดงในฟีเจอร์ค้นหาของ ChatGPT
PerplexityBot — crawler ของ Perplexity สำหรับ index เนื้อหามาตอบ
ClaudeBot — crawler ของ Anthropic (ผู้สร้าง Claude)
Google-Extended — token ที่ควบคุมว่าจะให้ Google ใช้เนื้อหาคุณกับ Gemini และผลิตภัณฑ์ generative AI ของ Google หรือไม่ (แยกจาก Googlebot ที่ใช้กับ Search ปกติ)

ข้อควรเข้าใจให้ถูก: Google-Extended ไม่ใช่ crawler แยก — มันเป็นเพียง token ใน robots.txt ที่บอกว่าอนุญาตให้ใช้เนื้อหากับ AI หรือไม่ การบล็อกมันไม่กระทบอันดับใน Google Search ปกติ ส่วน Googlebot คือตัวที่ทำ index ให้ Search — อย่าบล็อกตัวนี้เด็ดขาด

สิ่งที่ควรทำ: เปิด yourhotel.com/robots.txt ดูว่ามีบรรทัด Disallow ที่บล็อก crawler เหล่านี้อยู่ไหม ถ้าคุณ อยาก ให้ AI เห็นเว็บ ต้องไม่บล็อกมัน การตัดสินใจนี้เป็นสิทธิ์ของคุณ — บางโรงแรมเลือกเปิด บางแห่งเลือกปิดบางตัวด้วยเหตุผลด้านลิขสิทธิ์เนื้อหา แต่ต้องเป็นการเลือกที่ “รู้ตัว” ไม่ใช่บล็อกไว้โดยไม่รู้

llms.txt — มาตรฐานใหม่ที่ทำเสริมได้ แต่อย่าคาดหวังเกินจริง

llms.txt เป็นข้อเสนอมาตรฐานใหม่ — ไฟล์ที่วางที่ราก domain (yourhotel.com/llms.txt) เขียนเป็น Markdown สรุปว่าเว็บคุณมีเนื้อหาสำคัญอะไรบ้าง พร้อมลิงก์ ไอเดียคือช่วยให้ LLM หา “เนื้อหาที่สำคัญที่สุด” ของคุณได้ง่ายขึ้น คล้ายสารบัญสำหรับเครื่อง

ผมจะซื่อสัตย์ตรงนี้ เพราะมันสำคัญ: ณ ตอนนี้ ยังไม่มีหลักฐานชัดว่า ChatGPT, Perplexity หรือ Gemini ใช้ llms.txt ในการตอบจริงในวงกว้าง มันเป็นมาตรฐานที่ชุมชนเสนอ ไม่ใช่สิ่งที่ผู้ให้บริการ AI รายใหญ่ประกาศรองรับเป็นทางการ

แล้วควรทำไหม? — ทำได้ถ้าต้นทุนต่ำ (มันคือไฟล์ Markdown ไฟล์เดียว) ถือเป็นการเตรียมพร้อมเผื่ออนาคต แต่ อย่าทุ่มเวลากับมันก่อนทำพื้นฐาน robots.txt ที่เปิดถูก, sitemap ที่อัปเดต และเนื้อหาที่ render ได้ — สามอย่างนี้ส่งผลจริงและตอนนี้ ส่วน llms.txt คือของแถมที่อาจมีค่าในวันข้างหน้า

XML sitemap — บอก crawler ว่าคุณมีหน้าอะไรบ้าง

XML sitemap คือไฟล์ที่ลิสต์ URL ทุกหน้าที่คุณอยากให้ถูก crawl พร้อมข้อมูลว่าอัปเดตล่าสุดเมื่อไหร่ มันช่วยให้ crawler — ทั้งของ Search และของ AI ที่อ่าน sitemap — เจอหน้าใหม่และหน้าที่เปลี่ยนได้เร็วขึ้น โดยเฉพาะหน้าลึกที่ลิงก์ภายในเข้าถึงยาก

สิ่งที่ควรดูแล:
– มี sitemap จริงและ submit ใน Google Search Console
– อ้างถึง sitemap ใน robots.txt ด้วยบรรทัด Sitemap: — crawler หลายตัวมองหาตรงนี้
– ใส่ lastmod (วันแก้ล่าสุด) ให้ตรงความจริง เพราะ engine ที่ให้น้ำหนักความสด เช่น Perplexity ใช้สัญญาณนี้ประกอบ
– ลิสต์เฉพาะหน้าที่อยากให้เห็นจริง — หน้า thank-you, หน้า filter ซ้ำๆ ไม่ต้องใส่

Render — ถ้าเนื้อหาโผล่ตอน JavaScript ทำงานเท่านั้น crawler อาจไม่เห็น

นี่คือกับดักทางเทคนิคที่โรงแรมยุคใหม่เจอบ่อย เว็บสมัยนี้หลายตัวสร้างเนื้อหาด้วย JavaScript ฝั่ง browser — แปลว่าตอน crawler ดึง HTML ดิบมา มันอาจเห็นหน้าเปล่าๆ เพราะเนื้อหาจริงยังไม่ถูก render

Googlebot ค่อนข้างเก่งเรื่อง render JavaScript แต่ AI crawler หลายตัวไม่ได้ render เต็มรูปแบบเท่า Googlebot ถ้าราคา ห้องพัก หรือ FAQ ของคุณโผล่เฉพาะหลัง JavaScript ทำงาน เนื้อหาสำคัญเหล่านั้นอาจหายไปจากสายตา AI

แนวทางที่ปลอดภัย:
– ให้เนื้อหาหลัก — ชื่อ ราคา นโยบาย FAQ — อยู่ใน HTML ที่ส่งมาตั้งแต่แรก (server-side render หรือ static)
– ทดสอบโดยดู “HTML ดิบ” ของหน้า (view source) ว่าเนื้อหาสำคัญอยู่ในนั้นไหม ถ้าเห็นแต่ <div id="app"></div> ว่างๆ นั่นคือสัญญาณเตือน
– อย่าซ่อนเนื้อหาสำคัญไว้หลังการคลิก/แท็บที่ต้อง interact ก่อนถึงจะโหลด

ลำดับที่ควรทำ (จากผลจริงมากไปน้อย)

ถ้ามีเวลาจำกัด ทำตามลำดับนี้:

ตรวจ robots.txt — ให้แน่ใจว่าไม่ได้บล็อก crawler ที่คุณอยากให้เห็น และไม่ได้บล็อก Googlebot โดยพลาด นี่คือด่านที่ถ้าผิด ทุกอย่างหลังจากนี้ไร้ผล
ตรวจ render — เนื้อหาสำคัญต้องอยู่ใน HTML ดิบ ไม่ใช่โผล่หลัง JavaScript เท่านั้น
ดูแล sitemap — อัปเดต, อ้างใน robots.txt, ใส่ lastmod จริง
ค่อยพิจารณา llms.txt — เป็นของเสริม ทำเมื่อพื้นฐานครบแล้ว

crawlability คือ “ด่านเข้า” ไม่ใช่ทั้งเกม เมื่อ AI เข้าถึงได้แล้ว งานต่อคือทำเนื้อหาให้มันหยิบไปตอบง่าย — ซึ่งเป็นเรื่องของ generative search และ AEO ดูนิยาม crawl, robots.txt, sitemap แบบสั้นได้ที่ glossary

ตัวอย่างประกอบ

(ตัวอย่างสมมติเพื่ออธิบายหลักการ ไม่ใช่เคสจริง)

รีสอร์ต 40 ห้องในกระบี่ ลงทุนทำเว็บใหม่สวยมาก ใช้ framework สมัยใหม่ที่ render ทุกอย่างด้วย JavaScript เนื้อหาครบ รีวิวดี แต่พอลองถาม ChatGPT และ Perplexity หาที่พักในย่านนั้น กลับไม่เคยถูกพูดถึงเลย

พอตรวจสอบพบสองปัญหาซ้อนกัน (ตัวอย่างประกอบ): หนึ่ง — robots.txt มีบรรทัดบล็อก GPTBot และ PerplexityBot ติดมาจากค่า default ของเทมเพลต สอง — view source หน้าห้องพักเห็นแต่ div เปล่า เพราะราคาและรายละเอียดโผล่หลัง JavaScript ทำงานเท่านั้น

ทีมแก้สองจุด: เอาบรรทัด Disallow ที่บล็อก AI crawler ออก และปรับให้เนื้อหาหลัก (ชื่อ ราคา สิ่งอำนวยความสะดวก FAQ) ส่งมาใน HTML ตั้งแต่แรกแบบ server-side render จากนั้น submit sitemap ที่อัปเดต ผ่านไปหลายสัปดาห์ พอ crawler กลับมาอ่านซ้ำและเห็นเนื้อหาได้แล้ว ชื่อรีสอร์ตก็เริ่มโผล่ในบางคำถาม — ไม่ใช่เพราะเขียนเนื้อหาเพิ่ม แต่เพราะเปิดประตูให้ AI เข้ามาอ่านสิ่งที่มีอยู่แล้ว

คำถามที่พบบ่อย

ถ้าเว็บโรงแรมเปิดให้ Googlebot อยู่แล้ว AI ก็เห็นด้วยใช่ไหม?

ไม่จำเป็น Googlebot กับ AI crawler เป็นคนละตัว ใช้ชื่อ user-agent ต่างกัน robots.txt อาจอนุญาต Googlebot แต่บล็อก GPTBot หรือ PerplexityBot อยู่ก็ได้ ต้องเปิดดู robots.txt และตรวจให้ตรงว่าเปิดตัวที่คุณต้องการจริง การเปิดให้ Googlebot ไม่ได้แปลว่าเปิดให้ทุก crawler โดยอัตโนมัติ

จำเป็นต้องทำ llms.txt ไหม ถึงจะให้ ChatGPT เห็นเว็บ?

ไม่จำเป็น และตอนนี้ยังไม่มีหลักฐานชัดว่า ChatGPT หรือ AI รายใหญ่ใช้ llms.txt ตอบจริงในวงกว้าง สิ่งที่ทำให้ AI เห็นเว็บคุณจริงๆ คือ robots.txt ที่ไม่บล็อก, เนื้อหาที่ render ได้ และ sitemap ที่อัปเดต ทำสามอย่างนี้ก่อน llms.txt เป็นของเสริมเผื่ออนาคต ต้นทุนต่ำก็ทำได้ แต่ไม่ใช่ตัวตัดสิน

ถ้าไม่อยากให้ AI เอาเนื้อหาเราไปใช้ ทำได้ไหม?

ได้ คุณบล็อก AI crawler บางตัวใน robots.txt ได้ตามสิทธิ์ของคุณ เช่น บล็อก GPTBot หรือใช้ Google-Extended ปฏิเสธการนำเนื้อหาไปใช้กับ Gemini โดยไม่กระทบอันดับใน Google Search ปกติ แต่ต้องเข้าใจ trade-off — การบล็อกแปลว่าโรงแรมคุณจะไม่โผล่ในคำตอบของ AI ตัวนั้นด้วย เป็นการตัดสินใจที่ควรทำแบบรู้ตัว ชั่งน้ำหนักระหว่างการปกป้องเนื้อหากับโอกาสถูกค้นพบ

Spread the love