Robots.txt – Giao thức loại trừ robot
Cập nhật lần cuối: 15/07/2022
Robots.txt là một tệp văn bản bao gồm các chỉ dẫn dành cho các robot web. Tệp này cho phép người quản trị web kiểm soát quyền truy cập của các robot web vào trang web của họ.
Các robot của Cốc Cốc hỗ trợ Giao thức loại trừ robot (còn được gọi là Tiêu chuẩn loại trừ robot). Đây là một tiêu chuẩn chung được hầu hết các công cụ tìm kiếm áp dụng, mặc dù mỗi công cụ tìm kiếm có thể đáp ứng các lệnh của tiêu chuẩn theo những cách hơi khác nhau. Bài viết này sẽ mô tả cách các robot của Cốc Cốc diễn giải tệp robots.txt.
Nếu bạn muốn sử dụng Tiêu chuẩn loại trừ robot cho trang web của mình:
1. Tạo một tệp văn bản với những lệnh được mô tả bên dưới
2. Đặt tên file là robots.txt
3. Tải file này lên thư mục gốc trang web của bạn.
Các robot của Cốc Cốc thường xuyên yêu cầu truy cập tệp robots.txt từ các trang web. Cụ thể, trước khi yêu cầu truy cập bất kỳ URL nào khác từ một trang web, robot yêu cầu truy cập tệp robots.txt của trang web bằng cách sử dụng phương thức yêu cầu GET thông qua HTTP hoặc HTTPS. Với mỗi lần yêu cầu truy cập này, robot hỗ trợ tới 5 lần chuyển trang.
Nếu robot không thể nhận bất kỳ câu trả lời nào cho yêu cầu này, trang web sẽ được coi là không khả dụng và bị loại trừ khỏi việc thu thập thông tin trong một khoảng thời gian.
Nếu robot nhận được bất kỳ câu trả lời nào khác 200 OK, nó sẽ giả định rằng nó có quyền truy cập không hạn chế vào tất cả các tài liệu trên trang web.
Nếu câu trả lời là 200 OK, robot sẽ phân tích nội dung được trả về, trích xuất các lệnh từ nội dung đó, và sử dụng những lệnh này cho đến Robot có lần yêu cầu truy cập tiếp theo đối với tệp robots.txt.
Các câu lệnh
Tác nhân người dùng (user-agent)
Mọi robot của Cốc Cốc đều có tên riêng (Tìm hiểu thêm về thông tin về tất cả các robot). Bạn có thể sử dụng những tên đó trong lệnh User-agent để viết hướng dẫn cho một robot cụ thể.
Ngoài ra, mọi robot của Cốc Cốc đều cố gắng tìm ra lệnh User-agent phù hợp nhất với tên của nó. Tất cả các cặp ghép ít rõ ràng hơn sẽ bị bỏ qua, ví dụ:
# Không robot nào được chỉ dẫn không tải xuống bất kỳ tài liệu nào từ '/cgi-bin'.
Disallow: /cgi-bin
Copied
# Tất cả các robot, bao gồm tất cả các robot của Cốc Cốc, được chỉ dẫn không tải xuống bất kỳ tài liệu nào từ '/cgi-bin'.
User-agent: *
Disallow: /cgi-bin
Copied
# Tất cả các robot của Cốc Cốc được chỉ dẫn không tải xuống bất cứ tài liệu nào từ '/cgi-bin'.
# Tất cả các robot khác vẫn được phép tải xuống tất cả tài liệu từ trang web.
User-agent: *
Allow: /
User-agent: coccocbot
Disallow: /cgi-bin
Copied
# coccocbot-web và coccocbot-image được chỉ dẫn không tải xuống tài liệu từ '/ajax'.
# Tất cả các robot khác của Cốc Cốc được chỉ dẫn không tải xuống bất kỳ tài liệu nào từ '/cgi-bin'.
# Tất cả các robot khác vẫn được phép tải xuống tất cả tài liệu từ trang web.
User-agent: *
Allow: /
User-agent: coccocbot
Disallow: /cgi-bin
User-agent: coccocbot-web
User-agent: coccocbot-image
Disallow: /ajax
Copied
Xin lưu ý rằng bạn có thể sử dụng các chú thích trong tệp robots.txt của mình. Tất cả các ký tự sau dấu # đầu tiên trong một dòng cho đến cuối dòng sẽ không được các robot phân tích.
Tất cả các dòng trống trong tệp đều bị bỏ qua.
Bạn có thể đề cập đến cùng một User-agent nhiều lần. Trong trường hợp này, tất cả các chỉ dẫn cho robot đó được sử dụng cùng nhau, ví dụ:
# Tất cả các robot của Cốc Cốc được chỉ dẫn không tải xuống tài liệu từ '/cgi-bin' và /ajax.
# Tất cả các robot khác vẫn được phép tải xuống tất cả tài liệu từ trang web.
User-agent: coccocbot
Disallow: /cgi-bin
User-agent: *
Allow: /
User-agent: coccocbot
Disallow: /ajax
Copied
Disallow and Allow
Nếu bạn muốn chỉ dẫn các robot không truy cập vào trang web của bạn hoặc các phần cụ thể của trang, hãy sử dụng lệnh Disallow. Ví dụ:
# Không cho phép tất cả các robot truy cập vào toàn bộ trang web.
User-agent: *
Disallow: /
Copied
# Không cho phép coccocbot-image truy cập tới những trang bắt đầu với '/cgi-bin'.
User-agent: coccocbot-image
Disallow: /cgi-bin
Copied
Để cho phép các robot truy cập vào trang web của bạn hoặc các phần của trang, hãy sử dụng lệnh Allow. Ví dụ:
# Không cho phép tất cả các robot của Cốc Cốc truy cập vào tất cả các trang con của trang web, ngoại trừ các URL bắt đầu bằng '/docs'.
User-agent: coccocbot
Disallow: /
Allow: /docs
Copied
Một lệnh Disallow bị trống cho phép các robot tải xuống tất cả các trang con của trang web. Một lệnh Allow bị trống thì robot sẽ bỏ qua lệnh này.
# Lệnh Disallow bị trống.
Disallow:
Copied
# Lệnh Allow bị trống.
Allow:
Copied
Sử dụng các lệnh cùng nhau
Nếu có nhiều lệnh có thể được áp dụng với một URL nào đó, thì lệnh cụ thể nhất sẽ được sử dụng.
# Không cho phép tất cả các robot của Cốc Cốc truy cập vào các trang bắt đầu bằng '/cats'.
# Nhưng cho phép truy cập vào những trang bắt đầu bằng '/cats/wild’, ngoại trừ những trang bắt đầu bằng '/cats/wild/tigers'.
User-agent: coccocbot
Disallow: /cats
Allow: /cats/wild
Disallow: /cats/wild/tigers
Copied
Nếu hai lệnh (Allow và Disallow) cụ thể như nhau, thì lệnh Allow sẽ được ưu tiên hơn.
# Cho phép tất cả các robot của Cốc Cốc truy cập vào những trang bắt đầu bằng '/dogs/naughty' mặc dù đã có lệnh Disallow.
User-agent: coccocbot
Disallow: /dogs/naughty
Allow: /dogs/naughty
Copied
Các ký tự đặc biệt * và $
Dấu hoa thị (*) trong lệnh Allow và Disallow đại diện cho một chuỗi ký tự bất kỳ. Xin lưu ý rằng, theo mặc định, mọi lệnh ! Allow/Disallow đều bao hàm một đuôi *. Để hủy điều này, hãy thêm ký hiệu đô la ($) vào phần cuối của trích dẫn.
# Không cho phép truy cập vào tất cả các URL chứa 'private' trong các đường dẫn của chúng.
User-agent: coccocbot
Disallow: /*private
Copied
# Không cho phép truy cập vào tất cả các URL kết thúc bằng '.ajax'.
User-agent: coccocbot
Disallow: /*.ajax$
Copied
Lệnh Sitemap
Bạn có thể thêm lệnh Sitemap để chỉ dẫn cho các robot của chúng tôi sử dụng các tệp sitemap. Lệnh Sitemap không phụ thuộc vào lệnh User-agent. Việc sử dụng nhiều lệnh Sitemap thì được phép.
Sitemap: http://site.vn/sitemaps1.xml
Sitemap: http://site.vn/sitemaps2.xml
Copied
Lệnh Crawl-delay
Nếu bạn muốn làm giảm tốc độ các robot của Cốc Cốc ghé thăm trang web của bạn, bạn có thể sử dụng lệnh Crawl-delay. Các robot của Cốc Cốc sẽ hiểu giá trị Crawl-delay (độ trễ thu thập thông tin) là một số nguyên tính bằng đơn vị giây mà robot phải đợi giữa hai lần yêu cầu truy cập liên tiếp.
Xin lưu ý rằng các robot của chúng tôi không hỗ trợ thu thập thông tin trễ hơn 10 giây. Do đó, độ trễ thu thập thông tin 100 giây sẽ được coi là độ trễ thu thập thông tin 10 giây.
Lệnh Crawl-delay dành cho tác nhân người dùng (user-agent) cụ thể, vì vậy hãy thêm nó vào phần User-agent được các robot của chúng tôi sử dụng.
# Dành cho tất cả các robot hỗ trợ lệnh Crawl-delay.
User-agent: *
Crawl-delay: 10
Copied
# Độ trễ thu thập thông tin là 10 giây đối với tất cả các robot, ngoại trừ các robot của Cốc Cốc.
# Đối với tất cả các robot của Cốc Cốc, độ trễ thu thập thông tin là 5 giây.
User-agent: *
Crawl-delay: 10
User-agent: coccocbot
Crawl-delay: 5
Copied
Thông tin này có hữu ích không?
Gửi phản hồi