Robots.txt – Giao thức loại trừ robot

Cập nhật lần cuối: 15/07/2022

Robots.txt là một tệp văn bản bao gồm các chỉ dẫn dành cho các robot web. Tệp này cho phép người quản trị web kiểm soát quyền truy cập của các robot web vào trang web của họ.

Các robot của Cốc Cốc hỗ trợ Giao thức loại trừ robot (còn được gọi là Tiêu chuẩn loại trừ robot). Đây là một tiêu chuẩn chung được hầu hết các công cụ tìm kiếm áp dụng, mặc dù mỗi công cụ tìm kiếm có thể đáp ứng các lệnh của tiêu chuẩn theo những cách hơi khác nhau. Bài viết này sẽ mô tả cách các robot của Cốc Cốc diễn giải tệp robots.txt.

Nếu bạn muốn sử dụng Tiêu chuẩn loại trừ robot cho trang web của mình:
1. Tạo một tệp văn bản với những lệnh được mô tả bên dưới
2. Đặt tên file là robots.txt
3. Tải file này lên thư mục gốc trang web của bạn.

Các robot của Cốc Cốc thường xuyên yêu cầu truy cập tệp robots.txt từ các trang web. Cụ thể, trước khi yêu cầu truy cập bất kỳ URL nào khác từ một trang web, robot yêu cầu truy cập tệp robots.txt của trang web bằng cách sử dụng phương thức yêu cầu GET thông qua HTTP hoặc HTTPS. Với mỗi lần yêu cầu truy cập này, robot hỗ trợ tới 5 lần chuyển trang.
Nếu robot không thể nhận bất kỳ câu trả lời nào cho yêu cầu này, trang web sẽ được coi là không khả dụng và bị loại trừ khỏi việc thu thập thông tin trong một khoảng thời gian.
Nếu robot nhận được bất kỳ câu trả lời nào khác 200 OK, nó sẽ giả định rằng nó có quyền truy cập không hạn chế vào tất cả các tài liệu trên trang web.
Nếu câu trả lời là 200 OK, robot sẽ phân tích nội dung được trả về, trích xuất các lệnh từ nội dung đó, và sử dụng những lệnh này cho đến Robot có lần yêu cầu truy cập tiếp theo đối với tệp robots.txt.

Các câu lệnh

Tác nhân người dùng (user-agent)

Mọi robot của Cốc Cốc đều có tên riêng (Tìm hiểu thêm về thông tin về tất cả các robot). Bạn có thể sử dụng những tên đó trong lệnh User-agent để viết hướng dẫn cho một robot cụ thể.

Ngoài ra, mọi robot của Cốc Cốc đều cố gắng tìm ra lệnh User-agent phù hợp nhất với tên của nó. Tất cả các cặp ghép ít rõ ràng hơn sẽ bị bỏ qua, ví dụ:

# Không robot nào được chỉ dẫn không tải xuống bất kỳ tài liệu nào từ '/cgi-bin'.

Disallow: /cgi-bin

img

Copied


# Tất cả các robot, bao gồm tất cả các robot của Cốc Cốc, được chỉ dẫn không tải xuống bất kỳ tài liệu nào từ '/cgi-bin'.

User-agent: *
Disallow: /cgi-bin

img

Copied


# Tất cả các robot của Cốc Cốc được chỉ dẫn không tải xuống bất cứ tài liệu nào từ '/cgi-bin'.
# Tất cả các robot khác vẫn được phép tải xuống tất cả tài liệu từ trang web.

User-agent: *
Allow: /

User-agent: coccocbot
Disallow: /cgi-bin

img

Copied


# coccocbot-web và coccocbot-image được chỉ dẫn không tải xuống tài liệu từ '/ajax'.
# Tất cả các robot khác của Cốc Cốc được chỉ dẫn không tải xuống bất kỳ tài liệu nào từ '/cgi-bin'.
# Tất cả các robot khác vẫn được phép tải xuống tất cả tài liệu từ trang web.

User-agent: *
Allow: /

User-agent: coccocbot
Disallow: /cgi-bin

User-agent: coccocbot-web
User-agent: coccocbot-image
Disallow: /ajax

img

Copied


Xin lưu ý rằng bạn có thể sử dụng các chú thích trong tệp robots.txt của mình. Tất cả các ký tự sau dấu # đầu tiên trong một dòng cho đến cuối dòng sẽ không được các robot phân tích.

Tất cả các dòng trống trong tệp đều bị bỏ qua.

Bạn có thể đề cập đến cùng một User-agent nhiều lần. Trong trường hợp này, tất cả các chỉ dẫn cho robot đó được sử dụng cùng nhau, ví dụ:

# Tất cả các robot của Cốc Cốc được chỉ dẫn không tải xuống tài liệu từ '/cgi-bin' và /ajax.
# Tất cả các robot khác vẫn được phép tải xuống tất cả tài liệu từ trang web.

User-agent: coccocbot
Disallow: /cgi-bin

User-agent: *
Allow: /

User-agent: coccocbot
Disallow: /ajax

img

Copied

Disallow and Allow

Nếu bạn muốn chỉ dẫn các robot không truy cập vào trang web của bạn hoặc các phần cụ thể của trang, hãy sử dụng lệnh Disallow. Ví dụ:

# Không cho phép tất cả các robot truy cập vào toàn bộ trang web.

User-agent: *
Disallow: /

img

Copied


# Không cho phép coccocbot-image truy cập tới những trang bắt đầu với '/cgi-bin'.

User-agent: coccocbot-image
Disallow: /cgi-bin

img

Copied

Để cho phép các robot truy cập vào trang web của bạn hoặc các phần của trang, hãy sử dụng lệnh Allow. Ví dụ:

# Không cho phép tất cả các robot của Cốc Cốc truy cập vào tất cả các trang con của trang web, ngoại trừ các URL bắt đầu bằng '/docs'.

User-agent: coccocbot
Disallow: /
Allow: /docs

img

Copied

Một lệnh Disallow bị trống cho phép các robot tải xuống tất cả các trang con của trang web. Một lệnh Allow bị trống thì robot sẽ bỏ qua lệnh này.

# Lệnh Disallow bị trống.
Disallow:

img

Copied


# Lệnh Allow bị trống.
Allow:

img

Copied

Sử dụng các lệnh cùng nhau

Nếu có nhiều lệnh có thể được áp dụng với một URL nào đó, thì lệnh cụ thể nhất sẽ được sử dụng.

# Không cho phép tất cả các robot của Cốc Cốc truy cập vào các trang bắt đầu bằng '/cats'.
# Nhưng cho phép truy cập vào những trang bắt đầu bằng '/cats/wild’, ngoại trừ những trang bắt đầu bằng '/cats/wild/tigers'.

User-agent: coccocbot
Disallow: /cats
Allow: /cats/wild
Disallow: /cats/wild/tigers

img

Copied

Nếu hai lệnh (Allow và Disallow) cụ thể như nhau, thì lệnh Allow sẽ được ưu tiên hơn.

# Cho phép tất cả các robot của Cốc Cốc truy cập vào những trang bắt đầu bằng '/dogs/naughty' mặc dù đã có lệnh Disallow.

User-agent: coccocbot
Disallow: /dogs/naughty
Allow: /dogs/naughty

img

Copied

Các ký tự đặc biệt * và $

Dấu hoa thị (*) trong lệnh Allow và Disallow đại diện cho một chuỗi ký tự bất kỳ. Xin lưu ý rằng, theo mặc định, mọi lệnh ! Allow/Disallow đều bao hàm một đuôi *. Để hủy điều này, hãy thêm ký hiệu đô la ($) vào phần cuối của trích dẫn.

# Không cho phép truy cập vào tất cả các URL chứa 'private' trong các đường dẫn của chúng.

User-agent: coccocbot
Disallow: /*private

img

Copied


# Không cho phép truy cập vào tất cả các URL kết thúc bằng '.ajax'.

User-agent: coccocbot
Disallow: /*.ajax$

img

Copied

Lệnh Sitemap

Bạn có thể thêm lệnh Sitemap để chỉ dẫn cho các robot của chúng tôi sử dụng các tệp sitemap. Lệnh Sitemap không phụ thuộc vào lệnh User-agent. Việc sử dụng nhiều lệnh Sitemap thì được phép.

Sitemap: http://site.vn/sitemaps1.xml
Sitemap: http://site.vn/sitemaps2.xml

img

Copied

Lệnh Crawl-delay

Nếu bạn muốn làm giảm tốc độ các robot của Cốc Cốc ghé thăm trang web của bạn, bạn có thể sử dụng lệnh Crawl-delay. Các robot của Cốc Cốc sẽ hiểu giá trị Crawl-delay (độ trễ thu thập thông tin) là một số nguyên tính bằng đơn vị giây mà robot phải đợi giữa hai lần yêu cầu truy cập liên tiếp.

Xin lưu ý rằng các robot của chúng tôi không hỗ trợ thu thập thông tin trễ hơn 10 giây. Do đó, độ trễ thu thập thông tin 100 giây sẽ được coi là độ trễ thu thập thông tin 10 giây.

Lệnh Crawl-delay dành cho tác nhân người dùng (user-agent) cụ thể, vì vậy hãy thêm nó vào phần User-agent được các robot của chúng tôi sử dụng.

# Dành cho tất cả các robot hỗ trợ lệnh Crawl-delay.

User-agent: *
Crawl-delay: 10

img

Copied


# Độ trễ thu thập thông tin là 10 giây đối với tất cả các robot, ngoại trừ các robot của Cốc Cốc.
# Đối với tất cả các robot của Cốc Cốc, độ trễ thu thập thông tin là 5 giây.

User-agent: *
Crawl-delay: 10

User-agent: coccocbot
Crawl-delay: 5

img

Copied

Thông tin này có hữu ích không?

Gửi phản hồi