Robots.txt là gì?
Mẫu code
Chặn tất cả robot với tất cả các nội dung | User-agent: * Disallow: / |
Chặn 1 robot với 1 folder | User-agent: Googlebot Disallow: /no-google/ |
Chặn 1 robot với 1 trang | User-agent: Googlebot Disallow: /no-google/blocked-page.html |
Cho phép 1 robot vào 1 trang | User-agent: * Disallow: /no-bots/block-all-bots-except-rogerbot-page.html User-agent: rogerbot Allow: /no-bots/block-all-bots-except-rogerbot-page.html |
Thông số sitemap | User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml |
Format tối ưu
Ví dụ: http:/www.example.com/robots.txt
Khái niệm Robots.txt
- REP xuất hiện năm 1994, trở nên phổ biến hơn năm 1997, dùng để xác định chỉ thị thu thập thông tin cho robots.txt. Một số công cụ tìm kiếm hỗ trợ phần mở rộng như mô hình URI (thẻ wild).
- Từ năm 1996, REP được mở rộng để xác định các chỉ thị chỉ mục (REP tags) để sử dụng trong các yếu tố meta robot, còn được gọi là “robot meta tag.” Khi đó, công cụ tìm kiếm hỗ trợ thêm thẻ REP với một Tag-X-Robots. Người quản trị web có thể sử dụng REP tag trong tiêu đề HTTP của các nguồn tài nguyên không phải HTML như tài liệu PDF hoặc hình ảnh.
- Từ năm 2005, phiên bản Microformat rel-nofollow để xác định xem công cụ tìm kiếm nên xử lý thế nào với các liên kết có thuộc tính REL của một phần tử chứa giá trị “nofollow.”
Robots Exclusion Protocol Tags
Microformats
Mô hình kết hợp
Google và Bing đều sử dụng hai biểu thức thông thường mà có thể được sử dụng để xác định các trang hoặc thư mục con muốn loại trừ. Hai ký tự là dấu hoa thị (*) và dấu hiệu đồng đô la ($).
- * Là một ký tự đại diện đại diện cho chuỗi ký tự bất kỳ
- $ Phù hợp với kết thúc của URL
Công khai thông tin
Công khai thư mục robots.txt – Hãy biết rằng file robots.txt là một tập tin công bố công khai. Người quản trị web có thể công khai cho tất cả mọi người đều có thể nhìn thấy những thư mục mà họ không muốn bị thu thập dữ liệu.
Điều này có nghĩa là nếu bạn có thông tin người dùng nhưng không muốn công khai tìm kiếm, bạn nên sử dụng phương pháp an toàn hơn để giữ khách truy cập xem bất kỳ trang nào bí mật mà không muốn lập chỉ mục (chẳng hạn như mật khẩu bảo vệ).
Quy định quan trọng
- Trong hầu hết các trường hợp, robot meta với các thông số “noindex, follow” nên được sử dụng như một cách để hạn chế thu thập thông tin hoặc chỉ số index.
- Điều quan trọng cần lưu ý rằng các trình thu thập thông tin độc hại có khả năng hoàn toàn bỏ qua robots.txt và như vậy, giao thức này không tạo được một cơ chế bảo mật tốt.
- Chỉ dùngmột “Disallow:” cho 1 dòng – cho mỗi URL.
- Mỗi tên miền phụ của một tên miền gốc sẽ sử dụng các tập tin robots.txt khác nhau.
- Google và Bing chấp nhận hai nhân vật biểu hiện cụ thể thường xuyên để loại trừ mẫu (* và $).
- Các tên tập tin robots.txt là trường hợp nhạy cảm. Hãy sử dụng “robots.txt”, chứ không phải Robots.TXT “.
- Khoảng trắng không được chấp nhận để thể hiện cách tách các tham số truy vấn. Ví dụ, “/ category / / trang sản phẩm” sẽ không được chấp nhận bởi robots.txt.
Áp dụng tốt nhất trong SEO
Chặn trang (Blocking page)
Chặn với Robots.txt
Điều này nói cho Google Spider không nên thu thập dữ liệu URL được nhắc tới, nhưng cũng nói cho Google Spider rằng có thể giữ cho các trang trong chỉ mục và hiển thị nó trong trong kết quả. (Xem hình ảnh của trang kết quả của Google bên dưới)
Chặn bằng Meta ngăn lập chỉ mục (Block with Meta NoIndex)
Điều này cho cho phép có thể truy cập, nhưng không được phép để hiển thị các URL trong trang kết quả. (Đây là phương pháp được đề nghị)
Chặn bởi Nofollowing Liên kết (Block by Nofollowing Links)
Đây gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có thể cho các công cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua thanh công cụ trình duyệt, các liên kết từ các trang khác, analytics, …)
Tại sao sử dụng Robots Meta lại tốt hơn robots.txt
Dưới đây là một ví dụ về tập tin robots.txt của trang about.com. Chú ý rằng chúng đang chặn thư mục /library/nosearch/
Bây giờ nhận thấy điều gì sẽ xảy ra khi URL được tìm kiếm trong Google.
Google có 2.760 kết quả từ thư mục “disallowed”. Google Spider đã không thu thập thông tin các URL, do đó, nó xuất hiện như một URL chứ không phải là một danh sách kết quả bình thường..
Điều này sẽ trở thành một lỗi khi các trang này tích lũy liên kết. Nhiều trang có thể tích lũy liên kết và truy vấn độc lập số liệu khác xếp hạng (như popularity and trust), nhưng các trang này không thể vượt qua bất kỳ trang nào khác vì các liên kết đó không bao giờ nhận được thu thập thông tin.
Công cụ liên quan
mozBar
mozBar giúp xem các số liệu có liên quan SEO khi bạn lướt web được dễ dàng hơn.
Tài liệu tham khảo thêm
Robots Exclusion Protocol
Nguồn thông tin chính thức về Robots Exclusion Protocol.
W3 và Robots Exclusion Protocol
Tài liệu chính thức về Robots Exclusion của W3
Hướng dẫn liên quan
Dao tao Seo, Khoa hoc Seo tai Ha Noi – Đào tạo SEO VietMoz
Đăng ký một khoá học SEO tại VietMoz để được hướng dẫn đầy đủ và chi tiết về cách làm SEO
Một bình luận
Hay quá em mới làm site đang bí thì gặp ngay bài này. Thank anh nhé ! rất đầy đủ và định hướng