Google Crawl & Index – Không hề đơn giản như bạn nghĩ

25/08/2015
Kiến thức SEO

“Crawl – thu thập dữ liệu
Index – lập chỉ mục dữ liệu”

Đó là định nghĩa cơ bản về 2 thuật ngữ này mà bạn đã từng nghe. Tuy nhiên, thực tế, quá trình crawl và index của Google không hề đơn giản như bạn nghĩ.

Trước khi đến với những kiến thức này, hãy cùng làm một bài kiểm tra nhỏ về crawl và index của Google: Đâu là nhận định đúng trong các câu sau:

A) Các trang web của tôi đã được liệt kê trong sitemap, vì vậy chúng sẽ được Google crawl.
B) Các trang của tôi đã được crawl, nên chúng sẽ được lập chỉ mục.
C) Các trang của tôi đã được index, vì vậy chúng sẽ có khả năng được xuất hiện khi người dùng tìm kiếm một truy vấn có liên quan.
D) Không đáp án nào đúng.

Nếu bạn chọn đáp án A, B hoặc C, thì xin chúc mừng, bạn thuộc nhóm đông đảo các SEOer chọn sai. Đáp án chính xác là D.

Rất nhiều SEOer hiện nay mới chỉ dừng lại ở việc hiểu khái niệm crawl & index là gì, chứ chưa thực sự hiểu quy trình crawl và index website của Google. Cho đến nay, khó có một ai có thể hiểu chính xác quá trình crawl và index website của Google, ngoại trừ nội bộ của công cụ tìm kiếm này.

Tất nhiên, họ – các kỹ sư Google sẽ chẳng bao giờ tiết lộ cho chúng ta cách mà Google index nội dung web. Tuy nhiên, dựa trên data dữ liệu của mình, Moz đã đưa ra được một bảng xếp hạng dữ liệu index của website khá phù hợp với hành vi index của Google, đó là phân nhóm trang cần được index và ưu tiên index một số nhóm site.

Cụ thể, 7 cấp bậc này được chia như sau:

Như bạn có thể thấy, 7 cấp bậc này bao gồm:

Được lưu vĩnh viễn trong Main Index: (Gần như được lưu vĩnh viễn trong môi trường www)
Được lưu tạm thời trong Main Index: (Được thay đổi liên tục và thậm chí index của những trang này có thể bị mất đi)
Được lưu trên bộ nhớ phụ của level 2: (Phân loại dựa với bộ nhớ chính bằng các chỉ số về pagerank/link juice, hay lượng nội dung trùng lặp)
Được lưu trong các chỉ mục đặc biệt: (ví dụ Google Image, Google news,…)
Crawl nhưng không index: (Thường là chỉ số PageRank/Link juice quá thấp, hoặc do bị phạt bởi một thuật toán nào đó).
Được tìm thấy nhưng không crawl: (Được một số trang web liên kết đến, nhưng vì một lý do nào đó mà Google xác định trang này không quan trọng và không crawl)
Không bao giờ được Google tìm thấy: (Trường hợp xảy ra với một số các site mới hiện nay, không có một trang nào trỏ link tới)

Bởi vì phần lớn các kết quả index của các website hiện nay đều thuộc cấp bậc 2 và 3 (được lưu tạm thời và thay đổi liên tục), chính vì vậy, bạn có thể thấy chúng sẽ thay đổi liên tục, với chu kỳ từ 1 tháng cho đến 2 tháng. Điều này khiến cho chỉ số index trở nên bất ổn hơn, và có thể thay đổi theo thời gian.