Google đã được cấp bằng sáng chế trong tháng 5/2013 mô tả cách thức các trang web được cung cấp các đánh giá xếp hạng chất lượng, dựa trên một mô hình nhìn vào xếp hạng con người trong mẫu thiết lập các trang web, và tín hiệu trang từ các trang web đó.
Các bằng sáng chế cho chúng ta biết tận dụng cách tiếp cận này sẽ:
- Cung cấp sự hài lòng cho người dùng với công cụ tìm kiếm
- Các trang web lại có một đánh giá có chất lượng cao hơn ngưỡng nhất định
- Trang web xếp hạng xuất hiện trong kết quả tìm kiếm dựa trên chất lượng
- Xác định các trang web chất lượng mà không có một cái nhìn nhân bản vào trang web đầu tiên
Bằng sáng chế này đã được đệ trình trong năm 2008, và việc sử dụng các tín hiệu chất lượng nghe có vẻ tương tự như những gì Google đã chia sẻ với chúng tôi về các cập nhật Panda. Điều này giống với việc cải thiện chất lượng tìm kiếm hơn so với một hình phạt spam trên web.
Các bằng sáng chế sử dụng blog như một loại trang web có thể được áp dụng trong tuyên bố và phần mô tả của mình. Một trong những nhà phát minh, Christopher C. Pennock là một kỹ sư phần mềm cao cấp trên Google Blog Search, cùng với kì họp SMX đầu năm 2009 của anh thảo luận về các tín hiệu xếp hạng trong Blog Search.
Một khía cạnh của phương pháp xếp hạng này là phải có tỷ lệ người đánh giá chất lượng các trang của một trang web (tất cả các trang), chấm điểm trong thang điểm từ 1 đến 5, với 1 là điểm thấp nhất và 5 là điểm cao nhất, và tập hợp những kết quả này lại với nhau. Những đánh giá này được tăng cường với các yếu tố từ các trang web như:
- Các tranh luận hoặc các thông tin độc đáo trên trang web
- Số lượng nội dung ban đầu so với nội dung sao chép
- Giao diện của trang web
- Ngữ pháp và chính tả các văn bản trên trang có chính xác không
- Trang web có tài liệu khiêu dâm hoặc không thích hợp được trình bày hay không
- Trang web có trang trống hoặc không đầy đủ hay không
- Các yếu tố khác ảnh hưởng đến chất lượng của trang web
Những tín hiệu này rất giống với những tín hiệu đã được công bố trong các bài viết đăng trên Google Webmaster Central của Google, nhiều hướng dẫn hơn về cách xây dựng trang web chất lượng cao từ tháng 5 năm 2011. Bài viết này ra đời với mục đích giải thích “cách Google tìm kiếm các trang web chất lượng cao", bằng cách cung cấp 23 bộ câu hỏi thường gặp khi một người cố gắng "viết các thuật toán để đánh giá chất lượng trang web”.
Bằng sáng chế này chắc chắn không giải thích chính xác cách hoạt động của cập nhật Panda, nhưng các khái niệm cũng có một số cách tương tự. Như cách Google ghi chú trong một bài viết trên blog:
Tất nhiên, chúng tôi không tiết lộ các tín hiệu xếp hạng thực tế được sử dụng trong các thuật toán của chúng tôi bởi vì chúng tôi không muốn biến kết quả tìm kiếm của chúng tôi thành trò đùa, nhưng nếu bạn muốn xâm nhập vào suy nghĩ của Google, những câu hỏi dưới đây cung cấp một số hướng dẫn về cách chúng tôi đã xem xét vấn đề này.
Đây có thể là cách tốt nhất để tiếp cận bằng sáng chế này (và nhiều bằng sáng chế khác), cho phép mọi người xem vấn đề trình bày các trang chất lượng cao hơn trong kết quả tìm kiếm từ quan điểm của Google. Bằng sáng chế là:
Thế hệ tín hiệu chất lượng trang web
Được phát minh bởi Christopher C. Pennock. Jeremy Hylton, Corinna Cortes
Nộp cho Google
Bằng sáng chế ứng dụng Hoa Kỳ số 8.442.984
Công bố ngày 14 tháng 5 năm 2013
Nộp 31 Tháng Ba 2008
Tóm tắt
Hệ thống và phương pháp liên quan đến việc đánh giá chất lượng trang web được công bố. Các trang web được đánh giá cao, mối quan hệ giữa tín hiệu xếp hạng và trang web được xác định, mô hình được tạo ra và xếp hạng mô hình được phân công đến các trang web không được phân loại (unrated) bằng cách áp dụng các mô hình đến các tín hiệu trang web của các trang web được phân loại.
Các hoạt động của người kiểm duyệt chất lượng nội dung
Khi các chuyên gia kiểm duyệt nhìn vào các trang, họ cũng thực hiện các hành động của con người để đánh giá cái nhìn con người khi vào các trang, họ cũng thực hiện một số hành động khác ngoại trừ việc chỉ đánh giá cho điểm từ 1 đến 5.
Một trong số những hành động mới này là việc bỏ qua một số trang web hoàn toàn khi các URL cho thấy nội dung trang web xấu hoặc có nội dung khiêu dâm hoặc bởi vì các trang trên web không tải. Những trang web này có thể được xác định là "không hợp lệ" để xếp hạng. Một phần, phân loại này "không hợp lệ" theo đó người kiểm duyệt có thể lọc một số trang web trong quá trình đánh giá vì có thể có một khuynh hướng xếp hạng tiêu cực đến các trang cá nhân bị phản đối.
Một hành động khác là chọn cái nhìn thu hút cho trang web
Hấp dẫn rộng – nếu nội dung trang web thu hút một bộ phận lớn khách truy cập chẳng hạn như một trang web liên quan đến hồ sơ quốc gia hay sự kiện tin tức mang tầm thế giới.
Thu hút niche – nếu nội dung trang web thu hút một lượng khách truy cập chẳng hạn như trang web dành riêng cho điện.
Thu hút cái nhìn có thể được sử dụng như một yếu tố để xếp hạng các trang web hoặc bộ lọc được trình bày để đáp ứng với yêu cầu tìm kiếm. (mặc dù các bằng sáng chế không cho chúng tôi biết “thu hút cái nhìn” là một tín hiệu xếp hạng tích cực hay tiêu cực)
Áp dụng các tín hiệu chất lượng đến blog
Bằng sáng chế tuyên bố rằng các blog không phải là loại trang web được bằng sáng chế thâu tóm, nhưng với việc loại bỏ một vài câu ngắn, những tuyên bố này có thể dễ dàng được áp dụng cho bất kỳ loại trang web nào.
Có rất nhiều bằng sáng chế tương tự được nộp bởi Google có khả năng khám phá cách các tín hiệu chất lượng có thể được áp dụng cho các trang web không phải blog.
Google đặc biệt chỉ điểm ra những thứ như tỷ lệ nhấp chuột, tỷ lệ blog thuê bao, và điểm số PageRank như là tín hiệu trang web có thể được liên kết với blog.
Click Rate – Có thể có hai tỉ lệ click khác nhau được sử dụng ở đây – tỉ lệ đầu tiên liên quan đến mức độ thường xuyên một URL của trang web được nhấp vào khi nó xuất hiện trong kết quả chung được hiển thị của công cụ tìm kiếm, và tỉ lệ thứ hai là số lần URL của trang web được click trong một blog tìm kiếm. Các bằng sáng chế cho chúng ta biết rằng:
Tỷ lệ nhấp chuột là một chỉ số blog phổ biến và vì thế, đây là một chỉ số chất lượng tiềm năng.
Thay vì một số nguyên lần nhấp chuột, tỷ lệ nhấp chuột có thể được định nghĩa là số lần click trang web nhận được trái lại với số lần nó hiển thị trong kết quả tìm kiếm. Nhưng những con số này cũng có thể được bình thường hóa dựa trên vị trí trang vì một trang xuất hiện trên top kết quả sẽ được click nhiều hơn so với trang hiển thị ở cuối trang.
Tỷ lệ tham gia blog: thật thú vị khi xem Google Reader liệt kê tỷ lệ này như là một nguồn thông tin, mặc dù các bằng sáng chế cho chúng ta biết rằng Google có thể trích xuất thông tin như vậy từ các nguồn khác. Tầm quan trọng của thông tin này được giải thích ở đây:
Tỷ lệ tham gia blog chỉ mang tính chất lượng bởi vì nó là thước đo độc giả. Số lượng độc giả cao hơn là dấu hiệu của một blog chất lượng hơn.
Điểm PageRank – số điểm này là một tín hiệu có thể được sử dụng cho blog, và có khả năng nó sẽ đóng một vai trò tương tự trong việc thiết lập đánh giá chất lượng như nó có thể có mặt trong bảng xếp hạng các loại trang web trên mạng.
Kinh nghiệm rút ra
Các bằng sáng chế cung cấp thêm chi tiết về cách xếp hạng con người và tín hiệu từ một trang web có thể được sử dụng để tạo ra một mô hình đánh giá chất lượng giúp xác định cách các trang được xếp hạng trong kết quả tìm kiếm, sử dụng một chiếc máy tiếp cận để tạo ra cách xếp hạng cho các trang dựa trên mẫu thiết lập các trang đã được đánh giá.
Một điều tôi thấy thực sự thú vị là việc mô tả của bằng sáng chế về thời gian các trang có thể được tái đánh giá, hoặc phân loại lại.
Một khả năng có thể xảy ra là trang sẽ được tái đánh giá trên cơ sở định kỳ. Điều đó có vẻ rất giống những gì xảy ra với bản cập nhật Panda.
Còn nhiều điều thú vị, mặc dù có một lựa chọn khác nhau, trong đó việc tái đánh giá một trang hoặc trang web có thể được kích hoạt bởi một số thay đổi được xác định trước trong tín hiệu trang web:
Ví dụ, nếu điểm số PageRank liên kết với một trang web thay đổi theo một tỷ lệ phần trăm được xác định (ví dụ, 10%), sau đó quá trình này có thể được kích hoạt để cập nhật các mô hình, đặc trưng của mối quan hệ giữa các tín hiệu trang web và đánh giá chất lượng trang web.
Với bản cập nhật Panda trong quá khứ, Google đã cung cấp các cảnh báo về thời gian dữ liệu có thể "làm mới", điều này có nghĩa là các trang web bị ảnh hưởng có thể được tái phân loại dựa trên thông tin cập nhật định kỳ. Trong tháng 3, Google từng cho biết, thay vào đó, bản cập nhật Panda sẽ xảy ra trong một quá trình liên tục.
Panda có hoạt động giống quá trình được mô tả trong bằng sáng chế này để xác định thứ hạng chất lượng cho các trang không? Điều này có nghĩa rằng những cập nhật Panda bây giờ có thể được kích hoạt như mức độ cải thiện trong một tín hiệu chất lượng, chẳng hạn như PageRank có thể đặt ra một bản cập nhật cho một trang web?
Nếu vậy, một trang web có ảnh hưởng tiêu cực từ một bản nâng cấp như Panda có thể phải cải thiện về chất lượng tín hiệu như PageRank trên một ngưỡng nhất định để có thể được đánh giá lại theo cách cải thiện đánh giá chất lượng của nó.