Sử dụng những dữ liệu từ người dùng “đánh giá chất lượng”. Google hy vọng rằng các thuật toán của mình sẽ học được cách phát hiện ra những thông tin phản cảm, không đúng sự thật một cách chính xác hơn.
Google đang nỗ lực nhằm xác định nội dung có khả năng gây khó chịu hay phản cảm cho người tìm kiếm. Họ hy vọng cách này sẽ giúp ngăn chặn không cho những nội dung kiểu thế. Từ đó trả về những thông tin chính xác, đáng tin cậy và sát với truy vấn của người dùng.
Paul Haahr, là một trong những kỹ sư có thâm niên của Google và là người phụ trách mảng chất lượng tìm kiếm cho biết. “Chúng tôi tránh dùng từ ‘fake news’ (tin tức giả mạo) bởi vì chúng tôi cho rằng từ đó quá tối nghĩa. Tuy nhiên chúng tôi muốn nhắm đến những thông tin được chứng minh là không chính xác.”
Vai trò mới cho bộ công cụ “xếp hạng chất lượng” của Google
Nỗ lực này xoay quanh công cụ xếp hạng chất lượng của Google đối với hơn 10.000 nhà thầu Google sử dụng trên khắp thế giới để đánh giá kết quả tìm kiếm. Các công cụ đánh giá này được cung cấp các tìm kiếm thực tế để tiến hành, trích xuất từ các tìm kiếm thực tế Google thấy. Sau đó các công cụ này xếp hạng các trang xuất hiện trong các kết quả đầu tiên theo mức độ phù hợp với truy vấn của người dùng.
Các công cụ xếp hạng chất lượng không có quyền thay đổi trực tiếp các kết quả của Google. Một công cụ xếp hạng đánh dấu một kết quả cụ thể có chất lượng kém sẽ không khiến cho trang đó bị rớt hạng. Thay vào đó, dữ liệu do các công cụ xếp hạng chất lượng tạo ra được dùng để cải thiện các thuật toán tìm kiếm của Google. Cuối cùng, dữ liệu đó có thể ảnh hưởng đến các trang có chất lượng kém được công cụ xếp hạng tìm thấy, cũng như các trang chưa được đánh giá khác.
Các công cụ xếp hạng chất lượng sử dụng một bộ hướng dẫn dài gần 200 trang. Giúp các công cụ này biết cách đánh giá chất lượng website và dự đoán trước các kết quả trả về với các truy vấn cụ thể của người dùng.
Đánh dấu nội dung “gây khó chịu – phản cảm”
Các hướng dẫn này đã được cập nhật bằng một mục hoàn toàn mới về nội dung “Gây khó chịu – phản cảm”, mục này bao gồm cờ đánh dấu mới được bổ sung cho các công cụ xếp hạng dùng để đánh dấu. Cho đến nay, hiện các công cụ xếp hạng chưa thể đánh dấu các trang bằng tính năng này.
Theo các hướng dẫn này, nội dung gây khó chịu hay phản cảm thường chứa các nội dung sau (các mục dưới đây được trích dẫn trực tiếp từ hướng dẫn):
- Nội dung làm tăng lòng thù hận hay bạo lực đối với một nhóm người dựa trên các tiêu chí như: chủng tộc hay sắc tộc, tôn giáo, giới tính, quốc tịch hay công dân, người khuyết tật, xu hướng tình dục hay tư cách cựu chiến binh.
- Nội dung có từ bôi nhọ chủng tộc hoặc cụm từ cực kỳ phản cảm.
- Các hình ảnh bạo lực như đối xử tàn bạo với động vật hay lạm dụng trẻ em.
- Các thông tin hướng dẫn cách thức thực hiện các hành động gây hại (ví dụ, cách buôn bán người hay tấn công bạo lực).
- Các dạng nội dung khác mà người dùng ở địa phương bạn thấy cực kỳ khó chịu hay phản cảm.
Các hướng dẫn cũng bao gồm các ví dụ. Ví dụ, dưới đây là một ví dụ về lệnh tìm kiếm “holocaust history,” (lịch sử vụ thảm sát) trả về hai kết quả có thể được hiển thị và cách xếp hạng hai kết quả này:
Kết quả đầu tiên là từ một của người ủng hộ thuyết cho rằng người da trắng là ưu việt. Các công cụ xếp hạng được thông tin là kết quả đó nên được đánh dấu là khó chịu – phản cảm bởi vì nhiều người sẽ thấy việc phủ nhận cuộc thảm sát là phản cảm.
Kết quả thứ hai là từ History Channel. Các công cụ đánh giá được lệnh hãy đánh dấu kết quả này là nội dung gây khó chịu – phản cảm bởi vì nội dung này là một “nguồn thông tin lịch sử đúng sự thật.”
Ở hai ví dụ khác đã được đưa ra, các công cụ xếp hạng được lệnh đánh dấu một kết quả được cho là thể hiện sai một nghiên cứu khoa học theo cách gây phản cảm và một trang dường như tồn tại chỉ phục vụ mục đích làm cho con người ta trở nên tàn nhẫn hơn:
Bị đánh dấu chưa hẳn sẽ ngay lập tức bị hạ cấp hay bị cấm
Sẽ như thế nào nếu nội dung bị đánh dấu theo cách này? Câu trả lời là ngay lập tức thì chưa sao cả. Các kết quả được các công cụ xếp hạng đánh dấu là “training data” (dữ liệu đào tạo) là dành cho người mã hóa của Google, người viết các thuật toán tìm kiếm, cũng như cho các hệ thống học máy của Google. Về cơ bản, nội dung có bản chất như này được dùng để giúp Google biết cách để tự động nhận diện nội dung gây khó chịu hay phản cảm.
Nói cách khác, khi bị một công cụ xếp hạng chất lượng đánh dấu là “gây khó chịu – phản cảm” không có nghĩa là trang đó hay site đó cũng được nhận diện là gây khó chịu – phản cảm trên máy tìm kiếm thực tế của Google. Thay vào đó, đó là dữ liệu Google dùng để giúp các thuật toán tìm kiếm có thể tự động phát hiện những trang nên được đánh dấu.
Nếu chính bản thân các thuật toán là nội dung bị đánh dấu, thì nội dung đó ít có khả năng hiển thị cho các tìm kiếm có mục đích tìm kiếm về việc học nói chung. Ví dụ, người tìm thông tin về Holocaust (Cuộc thảm sát) ít có khả năng truy cập vào các site phủ nhận Holocaust (Cuộc thảm sát), nếu mọi thứ xảy ra đúng theo dự tính của Google.
Bị đánh dấu là gây khó chịu – phản cảm không có nghĩa là nội dung đó sẽ không xuất hiện trên toàn bộ trang Google. Trong trường hợp Google xác định người dùng chắc chắn muốn tìm nội dung đó, thì nội dung đó vẫn được trả về. Ví dụ, ai đó chắc chắn muốn tìm theo tên một site nói về thuyết cho rằng người da trắng là ưu việt, các công cụ xếp hạng sẽ được lệnh:
Những người chắc chắn muốn tìm nội dung phản cảm sẽ nhận được thông tin có thật
Còn với những tìm kiếm trong đó người dùng đã rất chắc chắn về các tình huống cụ thể có thể gặp phải thì sẽ như thế nào? Ví dụ, nếu ai đó nghi ngờ Holocaust (Cuộc tàn sát) đã xảy ra hay chưa thực hiện một tìm kiếm về chủ đề đó, thì tìm kiếm đó có được xem là người dùng chắc chắn muốn tìm nội dung để làm sáng tỏ mối nghi ngờ đó không, thậm chí nếu thông tin đó được cho là gây khó chịu hay phản cảm?
Các hướng dẫn giúp giải quyết vấn đề này. Hướng dẫn thừa nhận rằng người dùng có thể tìm những chủ đề có thể gây khó chịu hay phản cảm. Quan điểm của hướng dẫn là trong mọi trường hợp, giả định sẽ là trả về thông tin đáng tin cậy đúng với sự thật.
Từ các hướng dẫn:
Hãy nhớ rằng người dùng ở mọi độ tuổi, giới tính và tôn giáo sử dụng công cụ tìm kiếm cho nhiều nhu cầu khác nhau. Một nhu cầu người dùng đặc biệt quan trọng là tìm hiểu các chủ đề khó trao đổi trực tiếp với người khác. Ví dụ, một số người có thể ngại hỏi ý nghĩa của từ racial slur (bôi nhọ chủng tộc). Cũng có người muốn tìm hiểu tại sao các phát ngôn xúc phạm chủng tộc lại được đưa ra. Cho người dùng quyền truy cập tài nguyên để giúp họ hiểu chủ nghĩa phân biệt chủng tộc, lòng thù hận và các chủ đề nhạy cảm khác là việc có lợi cho xã hội.
Khi lệnh tìm kiếm của người dùng dường như yêu cầu cung cấp hoặc dung thứ cho nội dung có khả năng gây khó chịu hay phản cảm, chúng tôi sẽ coi đó là một lệnh tìm kiếm “dung thứ Gây khó chịu – phản cảm”. Để xếp hạng Needs Met (Đáp ứng nhu cầu), hãy giả định rằng người dùng có đủ học vấn/thông tin để chắc rằng mình muốn thực hiện các lệnh tìm kiếm dung thứ Gây khó chịu – phản cảm. Toàn bộ kết quả trả về phải được xếp hạng theo thang xếp hạng Needs Met trong đó giả thiết rằng người dùng có đủ học vấn/thông tin để thực hiện lệnh tìm kiếm đó.
Đặc biệt, để nhận một xếp hạng Highly Meets, kết quả thông tin về các chủ đề gây khó chịu – phản cảm phải:
- Lấy từ các nguồn đáng tin cậy, đúng sự thật và xác thực, trừ khi lệnh tìm kiếm chỉ báo rõ ràng rằng người dùng muốn tìm kiếm một quan điểm thay thế khác.
- Đúng với chủ đề cụ thể của lệnh tìm kiếm để giúp người dùng hiểu được tại sao nội dung lại gây khó chịu hay phản cảm và có những yếu tố nhạy cảm nào đi kèm.
Lưu ý:
- Đừng giả định rằng các lệnh tìm kiếm dung thứ gây khó chịu – phản cảm “xứng đáng” nhận được kết quả phản cảm.
- Đừng giả định rằng các lệnh tìm kiếm dung thứ gây khó chịu – phản cảm là do người theo chủ nghĩa phân biệt chủng tộc hay người “xấu” thực hiện.
- Đừng giả định rằng người dùng chỉ muốn đánh giá một khía cạnh gây khó chịu hay phản cảm.
Hướng dẫn cũng đưa ra một số ví dụ về các tìm kiếm chủ đề gây khó chịu – phản cảm:
Liệu có hiệu quả không?
Google lệnh cho Search Engine Land, công cụ đã và đang thử nghiệm các hướng dẫn mới này bằng một bộ công cụ xếp hạng chất lượng con và sử dụng dữ liệu đó để thực hiện thay đổi xếp hạng hồi tháng 12. Mục đích của việc này là để giảm thiểu nội dung phản cảm xuất hiện cho các tìm kiếm như “Có thật là đã diễn ra Holocaust (Cuộc thảm sát).”
Kết quả trả về cho lệnh tìm kiếm đó chắc chắn đã được cải thiện. Một phần, thay đổi xếp hạng đã có tác dụng. Một phần, toàn bộ nội dung mới, được hiển thị theo mức độ phản cảm của các kết quả tìm kiếm này đã có ảnh hưởng.
Tuy nhiên ngoài ra, Google hiện nay không còn trả về một video giả mạo về Tổng thống Barack Obama để nói rằng ông được sinh ra tại Kenya, cho lệnh tìm kiếm “obama sinh ra tại kenya,” như trước đây nữa (trừ khi bạn chọn tùy chọn tìm kiếm “Videos”, trong đó video giả đó vẫn host trên trang YouTube của Google vẫn thuộc kết quả trả về đầu tiên).
Tương tự, một lệnh tìm kiếm cụm từ “Obama pledge of allegiance” (Obama cam kết trung thành) không còn được đẩy lên kết quả trả về đầu tiên bởi một site tin tức giả mạo, cho rằng ông chuẩn bị cấm cam kết đó, giống với trường hợp trước đó. Cụm từ đó vẫn nằm trong kết quả trả về đầu tiên nhưng xếp sau năm bài viết vạch trần phát ngôn đó.
Mọi thứ vẫn chưa được cải thiện. Một lệnh tìm kiếm cụm từ “white people are inbred” (người da trắng được lai cùng dòng) tiếp tục có nội dung kết quả trả về đầu tiên, nội dung này chắc chắn vi phạm hướng dẫn mới của Google.
“Chúng ta sẽ biết được một số hướng dẫn này sẽ có tác dụng như thế nào. Tôi sẽ nói thật. Chúng ta đang vừa làm vừa học hỏi,” Haahr cho biết, ông thừa nhận rằng công sức sẽ không tạo ra những kết quả hoàn hảo. Tuy nhiên Google hy vọng đó sẽ là một cải tiến quan trọng. Haahr cho rằng các công cụ xếp hạng đã giúp định hình thành công các thuật toán của Google và tự tin cho rằng các công cụ đã giúp Google cải thiện khả năng xử lý các tin giả mạo và kết quả tìm kiếm có vấn đề.
“Chúng tôi rất hài lòng với những gì công cụ xếp hạng đã làm được cho mình. Chúng tôi chỉ có khả năng cải thiện xếp hạng ở mức chúng tôi đã đạt được trong những năm qua, bởi vì chúng tôi có một chương trình xếp hạng thực sự mạnh mẽ, giúp chúng tôi thực sự đánh giá được những gì mình đang làm,” ông cho biết.
Trong môi trường chính trị có mức độ chịu trách nhiệm ngày càng cao, thật dễ hiểu khi chúng ta hay thắc mắc việc các công cụ xếp hạng sẽ xử lý nội dung có thể dễ dàng tìm thấy trên các site tin tức lớn, trong đó kêu gọi cả người theo chủ nghĩa tự do và kẻ theo chủ nghĩa bảo thủ hay có mục đích xấu hơn như thế nào. Nội dung này có nên được đánh dấu là “Gây khó chịu – phản cảm?” Theo các hướng dẫn thì câu trả lời là không. Lý do là vì định hướng chính trị không phải là một trong những lĩnh vực thuộc phạm vi cần đánh dấu.
Còn về những kết quả không phản cảm nhưng giả mạo thì sao, ví dụ như “ai phát minh ra cầu thang” khiến cho Google phải đưa ra một câu trả lời cho rằng cầu thang được phát minh vào năm 1948?
Hay một tình huống gây phiền toái cho cả Google và Bing, một câu chuyện không có thật về người đã “phát minh ra” bài tập về nhà:
Google cho rằng những thay đổi khác về hướng dẫn có thể giải quyết được việc đó, trong đó các công cụ xếp hạng được lệnh kiểm tra kỹ hơn tính xác thực của các câu trả lời và tạo xếp hạng độ tin cậy cao hơn cho các site có thông tin đúng sự thật so với các site có thông tin đáng tin cậy.
Nguồn: searchengineland.com
Dịch bởi Persotran
Biên tập bởi vietmoz.net
3 bình luận
Vụ này ms, e ngại đọc bài dài nhưng càng đọc càng thấy cuốn hút và giờ đã đọc 2-3 lần rồi. Cảm ơn anh!
Bài này khá khó hiểu, em hiểu được là ngon rồi. Chúc mừng em
Thực ra 1 vài tuần, thậm chí cả tháng e ms vô Vietmoz đọc tài liệu nhưng rất có cảm tình vs nơi này, từ những ngày đầu tiên e biết đến cái từ gọi là seo ^_^ mà e ns từ “Cảm ơn anh” trên web cũng vài ba lần rồi, chắc a cũng không nhớ đâu!