Uy tín nội dung: Các biện pháp tiềm năng để đánh giá nội dung có tính xác thực
Ngày 19/01/2026 - 10:01Hiện nay, chúng ta đều biết có rất nhiều tranh cãi xung quanh vấn đề này. Google đã nói khá rõ ràng rằng chuyên môn, uy tín và độ tin cậy là những phần rất quan trọng trong Hướng dẫn Đánh giá Chất lượng của họ, nhưng thông tin về việc chính xác phần nào của thuật toán giúp xác định loại nội dung này lại khá mơ hồ.
Chúng ta biết rằng họ không sử dụng dữ liệu đánh giá chất lượng để huấn luyện thuật toán, mà sử dụng dữ liệu đó để loại bỏ những thay đổi thuật toán không đáp ứng các tiêu chuẩn này.
Chúng ta đánh giá độ tin cậy của nội dung như thế nào?
Vậy làm thế nào chúng ta có thể đo lường độ uy tín của nội dung? Cuối cùng, bất kỳ ý tưởng nào chúng ta thảo luận trong tối ưu hóa công cụ tìm kiếm đều phải quy về một tập hợp các phép đo được thực hiện và bằng cách nào đó được sử dụng để xếp hạng trang này cao hơn trang khác.
Đôi khi, việc cảm nhận bằng trực giác là điều hợp lý, ví dụ như khi viết cho con người, hãy viết như một con người. Nhưng nội dung mang tính chuyên môn cao thì khó hơn thế một chút. Thật khó để chỉ cần nghĩ thoáng qua và biết được nội dung nào mang tính chuyên môn cao, còn nội dung kia thì không. Trên thực tế, Hướng dẫn Đánh giá Chất lượng đã nêu rất rõ ràng một số ví dụ về nội dung được coi là có tính chuyên môn cao, chẳng hạn như trong mục Tin tức, họ đề cập rằng bài viết được viết bởi một tác giả đoạt giải Pulitzer.
Tôi không biết có bao nhiêu người trong số các bạn có tác giả đoạt giải Pulitzer trong đội ngũ nhân viên hoặc có khách hàng là tác giả đoạt giải Pulitzer. Vì vậy, tôi không thấy điều đó thực sự hữu ích như thế nào đối với những người như chúng ta, những người đang cố gắng tạo ra nội dung có tính chuyên môn cao mà không phải là nhà văn từng đoạt giải.
Hôm nay tôi muốn chia sẻ một loạt ý tưởng đã nảy ra trong đầu tôi, cùng với sự đóng góp và trao đổi ý kiến từ cộng đồng, về những điều chúng ta có thể sử dụng để hiểu rõ hơn về nội dung có tính chuyên môn. Được rồi.
ALBERT
Đây là một số biện pháp tiềm năng để đánh giá nội dung có tính xác thực. Biện pháp đầu tiên, và tôi chắc chắn điều này sẽ gây ra một mớ hỗn độn, nhưng được rồi, đó là ALBERT. Chúng ta đã nói về việc Google sử dụng BERT để hiểu ngôn ngữ. ALBERT, viết tắt của "a lighter BERT " (một phiên bản BERT nhẹ hơn), là một mô hình tương tự được Google sử dụng, và nó đã được huấn luyện trong những trường hợp cụ thể với mục tiêu trả lời các câu hỏi.
Điều đó có vẻ không phải là vấn đề quá lớn. Chúng ta đã sử dụng tính năng trả lời câu hỏi từ rất lâu rồi. Các đoạn trích nổi bật cũng chính là như vậy. Nhưng ALBERT đã xuất hiện một cách áp đảo đến mức làm lu mờ bất cứ điều gì chúng ta từng thấy trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) kiểu này.
Vì vậy, nếu bạn tham gia cuộc thi SQuAD, tức là cuộc thi trả lời câu hỏi của Đại học Stanford, nơi họ có một bộ câu hỏi khổng lồ và một bộ tài liệu khổng lồ, sau đó họ cử người vào để tìm câu trả lời trong các tài liệu và xác định tài liệu nào không có câu trả lời và tài liệu nào có, và sau đó nhiều tổ chức khác nhau đã tạo ra các mô hình để cố gắng tự động tìm ra câu trả lời.
Thật ra, cuộc cạnh tranh này đã diễn ra rất gay cấn và kéo dài giữa một loạt các ông lớn như Google, Baidu, nhiều nhóm của Microsoft. Chúng ta đang nói đến những người thông minh nhất thế giới, Viện Allen, tất cả đều đang cạnh tranh quyết liệt.
Hiện tại, ALBERT hoặc các biến thể của nó đang chiếm giữ 5 vị trí đầu tiên và 9 trong số 10 vị trí hàng đầu, và tất cả chúng đều hoạt động tốt hơn con người. Đó là sự vượt trội. Vì vậy, chúng ta đang có ở đây một công nghệ đáng kinh ngạc để trả lời các câu hỏi.
Vậy điều này liên quan gì đến uy tín nội dung? Tại sao điều này lại quan trọng? Chà, nếu bạn nghĩ về một tài liệu, bất kỳ loại nội dung nào mà chúng ta sản xuất, mục đích là để trả lời những câu hỏi mà khách hàng muốn được giải đáp. Vì vậy, bất kỳ chủ đề nào chúng ta bắt đầu, ví dụ như chủ đề khoa học dữ liệu, thì có lẽ có rất nhiều câu hỏi mà mọi người muốn biết về chủ đề đó.
Họ có thể muốn biết: Nhà khoa học dữ liệu là gì? Họ kiếm được bao nhiêu tiền? Cần biết những gì để trở thành một nhà khoa học dữ liệu? Và đây chính là lúc một công cụ như ALBERT có thể phát huy tác dụng và cực kỳ hữu ích trong việc đo lường tính xác thực của nội dung. Bạn thấy đấy, nếu một trong những thước đo tính xác thực của nội dung là mức độ nội dung đó trả lời tốt tất cả các câu hỏi liên quan đến chủ đề thì sao?
Bạn có thể hình dung Google xem xét tất cả các trang xếp hạng cho từ khóa "khoa học dữ liệu", và họ biết 10 câu hỏi hàng đầu được hỏi về chủ đề này, sau đó xem nội dung nào trả lời tốt nhất 10 câu hỏi đó. Nếu họ có thể làm được điều đó, đó sẽ là một thước đo tuyệt vời để xác định mức độ đầy đủ, tầm quan trọng, giá trị, hữu ích và độ tin cậy của nội dung đó.
Tôi nghĩ thuật toán ALBERT thực sự có rất nhiều tiềm năng. Nhưng hãy tạm gác chuyện đó lại. Còn rất nhiều yếu tố khác có thể liên quan đến độ uy tín của nội dung.
Mật độ thông tin
Một ý tưởng mà tôi rất thích là khái niệm về mật độ thông tin. Nhiều khi khi viết nội dung, đặc biệt là khi chúng ta không quen thuộc với chủ đề, chúng ta thường viết rất nhiều nội dung thừa thãi.
Về cơ bản, chúng ta chỉ đang cố gắng nhồi nhét từ ngữ vào để đáp ứng độ dài từ ngữ theo yêu cầu của hợp đồng, mặc dù trong thâm tâm chúng ta biết rằng số lượng từ trên trang thực sự không quyết định liệu nó có được xếp hạng cao hay không. Vì vậy, một trong những cách để đánh giá xem một nội dung có thực sự giá trị hay không, hoặc ít nhất là có cung cấp thông tin quan trọng hay không, là sử dụng các chương trình xử lý ngôn ngữ tự nhiên để trích xuất thông tin.
ReVerb + OpenIE
Về cơ bản, công nghệ xử lý ngôn ngữ tự nhiên (NLP) mã nguồn mở hoặc ít nhất là công nghệ được cung cấp miễn phí phổ biến nhất bắt đầu từ một dự án có tên ReVerb và hiện đã sáp nhập vào dự án Open IE. Tóm lại, bạn chỉ cần cung cấp cho nó một đoạn nội dung, và nó sẽ trích xuất tất cả các thông tin xác thực có trong nội dung đó.
Vậy nếu tôi viết một đoạn văn nói rằng quần vợt là môn thể thao được chơi bằng vợt và bóng, và hôm nay tôi đang rất vui, đại loại như vậy, thì nó sẽ có thể xác định được tuyên bố thực tế, quần vợt là gì, rằng đó là môn thể thao được chơi bằng vợt và bóng.
Nhưng điều đó sẽ bỏ qua tuyên bố rằng tôi đang rất vui vẻ ngày hôm nay, bởi vì đó không thực sự là một thông tin, một tuyên bố thực tế mà chúng ta đang đưa ra. Vì vậy, khái niệm về mật độ thông tin sẽ là số lượng sự kiện có thể được trích xuất từ một tài liệu so với tổng số từ . Được rồi.
Nếu có thước đo đó, chúng ta có thể dễ dàng phân loại nội dung chỉ được viết để thu hút người đọc và nội dung thực sự giàu thông tin. Hãy tưởng tượng một bài viết trên Wikipedia, lượng thông tin trong đó dày đặc như thế nào so với loại nội dung mà hầu hết chúng ta thường tạo ra. Vậy còn những yếu tố khác nữa là gì?
Phong cách nội dung
Chúng ta hãy cùng bàn về phong cách nội dung.
Đây sẽ là một thước đo rất dễ dàng. Chúng ta có thể nói về việc sử dụng trích dẫn nội tuyến , như Wikipedia vẫn làm, trong đó sau khi nêu một sự kiện, họ sẽ liên kết đến cuối trang nơi hiển thị nguồn trích dẫn, giống như cách bạn làm khi viết bài luận ở đại học hoặc luận văn, điều này sẽ tạo tính xác thực. Hoặc việc sử dụng danh sách sự kiện hoặc mục lục , như Wikipedia vẫn làm, hoặc sử dụng ngày tháng chính xác hoặc định dạng theo kiểu AP.
Đây đều là những chỉ số rất đơn giản mà nếu bạn suy nghĩ kỹ, thì các trang web đáng tin cậy thường sử dụng. Nếu đúng như vậy, thì chúng có thể là những gợi ý cho Google biết rằng nội dung bạn đang tạo ra có tính xác thực. Vì vậy, đó không phải là những chỉ số dễ dàng duy nhất mà chúng ta có thể xem xét.
Chất lượng bài viết
Còn rất nhiều vấn đề khác khá đơn giản, chẳng hạn như vấn đề chất lượng bài viết.
Việc đảm bảo sử dụng đúng chính tả và ngữ pháp thì dễ dàng biết bao ? Nhưng bạn đã bao giờ để ý đến trình độ đọc hiểu chưa? Bạn đã bao giờ nghĩ đến việc đảm bảo nội dung mình viết không quá khó hiểu đến mức không ai có thể nắm bắt được, hoặc quá đơn giản đến mức thiếu tính chuyên môn và không đáng tin cậy? Nếu nội dung của bạn được viết ở trình độ lớp ba và trang đó nói về một vấn đề sức khỏe nào đó, tôi nghĩ Google có thể nhanh chóng sử dụng tiêu chí này để loại bỏ trang web của bạn.
Ngoài ra còn có những yếu tố như độ dài câu , liên quan đến khả năng đọc hiểu, tính độc đáo của nội dung , và cả cách sử dụng từ ngữ . Điều này khá đơn giản. Hãy tưởng tượng rằng chúng ta lại đang xem xét lĩnh vực khoa học dữ liệu, và Google xem xét các từ bạn sử dụng trên trang của mình. Khi đó, có thể thay vì xem xét tất cả các trang web đề cập đến khoa học dữ liệu, Google chỉ xem xét các trang web giáo dục hoặc chỉ xem xét các bài báo đã được xuất bản và sau đó so sánh cách sử dụng ngôn ngữ ở đó.
Đó sẽ là một cách khá dễ dàng để Google xác định một nội dung dành cho người tiêu dùng có tính xác thực so với một nội dung khác cũng dành cho người tiêu dùng nhưng không có tính xác thực.
Phong cách truyền thông
Một khía cạnh khác mà chúng ta có thể xem xét là phong cách truyền thông. Đây là điều hơi khó hiểu về cách Google có thể tận dụng nó.
Nhưng đồng thời, tôi nghĩ rằng những chỉ số này có thể đo lường được và dễ sử dụng đối với những người làm tối ưu hóa công cụ tìm kiếm, như chúng tôi.
Đồ thị có chú thích
Một trong những cách đó là sử dụng biểu đồ có chú thích. Tôi nghĩ chúng ta nên chuyển hướng khỏi việc sử dụng hình ảnh biểu đồ và hướng tới việc sử dụng các thư viện vẽ biểu đồ mã nguồn mở. Bằng cách đó, thông tin thực tế, các con số có thể được cung cấp cho Google trong mã nguồn.
Hình ảnh độc đáo
Hình ảnh độc đáo rõ ràng là điều chúng tôi quan tâm. Trên thực tế, điều này còn được liệt kê trong Hướng dẫn Đánh giá Chất lượng.
Khả năng tiếp cận
Cuối cùng, khả năng truy cập rất quan trọng. Tôi biết rằng khả năng truy cập không làm cho nội dung trở nên đáng tin cậy, nhưng nó nói lên mức độ quan tâm của người tạo ra nội dung đến các chi tiết của trang web và trang cụ thể. Có một câu chuyện rất nổi tiếng, và tôi không nhớ tên ban nhạc là gì, nhưng họ đã ghi vào hợp đồng rằng đối với mỗi buổi hòa nhạc, họ cần có một bát M&M, với tất cả những viên M&M màu nâu đã được loại bỏ, chờ sẵn trong phòng.
Không phải vì họ có vấn đề gì với những viên M&M màu nâu hay họ thực sự thích M&M, hoặc bất cứ điều gì tương tự. Chỉ là để chắc chắn rằng họ đã đọc hợp đồng. Khả năng tiếp cận là một trong những điều mà họ có thể nhận biết liệu bạn có chú trọng đến từng chi tiết hay không.
Tiêu đề giật gân, chất lượng tác giả và Google Scholar
Cuối cùng, có một vài vấn đề khác mà tôi nghĩ là thú vị và thực sự cần được đề cập đến. Đầu tiên là các tiêu đề giật gân câu view.
Tiêu đề giật gân
Điều này được Google hoặc ít nhất là các chuyên gia đánh giá chất lượng xem xét để xác định xem nội dung đó có đáng tin cậy hay không. Hãy đặt tiêu đề sao cho đúng nội dung, đừng cố phóng đại để thu hút lượt nhấp chuột.
Chất lượng tác giả
Một điều nữa mà họ nói cụ thể là bạn có đề cập đến trình độ chuyên môn của tác giả hay không. Chắc chắn, bạn không có một nhà văn đoạt giải Pulitzer, nhưng tác giả của bạn ít nhất cũng phải có một số bằng cấp nhất định, và những bằng cấp đó sẽ rất quan trọng đối với Google trong việc đánh giá xem tác giả có thực sự hiểu biết về chủ đề mình đang viết hay không.
Google Scholar
Một điều nữa mà tôi nghĩ chúng ta thực sự nên bắt đầu xem xét là Google Scholar. Bạn nghĩ Google kiếm được bao nhiêu tiền từ Google Scholar? Có lẽ không nhiều lắm. Mục đích của việc sở hữu một cơ sở dữ liệu khổng lồ về thông tin học thuật là gì nếu bạn không chạy quảng cáo trên bất kỳ trang nào? Có lẽ, thông tin học thuật đó có thể được khai thác theo cách để họ có thể đánh giá nội dung được tạo ra cho người tiêu dùng xem liệu nó có phù hợp hay không, xét về mặt sự thật, ngôn ngữ hay tính xác thực, với những gì giới học thuật đang nói về cùng một chủ đề.
Tất nhiên, tất cả những ý tưởng này chỉ là ý tưởng. Chúng ta vẫn còn một dấu hỏi lớn về cách Google đánh giá độ uy tín của nội dung. Điều đó không có nghĩa là chúng ta nên bỏ qua nó. Vì vậy, hy vọng những ý tưởng này sẽ giúp bạn nảy ra một số ý tưởng để cải thiện nội dung của riêng mình, và có lẽ bạn có thể chia sẻ thêm một số ý tưởng khác trong phần bình luận.
Điều đó thật tuyệt vời và chúng ta có thể thảo luận thêm về cách đo lường những điều đó. Tôi rất mong chờ điều đó. Cảm ơn bạn một lần nữa.
