Nghiên cứu mới từ Ziff Davis làm sáng tỏ hơn về mối tương quan giữa Quyền hạn miền và sở thích nội dung LLM, cho thấy tương lai có thể không khác nhiều so với hiện tại.
Nghiên cứu của Ziff Davis tiết lộ rằng các LLM ưu tiên các trang web có DA cao
Ngày 28/11/2025 - 09:11Tại sao Ziff Davis lại tiến hành nghiên cứu này?
Ziff Davis , một nhà xuất bản lớn sở hữu các thương hiệu như PCMag, Mashable, IGN và Moz, cũng đang đối mặt với những thách thức tương tự như các công ty truyền thông khác. Họ nghi ngờ rằng các Mô hình Ngôn ngữ Lớn (LLM) đang đào tạo nội dung của họ mà không có thỏa thuận cấp phép. Do đó, rất khó để xác định nội dung nào đang được ưu tiên.
Nghiên cứu này được thực hiện để giải quyết vấn đề này. Các nhà nghiên cứu đã phân tích các tập dữ liệu như Common Crawl, C4, OpenWebText và OpenWebText2 để tìm hiểu cách các LLM được đào tạo, loại nội dung họ ưa thích và cách những lựa chọn này ảnh hưởng đến hành vi và kết quả đầu ra của AI.
Những điểm chính rút ra từ Nghiên cứu LLM của Ziff Davis
Nếu bạn muốn bỏ qua phần còn lại của bài viết, tôi đã tóm tắt những phát hiện chính dưới đây:
- Các LLM đánh giá cao các tập dữ liệu chất lượng cao, được quản lý chặt chẽ hơn các dữ liệu web thô khác
- Các nhà xuất bản có thẩm quyền thống trị các tập dữ liệu được quản lý này
- OpenWebText và OpenWebText2 có tỷ lệ nội dung DA cao hơn nhiều so với các tập dữ liệu chưa được quản lý
- Các nhà phát triển LLM ưu tiên nội dung của nhà xuất bản thương mại, phản ánh sở thích về chất lượng và độ tin cậy
Những tập dữ liệu nào đã được phân tích?
Nghiên cứu của Ziff Davis đã kiểm tra bốn tập dữ liệu quan trọng có vai trò thiết yếu trong việc đào tạo các mô hình ngôn ngữ lớn:
- Common Crawl: Kho lưu trữ văn bản web chưa được quản lý được lấy từ toàn bộ internet với mức độ kiểm soát chất lượng tối thiểu.
- C4: Phiên bản được tinh chỉnh của Common Crawl, tập trung vào các trang tiếng Anh và loại trừ các nội dung trùng lặp và văn bản chất lượng thấp. Phiên bản này cung cấp một tập dữ liệu được tinh chỉnh hơn mà không cần quá trình quản lý nghiêm ngặt.
- OpenWebText: Proxy cho WebText của OpenAI, nhấn mạnh nội dung chất lượng cao được liên kết từ Reddit với ngưỡng bình chọn tối thiểu.
- OpenWebText2: Phiên bản tiếp theo của OpenWebText với bộ dữ liệu mở rộng và cập nhật nhưng vẫn duy trì phương pháp tập trung vào chất lượng.
Điều quan trọng cần lưu ý là các tập dữ liệu này không được tạo ra như nhau. Các tập dữ liệu được quản lý chặt chẽ hơn, như OpenWebText và OpenWebText2, chứa tỷ lệ nội dung có thẩm quyền cao hơn , trong khi các nguồn không được lọc như Common Crawl lấy từ một nhóm trang web rộng hơn nhưng chất lượng thấp hơn nhiều. Sự khác biệt về tập dữ liệu ảnh hưởng đến cách các LLM học và tạo phản hồi.
Các nhà xuất bản được lựa chọn cho nghiên cứu này như thế nào?
Nghiên cứu sử dụng lưu lượng truy cập web của Comscore để xác định nhà xuất bản nào cần phân tích. Các nhà nghiên cứu tập trung vào 15 nhà xuất bản danh mục đầu tư hàng đầu trong danh mục Truyền thông tính đến tháng 8 năm 2020, đại diện cho các tổ chức tin tức và truyền thông được truy cập rộng rãi nhất.
Quá trình tuyển chọn đã loại trừ các nhà xuất bản độc quyền, các công ty công nghệ phi truyền thông và các nền tảng nội dung do người dùng tạo ra để ưu tiên các nhà xuất bản thương mại đã thành danh hơn.
Đơn vị đo lường nào được sử dụng?
Nghiên cứu đã sử dụng Chỉ số Domain Authority (DA) của Moz để đo lường ảnh hưởng và chất lượng nội dung web trong các tập dữ liệu đào tạo LLM. Mặc dù DA không phải là yếu tố xếp hạng tìm kiếm, nhưng nó là một số liệu được công nhận, dự đoán khả năng xếp hạng của một trang web trên SERP dựa trên các yếu tố như backlink, lịch sử tên miền và kích thước trang web.
Để phân tích sở thích nội dung LLM, nghiên cứu đã tổng hợp điểm DA Moz cho tất cả các URL được tìm thấy trong Common Crawl, OpenWebText, OpenWebText2 và C4. Kết quả cho thấy mối tương quan chặt chẽ giữa việc quản lý tập dữ liệu và phân phối DA. Trong khi đó, các tập dữ liệu chưa được quản lý chủ yếu chứa các trang web có DA thấp, trong khi các tập dữ liệu được quản lý lại thiên về các nhà xuất bản có DA cao.
Chúng ta học được gì từ Nghiên cứu Ziff Davis?
Hầu hết các tập dữ liệu được quản lý để cải thiện chất lượng đầu ra của AI
Nghiên cứu của Ziff Davis chỉ rõ rằng mặc dù các mô hình này có thể thu thập mọi thứ một cách bừa bãi, nhưng chúng lại đánh giá cao hơn các tập dữ liệu được chọn lọc để ưu tiên chất lượng.
Việc quản lý định hình cách các LLM xử lý và tạo ra nội dung. Các tập dữ liệu thô như Common Crawl được lấy từ web mở với sự kết hợp giữa các nguồn chất lượng cao và thấp. Ngược lại, các tập dữ liệu được quản lý như OpenWebText và OpenWebText2 lọc bỏ nội dung chất lượng thấp để tạo ra mức độ tập trung thông tin đáng tin cậy cao hơn.
Quá trình chọn lọc có chủ đích này cải thiện độ chính xác của mô hình, chất lượng phản hồi và mức độ liên quan của nội dung. Nó cũng giải thích tại sao các trang web có thẩm quyền cao lại chiếm ưu thế trong kết quả đầu ra của AI.
Các LLM thích nội dung chất lượng cao từ các nhà xuất bản thương mại có Thẩm quyền tên miền cao
Các chương trình Thạc sĩ Luật (LLM) không xử lý tất cả nội dung web một cách bình đẳng. Nghiên cứu của Ziff Davis xác nhận rằng các nhà xuất bản thương mại có DA cao chiếm ưu thế trong các tập dữ liệu được quản lý.
Chúng tôi đã kết hợp Moz API và Google Collab để chạy phân tích DA hàng loạt cho tất cả các URL được nêu trong nghiên cứu.
Bạn có thể xem tập lệnh tùy chỉnh tại đây .
84,2% nhà xuất bản được phân tích có DA trung bình từ 60 trở lên, cho thấy sự ưu tiên rõ ràng đối với các thương hiệu truyền thông đã có uy tín. Khi các tập dữ liệu được quản lý chặt chẽ hơn, tỷ lệ nội dung có DA cao cũng tăng lên, với các nhà xuất bản như The New York Times và News Corp xuất hiện thường xuyên hơn.
Một xu hướng mới nổi của các công ty AI hợp tác với các nhà xuất bản lớn
Không có gì là miễn phí trong cuộc sống, và các công ty AI hiểu rõ điều đó. Phản ứng dữ dội từ các nhà xuất bản về nội dung bản quyền đã buộc các công ty AI phải môi giới các thỏa thuận cấp phép độc quyền với một nhóm các nhà xuất bản được chọn lọc như News Corp và Axel Springer. Nhiều nhà xuất bản này dường như đã sử dụng các quy tắc robots.txt làm đòn bẩy trong các cuộc đàm phán này.
Điều này có nghĩa là các nhà xuất bản có thỏa thuận cấp phép sẽ có nhiều tính năng hơn không?
Không. Mặc dù các nhà xuất bản có quan hệ đối tác AI xuất hiện thường xuyên hơn trong OpenWebText2 so với top 1000 WebText, nhưng mối tương quan này không phải là tuyệt đối.
Ba trong số năm nhà xuất bản hàng đầu trong OpenWebText 2 (NYT, Advance và Gannett) không có thỏa thuận cấp phép với OpenAI. Ngoài ra, top 1000 WebText có tỷ lệ các nhà xuất bản này cao hơn OpenWebText 2 (13,47% so với 12,04%). Điều này đủ để nói rằng quan hệ đối tác AI không đảm bảo khả năng biểu diễn dữ liệu cao hơn. Cũng cần lưu ý rằng NYTimes blanket chặn hầu hết các trình thu thập dữ liệu AI trong robots.txt của nó, vì vậy sự hiện diện của nó trong tập dữ liệu này cho thấy những người tạo ra các tập dữ liệu này muốn sử dụng nội dung của NYTimes, nhưng không có nghĩa là họ có thể làm như vậy.
Nghiên cứu của Ziff Davis có ý nghĩa gì đối với SEO?
Nội dung vẫn là vua
Mọi nhà xuất bản lớn đều phát triển mạnh nhờ nội dung chất lượng cao — từ tin nóng và báo chí điều tra đến các báo cáo dựa trên dữ liệu và phân tích chuyên gia. Nhìn vào các nhà xuất bản hàng đầu được đề cập trong nghiên cứu của Ziff Davis, chúng ta thấy những cái tên quen thuộc như:
- Tờ New York Times (nytimes.com)
- Buzzfeed, Inc. (buzzfeed.com, huffpost.com)
- Condé Nast (wired.com, newyorker.com, vogue.com)
- News Corp (wsj.com, thesun.co.uk, nypost.com)
Những nhà xuất bản này thống trị tìm kiếm, kiếm được liên kết ngược một cách tự nhiên và thường được sử dụng trong các tập dữ liệu đào tạo LLM, củng cố thêm độ tin cậy của họ.
Bất chấp SERP không ổn định và sự gia tăng của các câu trả lời do AI tạo ra, nội dung vẫn là nền tảng cho uy tín của một trang web.
Chỉ số DA của Moz có tính định hướng chính xác để đánh giá thẩm quyền của một trang web
Mặc dù Chỉ số thẩm quyền tên miền (DA) của Moz không phải là yếu tố xếp hạng, nhưng nghiên cứu của Ziff Davis xác nhận đây là chỉ báo định hướng mạnh mẽ về thẩm quyền của trang web, phù hợp với các nguồn chất lượng cao được ưa chuộng trong đào tạo LLM.
Trong bài tóm tắt của Moz về Google Leaks, Rand Fishkin đã chỉ ra rằng , “ Google đã gây hiểu lầm cho các nhà tiếp thị trong nhiều năm khi nói rằng họ không sử dụng bất kỳ hình thức thẩm quyền trang web nào ”. Để ủng hộ tuyên bố này, một nghiên cứu của Tom Pool về Bản cập nhật nội dung hữu ích (HCU) của Google đã phát hiện ra rằng các trang web có điểm DA cao hơn có nhiều khả năng giành chiến thắng trong HCU.
Mặc dù việc xây dựng thẩm quyền là sự kết hợp của nhiều yếu tố khác nhau, nhưng các nguyên tắc cốt lõi vẫn giữ nguyên:
- Nội dung hữu ích từ những nhà lãnh đạo tư tưởng thể hiện kinh nghiệm cá nhân với vấn đề này
- Các liên kết ngược có liên quan đến chủ đề từ các trang web có thẩm quyền
- UX mạnh mẽ và các tín hiệu tương tác cho thấy nội dung hữu ích với người dùng
- Các tín hiệu tích cực ngoài trang giúp củng cố niềm tin và uy tín của thương hiệu
Các mô hình AI phải đối mặt với những thách thức tương tự như Google trong việc xác định các nguồn có thẩm quyền và cũng có thể giải quyết chúng theo cách tương tự.
Xây dựng liên kết ngược từ các nguồn có thẩm quyền giúp tăng cường uy tín của trang web
Nếu LLM ưu tiên các trang web có thẩm quyền cao, thì các liên kết ngược từ các trang web này có giá trị - không chỉ trong bảng xếp hạng tìm kiếm của Google mà còn có khả năng hiển thị AI tạo ra.
Nhưng thực tế là việc xây dựng liên kết đang ngày càng khó khăn hơn . Tiếp cận spam và liên kết giá trị thấp không mang lại hiệu quả. Thay vào đó, hãy tập trung vào việc tạo nội dung tự nhiên thu hút sự chú ý của truyền thông và trích dẫn.
Tài sản có giá trị cao bao gồm:
- Báo cáo ngành với nghiên cứu và dữ liệu độc quyền
- Các cuộc khảo sát và nghiên cứu điển hình gốc cung cấp những hiểu biết độc đáo
- Nội dung lãnh đạo tư tưởng từ các chuyên gia được công nhận trong lĩnh vực của bạn
- Các công cụ tương tác mang lại nhiều giá trị cho người dùng
Mặc dù không được đề cập, hầu hết các nhà xuất bản này đều có Thẩm quyền thương hiệu cao hơn hầu hết các nhà xuất bản khác.
Brand Authority đang dần trở nên quan trọng không kém Domain Authority. Các con số không hề nói dối—57,9% nhà xuất bản trong nghiên cứu của Ziff Davis có điểm Brand Authority từ 40 trở lên. Jonathan Berthold của Moz đã kết hợp Moz API và một tập lệnh Google Collab tùy chỉnh để thực hiện phân tích URL hàng loạt nhằm đánh giá điểm Brand Authority.
Các con số này phù hợp với kết quả nghiên cứu của Tom Capper, cho thấy các trang web có tín hiệu thương hiệu mạnh có nhiều khả năng được hưởng lợi từ những thay đổi thuật toán của Google, trong khi các thương hiệu yếu hơn phải vật lộn để cạnh tranh.
Theo Amanda Milligan , một số chiến thuật hiệu quả để xây dựng Brand Authority bao gồm:
- Tạo ra các báo cáo và nghiên cứu có giá trị tin tức
- Tận dụng các chuyên gia nội bộ để tạo nội dung
- Làm nổi bật bằng chứng về chuyên môn trên trang web và nội dung của bạn
- Tiếp thị đồng thời với các thương hiệu có thẩm quyền theo chiều dọc
- Đưa ra giá trị xứng đáng với giá trị của nó bằng vàng
Kết luận: Nội dung chất lượng cao và Quyền hạn tên miền là những yếu tố quan trọng để tối ưu hóa cho tìm kiếm tạo ra
Tôi không chắc có ai ngạc nhiên về kết quả nghiên cứu của Ziff Davis, vì nó xác nhận điều chúng ta đã nghi ngờ từ lâu. Tuy nhiên, điều quan trọng cần lưu ý là các trang web và nhà xuất bản này không trở thành những gã khổng lồ chỉ sau một đêm. Họ đã dành nhiều năm đầu tư vào nội dung chất lượng cao, kiếm backlink và xây dựng thương hiệu uy tín. Để tối ưu hóa cho tìm kiếm AI tạo sinh, các SEO nên làm theo cùng một chiến lược: xuất bản nội dung độc đáo, tự nhiên thu hút backlink liên quan và thiết lập uy tín chuyên ngành.
