4 cách để cải thiện vệ sinh dữ liệu của bạn
Ngày 29/01/2026 - 05:01Bộ lọc
Vậy điều đầu tiên chúng ta sẽ bắt đầu là các bộ lọc. Ở đây, tôi đang nói đến các bộ lọc trong phân tích, cụ thể là Google Analytics. Khi bạn vào trang quản trị của Google Analytics, sẽ có một mục gọi là Bộ lọc. Có một mục ở bên trái, đó là tất cả các bộ lọc cho mọi thứ trong tài khoản đó, và sau đó có một mục cho mỗi chế độ xem để thiết lập bộ lọc. Các bộ lọc giúp bạn loại trừ hoặc bao gồm lưu lượng truy cập cụ thể dựa trên một tập hợp các tham số.
Lọc bỏ lưu lượng truy cập văn phòng, văn phòng tại nhà và cơ quan.
Thông thường, chúng ta sẽ thấy một thuộc tính Analytics cho trang web của bạn, và nó có một chế độ xem duy nhất, đó là tất cả dữ liệu trang web, đây là chế độ xem mặc định mà Analytics cung cấp, nhưng sau đó không có bộ lọc nào, có nghĩa là bạn không loại trừ những thứ như lưu lượng truy cập từ văn phòng, nhân viên nội bộ truy cập trang web, hoặc làm việc tại nhà. Nếu bạn có nhiều người làm việc tại nhà, hãy lấy địa chỉ IP của họ và loại trừ họ khỏi dữ liệu này vì bạn không nhất thiết muốn lưu lượng truy cập nội bộ làm ảnh hưởng đến các chỉ số như chuyển đổi, đặc biệt nếu bạn đang thực hiện các việc như kiểm tra biểu mẫu của chính mình.
Đã lâu rồi bạn không có khách hàng tiềm năng và có thể bạn điền vào biểu mẫu để chắc chắn rằng nó hoạt động. Bạn không muốn điều đó được tính là một lượt chuyển đổi và làm sai lệch dữ liệu của mình, đặc biệt nếu trang web của bạn có lưu lượng truy cập thấp. Nếu bạn có một triệu lượt truy cập mỗi ngày, thì có lẽ đây không phải là vấn đề đối với bạn. Nhưng nếu bạn giống như phần lớn chúng ta và không nhất thiết có nhiều lưu lượng truy cập như vậy, thì điều này có thể là một vấn đề lớn về số lượng truy cập mà bạn nhận được. Và cả lưu lượng truy cập từ các công ty agency nữa.
Vì vậy, các agency, hãy đảm bảo rằng bạn đang lọc bỏ lưu lượng truy cập từ chính mình. Một lần nữa, những thứ như nhà phát triển web của bạn, hoặc nhà thầu mà bạn đã làm việc cùng trong thời gian ngắn, hãy chắc chắn rằng bạn đang lọc bỏ tất cả những thứ đó vì bạn không muốn chúng làm ô nhiễm hồ sơ chính của mình.
Tạo chế độ xem thử nghiệm và dàn dựng.
Một điều nữa mà tôi khuyên bạn nên làm là tạo ra cái mà chúng ta gọi là chế độ xem thử nghiệm và dàn dựng. Thông thường trong hồ sơ Analytics của chúng ta, chúng ta sẽ có ba chế độ xem khác nhau. Một chế độ xem chúng ta gọi là chế độ xem chính, và đó là chế độ xem đã được áp dụng tất cả các bộ lọc.
Vì vậy, bạn chỉ thấy lưu lượng truy cập không phải từ bạn. Đó là khách hàng, những người truy cập trang web của bạn, những người thật, không phải nhân viên văn phòng của bạn. Sau đó là chế độ xem thứ hai mà chúng ta gọi là thử nghiệm và dàn dựng. Đây chỉ là máy chủ dàn dựng của bạn, điều này thực sự rất hữu ích. Ví dụ, nếu bạn có một URL khác cho máy chủ dàn dựng của mình, điều mà bạn nên làm, thì bạn chỉ cần bao gồm lưu lượng truy cập đó. Sau đó, nếu bạn đang thực hiện các cải tiến cho trang web hoặc bạn đã nâng cấp phiên bản WordPress của mình và bạn muốn đảm bảo rằng các mục tiêu của mình vẫn hoạt động chính xác, bạn có thể thực hiện tất cả những điều đó và thấy rằng nó đang hoạt động trong chế độ xem thử nghiệm và dàn dựng mà không làm ảnh hưởng đến chế độ xem chính của bạn.
Thử nghiệm trên bất động sản thứ hai
Điều đó thực sự hữu ích. Điều thứ ba là hãy chắc chắn kiểm tra trên một thuộc tính thứ hai. Việc này rất dễ thực hiện với Google Tag Manager. Trong hầu hết các tài khoản Google Tag Manager, chúng ta sẽ thiết lập phân tích thông thường và hầu hết dữ liệu đều được chuyển đến đó. Nhưng nếu chúng ta đang thử nghiệm một điều gì đó mới, chẳng hạn như chỉ số tiêu thụ nội dung mà chúng ta bắt đầu triển khai vào mùa hè này, thì chúng ta cần đảm bảo thiết lập một chế độ xem Analytics thứ hai và chuyển thử nghiệm, những thứ mới mà chúng ta đang thử nghiệm, sang thuộc tính Analytics thứ hai đó.
Vậy là bạn có hai thuộc tính Analytics khác nhau. Một là thuộc tính chính. Đây là nơi chứa tất cả các dữ liệu thông thường. Sau đó, bạn có thuộc tính thứ hai, nơi bạn thử nghiệm các thứ khác, và điều này thực sự hữu ích để đảm bảo rằng bạn sẽ không vô tình làm hỏng điều gì đó khi thử nghiệm một thứ gì đó mới lạ như mức độ tiêu thụ nội dung, điều này hoàn toàn có thể xảy ra và chắc chắn đã xảy ra trong quá trình chúng tôi thử nghiệm sản phẩm. Bạn không muốn làm ô nhiễm dữ liệu chính của mình với những thứ khác biệt mà bạn đang thử nghiệm.
Vì vậy, hãy gửi dữ liệu đến một máy chủ thứ hai. Bạn làm điều này với các trang web. Bạn luôn có một phiên bản thử nghiệm và một phiên bản chính thức. Vậy tại sao bạn không làm điều này với công cụ phân tích của mình, nơi bạn cũng có một phiên bản thử nghiệm và một phiên bản chính thức? Vì vậy, chắc chắn hãy cân nhắc việc thiết lập một máy chủ thứ hai.
Múi giờ
Vấn đề tiếp theo mà chúng ta gặp nhiều khó khăn là múi giờ. Đây là những gì xảy ra.
Giả sử trang web của bạn được cài đặt WordPress cơ bản và bạn chưa thay đổi múi giờ trong WordPress, vì vậy nó được đặt là UTM. Đó là cài đặt mặc định trong WordPress trừ khi bạn thay đổi nó. Vì vậy, bây giờ dữ liệu cho trang web của bạn đang hiển thị theo múi giờ UTM. Sau đó, giả sử nhóm tiếp thị của bạn ở Bờ Đông, vì vậy tất cả các công cụ của họ được đặt theo giờ Miền Đông. Còn nhóm bán hàng của bạn ở Bờ Tây, vì vậy tất cả các công cụ của họ được đặt theo giờ Thái Bình Dương.
Vì vậy, bạn có thể gặp phải tình huống, ví dụ, bạn có một trang web đang sử dụng plugin biểu mẫu cho WordPress. Khi ai đó gửi biểu mẫu, thông tin được ghi lại trên trang web của bạn, nhưng dữ liệu đó cũng được chuyển sang CRM bán hàng của bạn. Vì vậy, bây giờ trang web của bạn đang hiển thị số lượng khách hàng tiềm năng này vào ngày này, vì nó ở chế độ UTM. Nhưng ngày đó đã kết thúc, hoặc chưa bắt đầu, và bây giờ là giờ miền Đông, là thời điểm mà các công cụ phân tích của bạn ghi nhận số lượng khách hàng tiềm năng.
Nhưng vấn đề thứ ba là Salesforce, HubSpot hoặc bất kỳ hệ thống CRM nào khác đang ghi nhận giờ theo múi giờ Thái Bình Dương. Điều đó có nghĩa là bạn có một khoảng trống rất lớn về thời điểm những việc này xảy ra, và dữ liệu của bạn sẽ không bao giờ khớp nhau. Điều này vô cùng khó chịu, đặc biệt nếu bạn đang cố gắng chẩn đoán lý do tại sao, ví dụ, tôi đã gửi biểu mẫu nhưng không thấy thông tin khách hàng tiềm năng, hoặc nếu bạn gặp các vấn đề khác về tính chính xác của dữ liệu, bạn không thể khớp dữ liệu vì múi giờ khác nhau.
Vì vậy, hãy kiểm tra múi giờ của mọi sản phẩm bạn sử dụng – trang web, CRM, phân tích, quảng cáo, tất cả đều phải chính xác. Nếu có múi giờ, hãy chọn một múi giờ và giữ nguyên nó. Đó sẽ là múi giờ chuẩn của bạn. Điều này sẽ giúp bạn tránh được rất nhiều rắc rối về sau, tin tôi đi.
Ghi nguồn
Tiếp theo là vấn đề ghi nguồn. Việc ghi nguồn là một chủ đề hoàn toàn khác, nằm ngoài phạm vi bài giảng tôi đang trình bày hôm nay.
Các công cụ khác nhau có những cách hiển thị nguồn gốc khác nhau.
Nhưng điều tôi thấy khó chịu về việc phân bổ lượt truy cập là mỗi công cụ lại có cách làm riêng của mình. Analytics thì giống như lượt nhấp chuột không trực tiếp cuối cùng. Điều đó rất tốt. Còn Ads thì nói, có thể chúng ta sẽ phân bổ lượt nhấp đó, có thể không. Nếu bạn truy cập trang web cách đây một tuần, có thể chúng ta sẽ gọi đó là chuyển đổi xem qua. Ai biết họ sẽ gọi nó là gì? Rồi Facebook lại có khung thời gian phân bổ hoàn toàn khác.
Bạn có thể sử dụng một công cụ, chẳng hạn như Supermetrics, để thay đổi khung thời gian phân bổ. Nhưng nếu bạn không hiểu khung thời gian phân bổ mặc định là gì ngay từ đầu, bạn chỉ làm mọi thứ khó khăn hơn cho chính mình. Rồi đến HubSpot, họ cho rằng điểm tiếp xúc đầu tiên mới là điều quan trọng, và dĩ nhiên, HubSpot sẽ không bao giờ đồng ý với Analytics và các công cụ khác. Mỗi công cụ đều có "bí quyết" riêng và cách thức phân bổ riêng. Vì vậy, hãy chọn một nguồn thông tin đáng tin cậy.
Hãy chọn nguồn thông tin đáng tin cậy của bạn.
Cách tốt nhất là hãy nói, "Bạn biết đấy, tôi tin tưởng công cụ này nhất." Đó chính là nguồn thông tin đáng tin cậy của bạn. Đừng cố gắng để nguồn thông tin này trùng khớp với nguồn thông tin kia. Bạn sẽ phát điên mất. Tuy nhiên, bạn cần đảm bảo rằng ít nhất bạn biết rõ các múi giờ của mình, vậy là ổn rồi.
Hãy thành thật về những hạn chế của bạn.
Nhưng sau đó, điều quan trọng là bạn phải thành thật về những hạn chế của mình.
Hãy biết những điểm nào chắc chắn sẽ không hoàn hảo, và điều đó không sao cả, nhưng ít nhất bạn cũng có một nguồn thông tin đáng tin cậy. Đó là điều quan trọng nhất trong việc phân bổ lượt truy cập. Hãy dành thời gian và đọc kỹ cách mỗi công cụ xử lý việc phân bổ lượt truy cập để khi ai đó đến và nói với bạn, "Tôi thấy chúng tôi nhận được 300 lượt truy cập từ chiến dịch quảng cáo này, nhưng trên Facebook lại ghi là 6.000 lượt."
Tại sao lại như vậy? Bạn có câu trả lời rồi đấy. Đó có thể là một ví dụ hơi cực đoan, nhưng ý tôi là tôi đã từng thấy những điều kỳ lạ hơn thế với việc phân bổ lượt truy cập trên Facebook so với trên Google Analytics. Tôi thậm chí còn từng nói về những công cụ như Mixpanel và Kissmetrics. Mỗi công cụ đều có cách ghi nhận lượt truy cập riêng biệt. Nó không bao giờ giống với bất kỳ công cụ nào khác. Chúng ta không có một tiêu chuẩn chung trong ngành về cách thức hoạt động của những thứ này, vì vậy hãy đảm bảo bạn hiểu rõ các khía cạnh này.
Tương tác
Điều cuối cùng mà tôi gọi là tương tác. Sai lầm lớn nhất mà tôi thấy mọi người thường mắc phải ở đây là Google Tag Manager cho phép bạn quá nhiều quyền tự do, và nếu không cẩn thận, bạn có thể tự hại mình.
GTM Interactive đạt được thành công
Một trong những điều quan trọng nhất là sự khác biệt giữa lượt truy cập tương tác và lượt truy cập không tương tác. Ví dụ, trong Google Tag Manager, bạn có thuộc tính độ sâu cuộn.
Bạn muốn xem người dùng cuộn xuống bao xa trên trang. Ở các mức 25%, 50%, 75% và 100%, hệ thống sẽ gửi thông báo cho biết họ đã cuộn xuống bao nhiêu phần trăm trên trang. Điều thú vị là bạn cũng có thể biến điều này thành tương tác. Ví dụ, nếu ai đó cuộn xuống 25% trang, bạn có thể nói rằng đó là một lượt tương tác, có nghĩa là người đó không còn bị coi là thoát trang nữa, vì hệ thống đang ghi nhận một lượt tương tác, điều này rất tuyệt vời cho thiết lập của bạn.
Tỷ lệ thoát game
Nhưng điều tôi thấy là những công ty thiếu đạo đức đến và nói rằng nếu người dùng cuộn xuống 2% trang, thì đó đã là một lượt tương tác thành công. Đột nhiên tỷ lệ thoát trang của khách hàng giảm từ 80% xuống còn 3%, và họ nghĩ, "Wow, công ty này thật tuyệt vời." Họ không tuyệt vời. Họ đang nói dối. Đây là lúc Google Tag Manager có thể thao túng tỷ lệ thoát trang của bạn. Vì vậy, hãy cẩn thận khi sử dụng lượt tương tác.
Hoàn toàn đúng, có lẽ việc ai đó chỉ đọc một trang rồi nhấn nút quay lại và thoát ra là hoàn toàn hợp lý. Việc sử dụng các yếu tố như độ sâu cuộn hoặc một phần nội dung nhất định xuất hiện trong khung nhìn của người dùng để tạo tính tương tác cũng hoàn toàn hợp lý. Nhưng điều đó không có nghĩa là mọi thứ đều nên có tính tương tác. Vì vậy, hãy giảm bớt các tương tác bạn sử dụng, hoặc ít nhất là đưa ra những quyết định thông minh về các tương tác mà bạn chọn sử dụng. Như vậy bạn có thể giảm tỷ lệ thoát trang.
Thiết lập mục tiêu
Việc thiết lập mục tiêu cũng là một vấn đề lớn. Nhiều người mặc định thiết lập mục tiêu đích trong Analytics vì họ không biết cách thiết lập mục tiêu dựa trên sự kiện. Nhưng điều chúng tôi nhận thấy là mục tiêu đích thường được hiểu là bạn đã điền vào biểu mẫu, bạn đến trang cảm ơn, và bạn đang ghi nhận lượt xem trang cảm ơn đó như là mục tiêu, đúng vậy, đó là một cách làm.
Nhưng vấn đề là rất nhiều người, những người không giỏi lắm về internet, sẽ đánh dấu trang đó hoặc họ sẽ liên tục quay lại trang đó vì có thể bạn đã đăng một số thông tin thực sự hữu ích trên trang cảm ơn của mình, điều mà bạn nên làm, ngoại trừ việc điều đó có nghĩa là mọi người cứ truy cập đi truy cập lại mà không thực sự điền vào biểu mẫu. Vì vậy, tỷ lệ chuyển đổi của bạn giờ đây bị ảnh hưởng nghiêm trọng vì bạn đang dựa vào điểm đến, chứ không phải hành động thực tế là điền vào biểu mẫu.
Vì vậy, hãy cẩn thận khi đặt mục tiêu, vì điều đó cũng có thể ảnh hưởng đến cách bạn nhìn nhận dữ liệu.
Trình chặn quảng cáo
Những người sử dụng trình chặn quảng cáo có thể chiếm từ 2% đến 10% lượng người truy cập, tùy thuộc vào trình độ hiểu biết công nghệ của khách truy cập. Vì vậy, bạn sẽ gặp phải tình huống có người điền vào biểu mẫu, nhưng không có lượt truy cập tương ứng nào được ghi nhận.
Dữ liệu đó chỉ rơi vào một "hố đen" về nguồn gốc. Nhưng họ đã điền vào biểu mẫu, nên ít nhất bạn cũng có được thông tin của họ, nhưng bạn không biết họ đến từ đâu. Một lần nữa, điều đó sẽ ổn thôi. Vì vậy, hãy cân nhắc đến tỷ lệ khách truy cập của bạn, dựa trên bạn và đối tượng mục tiêu của bạn, những người có thể đã cài đặt trình chặn quảng cáo và đảm bảo bạn cảm thấy thoải mái với mức độ sai sót đó trong dữ liệu của mình. Đó là thực tế của internet, và trình chặn quảng cáo ngày càng trở nên phổ biến.
Các công ty như Apple đang thay đổi cách thức theo dõi dữ liệu. Vì vậy, hãy chắc chắn rằng bạn hiểu rõ những điều này và thực sự cân nhắc kỹ khi xem xét dữ liệu của mình. Một lần nữa, những con số này có thể không bao giờ trùng khớp 100%. Điều đó không sao cả. Bạn không thể đo lường mọi thứ. Rất tiếc.
Ưu đãi bổ sung: Kiểm toán!
Và điều cuối cùng tôi thực sự muốn bạn suy nghĩ đến — đây là lời khuyên bổ sung — hãy kiểm toán thường xuyên.
Vì vậy, ít nhất mỗi năm một lần, hãy xem lại tất cả những nội dung mà tôi đã đề cập trong video này và đảm bảo rằng không có gì thay đổi hoặc được cập nhật, bạn không có mã theo dõi mới bí mật nào mà ai đó đã thêm vào rồi quên mất vì bạn đang dùng thử sản phẩm và đã bật nó lên, và nó đã hoạt động suốt một năm mặc dù thời gian dùng thử đã hết hạn chín tháng trước. Vì vậy, hãy chắc chắn rằng bạn đang chạy những thứ cần thiết và thực hiện kiểm tra định kỳ ít nhất mỗi năm một lần.
Nếu bạn bận rộn và có nhiều khách truy cập khác nhau vào trang web của mình, đó là một trang web có lưu lượng truy cập cao, thì có lẽ kiểm tra định kỳ hàng tháng hoặc hàng quý sẽ tốt hơn, nhưng ít nhất mỗi năm một lần hãy kiểm tra và đảm bảo rằng mọi thứ trên trang web đều chính xác, vì điều đó sẽ giúp bạn tránh được những rắc rối khi so sánh số liệu giữa các năm và nhận ra rằng có điều gì đó tồi tệ đã xảy ra trong chín tháng qua và tất cả dữ liệu của bạn đều bị mất. Chúng ta thực sự không muốn điều đó xảy ra.
Tôi hy vọng những lời khuyên này sẽ hữu ích. Hãy hiểu rõ dữ liệu của bạn hơn một chút. Dữ liệu sẽ "biết ơn" bạn vì điều đó. Cảm ơn.
