Przyszłość analityki, a regulacje prawne

Czy analityka internetowa, którą obecnie znamy ma przyszłość? Przepisy o ochronie danych na czele z unijnym Rozporządzeniem o Ochronie Danych Osobowych wymuszają na właścicielach serwisów internetowych śledzenie przy uwzględnieniu zgód wydanych przez użytkownika odwiedzającego serwis. „Odpalenie” tagów śledzących bez uprzednio wyrażonej zgody przez użytkownika jest niezgodne z prawem i narusza przepisy związane z przetwarzaniem danych osobowych. Obserwując przestrzeń internetu widać jak mały odsetek stron spełnia te wymagania. Zmiany wdrażają największe serwisy, takie jak wp.pl, onet.pl, allegro.pl, ale przepisy dotyczą wszystkich. Właściciel każdej strony powinien działać zgodnie z prawem. Jak myślisz czy wszyscy odwiedzający Twój serwis świadomie zgodzą się na takie śledzenie? Otóż szacuję się, że 30-70% odwiedzających nie decyduje się na śledzenie swoich danych osobowych.

Widok okienka cookies, które służy zbierania zgód użytkowników odwiedzających w serwisie onet.pl

Obecnie obserwujemy duży wzrost świadomości użytkowników na tematy związane z bezpieczeństwem w sieci oraz przetwarzaniem danych. W sieci pojawia się coraz więcej artykułów dotyczących tego obszaru, przez co użytkownicy bardziej świadomie korzystają z internetu. Coraz większy odsetek użytkowników korzysta z przeglądarek, które domyślnie blokują nie tylko reklamy, ale i śledzenie, pliki cookie, czy kody śledzące. Jedną z takich przeglądarek jest np. Brave. Z kolei przeglądarka Safari wdrożyła mechanizm ITP (Intelligent Tracking Prevention), który ograniczył czas życia plików cookie od 1 do 7 dni. To znaczy, że przy oknie konwersji dłuższym niż 7 dni tracimy całą ścieżkę konwersji użytkownika. Według badania autorstwa IAB w 2012 roku 15% społeczeństwa używała blokery reklam, które w większości blokują również kody śledzące. Z kolei w 2017 roku używało je już 42% społeczeństwa. Według tych szacunków obecnie blokery reklam może wykorzystywać już blisko 70% społeczeństwa. Samą wtyczkę AdBlock, czy jej alternatywę uBlock Origin wykorzystuje ponad 10 000 000 użytkowników.  Poza tym z ostatnich badań zrealizowanych przez Barracuda Networks, Inc. wynika, że boty stanowią dwie trzecie ruchu internetowego. Złe, niechciane boty stanowią prawie 40% całego ruchu.

Kolejnym istotnym problemem jest śledzenie użytkowników systemu iOS. Od systemu iOS 14.5 system po każdej instalacji aplikacji system pyta użytkownika, czy ten wyraża zgodę na śledzenie aktywności użytkownika w aplikacjach i witrynach innych firm. W przypadku nie wyrażenia zgody nie zobaczmy ruchu z tych aplikacji w swoich danych analitycznych. Do końca 2023 roku Google według ich deklaracji przestanie używać plików cookie stron trzecich. Z 3rd party cookies nie korzystają już przeglądarki Firefox i Safari. Dla reklamodawców znaczy to tyle, że zablokowane zostaną wszystkie działania reklamowe realizowane z danymi wykorzystującymi 3rd party cookies. 3rd party cookies są umieszczane w przeglądarce użytkownika przez zewnętrzne firmy i służą m.in. do śledzenia historii przeglądania remarketingu, przypisywania konwersji post-view, ograniczenia częstotliwości wyświetlenia reklam (capping), czy mierzenia liczby wyświetleń na różnych witrynach.

Czy te wszystkie zmiany, to  zapowiedź końca analityki, którą znamy? Jak wiele ruchu tracimy? Jak wiele jeszcze będziemy tracić? Jedno jest pewne danych nie przybywa, a ubywa. Ale przecież już od bardzo dawna Google Analytics nie zawsze pokazuje rzeczywisty ruch na stronie, a jedynie jego trendy. Im bardziej precyzyjne dane dotyczące analityki ruchu tym większe zagrożenie dla prywatności użytkowników i narażenie regulacji prawnych z tego obszaru. Tak więc ze względu na zagrożenia Google Analytics, który znamy estymuje i ekstrapoluje dane. Takie dane podlegają również próbkowaniu i progowaniu, co wynika również z potrzeby ich anonimizacji. Próbkowanie jest elementem, w którym na podstawie reprezentacji, wycinku danych następuje estymacja dla całego ruchu, tak jak w przypadku sondaży politycznych, gdzie na podstawie sondażu na pewnej części społeczeństwa obliczane jest poparcie dla całego społeczeństwa.

Google od dawna obserwuje wszystkie zagrożenia i reaguje wdrażając kolejne narzędzia i mechanizmy, które mają działać pomimo występowania tych zagrożeń oraz luk w danych. Narzędzia te są przygotowywane do pracy w środowisku bez plików cookie. Są to mechanizmy takie jak Privacy Sandbox, Server Side Taging, Consent Mode, czy w końcu sam Google Analytics 4 i jego modelowanie behawioralne.

Czym jest mechanizm modelowania behawioralnego?

W Google Analytics 4 próbkowanie ma pojawiać się rzadziej lub nawet w ogóle.  A estymacje mają być zastąpione mechanizmami takimi jak modelowanie behawioralne. Modelowanie behawioralne w GA4 stworzone na potrzeby trybu uzyskiwania zgody będzie uzupełniać brakujące dane i luki informacyjne powstałe w wyniku odrzucenia plików cookie wypełniać te luki danymi na podstawie zachowań użytkowników, którzy wyrazili zgodę na śledzenie. GA4 będzie płynnie integrował dane modelowane i rzeczywiste w raportach. Aby skutecznie trenować modele behawioralne Analytics wymaga spełnienia wymagań takich jak włączenie trybu uzyskiwania zgody oraz odpowiednia ilość danych wejściowych, co najmniej 1000 zdarzeń w ujęciu dziennym przez co najmniej 7 dni przez użytkowników bez zgody oraz co najmniej 1000 użytkowników w ujęciu dziennym przez co najmniej 7 z ostatnich 28 dni z pozyskiwanymi zgodami.

Zaawansowane modele uczenia maszynowego będą również przewidywać zachowania konkretnych grup użytkowników. Mowa tutaj o wskaźnikach predykcyjnych (predictive metrics), które mają wykorzystywać już zebrane dane w celu przewidywania przyszłych zachowań użytkowników i pozwalać docierać do użytkowników z największym prawdopodobieństwem wykonania oczekiwanej konwersji.

Google Analytics 4 to narzędzie w pełni gotowe do pracy we współczesnym rynku ograniczonym przez przepisy i mechanizmy ograniczające przepływ danych ze względy na ochronę prywatności

A czym jest wspomniany consent mode, czyli tryb uzyskiwania zgody?

Consent Mode to inaczej tryb uzyskiwania zgody, który pozwala dostosować działanie tagów śledzących na podstawie zgód użytkowników odwiedzających stronę internetową. W zależności od zgód na poszczególne pliki cookies tagi śledzące dostosują się dynamicznie wykorzystując pliki cookie tylko w określonych przez wyrażone zgody celach. Zarządzanie trybem uzyskiwania zgody zostało udostępnione przez Google w Tag Managerze, który pozwala na właśnie takie zarządzanie działaniem tagów.

Widok ustawień mechanizmu uzyskiwania zgód w Menedżerze Tagów Google

W przypadku nie wyrażenia zgody przez użytkownika działanie niektórych tagów będą ograniczone bez zapisywania i odczytywania plików cookies. Gdy użytkownicy odmówią zgody tagi będą wysyłać do Google jedynie pingi (sygnały) z podstawowymi w pełni anonimowymi danymi dotyczących m.in. czasu wizyty, strony odsyłającej itp. bez plików cookie. Jednak  tryb uzyskiwania zgody umożliwia Google modelowanie w przypadku luk w  danych. Według danych Google tryb uzyskiwania zgody ma przywrócić nawet 70% utraconych danych z powodu braku zgody użytkownika, m.in. poprzez zastosowanie wcześniej wspomnianego modelowania danych, a wspomniane wcześniej wysyłane do Google pingi bez plików cookie mają zwiększyć dokładność tego modelowania.

Co to jest Server-side Tagging?

Kolejną odpowiedzią na problemy związane ze zbieraniem danych analitycznych jest Server-side Tagging, czyli wdrożenie analityki na poziomie serwera. Takie rozwiązanie pomaga, m.in. eliminować niepożądane działanie oprogramowania blokującego kody śledzące, jak np. AdBlock. Przeglądarki interpretują przesyłanie tych danych jako komunikację z serwerem strony. Menedżer tagów Google udostępnił tagowanie po stronie serwera. W tradycyjnym podejściu uruchomienie tagów śledzących odbywa się w przeglądarce, a w wersji server-side wysyłanie odbywa się bezpośrednio z serwera. Za komunikację ze stroną i przesyłanie danych do narzędzi odpowiada już serwer strony. Zyskujemy pełną kontrolę nad danymi wysyłanymi do zewnętrznych narzędzi, takich jak Facebook, Google Analytics, czy Google Ads, co zwiększa bezpieczeństwo danych użytkownika i pełną kontrolę. Poza tym zyskujemy niższy czas wczytywania strony, a nikt z konkurencji nie jest już w stanie podejrzeć, jakie narzędzia stosujemy i jakie informacje zbieramy za ich pośrednictwem.

Schemat działania mechanizmu Server-side Tagging, źródło: developers.google.com

Analityka ma swoją przyszłość, jednak ważne jest żeby do zbierania danych na swoich stronach wykorzystywać najnowsze technologie, mechanizmy i narzędzia, które pozwalają wyeliminować ograniczenia związane z technologiami i przepisami. Sztuczna inteligencja i mechanizmy takie jak modelowanie behawioralne ma za zadanie wypełniać niedobry danych w ścieżce użytkownika. W tym miejscu warto podkreślić wagę poprawnego wdrożenia Google Analytics. Już 1 lipca 2023 roku Google Universal Analytics zostanie całkowicie wycofany. To najlepszy czas na wdrożenie GA4 do swoich biznesów. Z badania przeprowadzanego przez guru analityki Macieja Lewińskiego, w którym zbadał 1 000 największych e-commerców w Polsce pod kątem instalacji Google Analytics wynika, że 94% z nich ma zainstalowane Google Analytics z czego tylko 1% z nich używa tylko GA4, a 42% tylko Universal Google Analytics, z kolei dual-tagging (GA4+UA) wykorzystuje 50% stron.  Coraz bardziej istotne jest poprawne wdrożenie i konfiguracja Google Analytics. Jeśli ruch ma być „uzupełniany” na podstawie danych analitycznych, które wpuścimy i nakarmimy system, to najlepiej, gdy dane te będą „nieskazitelne”, czyste, odfiltrowane i bez wątpliwości o ich wiarygodność. W myśl zasady GIGO (garbage in, garbage out). Tylko wtedy mamy szanse na otrzymanie rzetelnych danych o ruchu, a to leży w naszym interesie.

Zatem do dzieła. Jeśli jeszcze nie korzystasz z opisanych mechanizmów, to najwyższa pora wdrożyć Google Analytics 4.