pl   -   en

Tak działał model targetowania Cambridge Analytica

Zastosowana metoda nie miała nic wspólnego z magiczną, szklaną kulą – była raczej podobna do sposobu, w jaki Netflix poleca kolejne filmy.


Artykuł autorstwa Matthew Hindmana został udostępniony w serwisie Niemanlab  (oryginalnie opublikowny przez The Conversation).


Naukowiec, którego praca znalazła się u podstaw skandalu związanego z targetowaniem politycznym użytkowników Facebooka przez Cambridge Analytica, ujawnił, że zastosowany system działał w podobny sposób, co algorytm rekomendacji na Netflixie.

Aleksandr Kogan, naukowiec pracujący na Uniwersytecie Cambridge, wyjaśnił, jak opracowany przez niego model statystyczny przetwarzał dane pochodzące z Facebooka dla firmy Cambridge Analytica. Jego zdaniem dokładność algorytmu sugeruje, że działa on z podobną skutecznością co inne sposoby targetowania wyborców (na przykład te oparte o czynniki demograficzne, takie jak: rasa, wiek czy płeć).

Jeśli ta teoria się potwierdzi, oznaczałoby to, że – wbrew obiegowym opiniom – modelowanie zastosowane przez firmę Cambridge Analytica ani trochę nie przypominało tajemniczej, szklanej kuli. Mimo to dane, które podaje Kogan, prezentują gamę możliwości (oraz ograniczenia) modelu, w którym dla celów politycznych analizuje się dane osobiste przy użyciu tzw. machine learning (uczenia maszynowego).

Wbrew powszechnym obawom okazuje się, że informacje dotyczące osobowości użytkowników lub „portrety psychograficzne” to jedynie część modelu, na podstawie którego targetowani byli wyborcy. W istocie Cambridge Analytica nie stosowała systemu nakierowanego na określone typy osobowości, a raczej sumę skumulowanych czynników, takich jak: demografia, wpływy społeczne czy osobowość. Wygląda na to, że ten model, oparty o analizę wielu korelacji, sprawdził się jako wartościowe narzędzie podczas kampanii wyborczych, mimo że nie do końca robił to, do czego miał służyć.

Obietnica targetowania osobowościowego

Po ujawnieniu doniesień mówiących o tym, że firma Cambridge Analytica (która doradzała Donaldowi Trumpowi w trakcie kampanii wyborczej) wykorzystała dane 50 milionów użytkowników Facebooka podczas wyborów prezydenckich w USA, akcje serwisu straciły na wartości miliardy dolarów. Rządy państw po obu stronach Atlantyku rozpoczęły śledztwa w tej sprawie, a nowo powstały ruch społeczny o nazwie #DeleteFacebook nawołuje ludzi do usuwania kont na tej platformie.

Jedno pytanie wciąż pozostaje jednak bez odpowiedzi: czy Cambridge Analytica naprawdę była w stanie targetować polityczne treści w oparciu o ludzkie cechy charakteru lub nawet „wewnętrzne demony”, jak donosił sygnalista pracujący w tej firmie?

Jednymi z niewielu osób, które mogłyby wiedzieć, co Cambridge Analytica zrobiła z terabajtami danych pochodzących z Facebooka są Aleksandr Kogan i Joseph Chancellor. To właśnie należący do nich start-up o nazwie Global Science Research zebrał informacje o 270 tys. użytkowników Facebooka oraz ich znajomych, wykorzystując aplikację z testem osobowości o nazwie Thisisyourdigitallife.

Część moich własnych badań skupia się na zrozumieniu metod uczenia maszynowego, a książka, którą piszę, omawia modele używane do budowania swojej grupy klientów przez firmy z branży cyfrowej. Miałem pewne przeczucie odnośnie tego, w jaki sposób działał model Kogana i Chancellora.

Napisałem więc e-maila do pierwszego z nich. Kogan wciąż pracuje jako naukowiec na Uniwersytecie Cambridge, zaś jego współpracownik związał swoje zawodowe losy z Facebookiem. Za sprawą niezwykłej w świecie akademickim uprzejmości Kogan odpisał na mojego e-maila.

Jego odpowiedź zasługuje jednak na to, aby nieco ją wytłumaczyć oraz nakreślić jej kontekst.

Od nagrody Netflixa do „psychometrii”

W 2006 r., gdy Netflix wciąż był firmą wysyłającą pocztą filmy na płytach DVD, jego szefowie zaoferowali milion dolarów nagrody osobie, która opracuje lepszy mechanizm przewidywania tego, jaką ocenę uzyska dany film, niż ten, którym wówczas dysponował Netflix. Niespodziewanie dobrze z zadaniem poradził sobie programista posługujący się pseudonimem Simon Funk. Jego sposób został ostatecznie wdrożony przez większość zespołów stawiających czoła temu wyzwaniu. Funk dostosował technikę zwaną „dekompozycją na wartości singularne” (SVD), sprowadzając oceny filmów do serii czynników lub komponentów, czyli tak naprawdę zestawu dających się wydedukować kategorii, ułożonych zgodnie z ich istotnością. Jak wyjaśnił Funk we wpisie na swoim blogu:

„Kategoria może reprezentować filmy akcji. Te z wartką akcją będą znajdować się na górze, a te z wolną – na dole. W taki sam sposób użytkownicy, którzy lubili filmy z szybką fabułą, znajdowali się na górze, a ci o odmiennych upodobaniach – na dole”.

Czynniki to sztuczne kategorie, które nie zawsze byliby w stanie wymyślić ludzie. Jednym z przykładów takich zależności we wczesnym modelu stworzonym przez Funka dla Netflixa była sytuacja, w której widzowie lubili filmy takie jak „Pearl Harbor” czy „Powiedz tak”, ale jednocześnie nienawidzili „Między słowami” czy „Zakochany bez pamięci”. Ten model pokazał, jak uczenie maszynowe potrafi znaleźć współzależności między ludźmi (lub, w tym przypadku, między grupami filmów), na które ludzki umysł nigdy by nie wpadł.

W celu odgadnięcia oceny, jaką widz przyzna określonemu filmowi, metoda Funka brała pod uwagę 50 lub 100 najważniejszych czynników określających zarówno filmy, jak i samych widzów. Ta metoda, zwana redukcją wymiarowości lub faktoryzacji macierzy, nie była jednak nowa. Politolodzy już wcześniej udowadniali, że zastosowanie podobnych sposobów (z wykorzystaniem danych o głosowaniach imiennych) dawało 90%. szans na przewidzenie tego, jak zagłosuje dany członek amerykańskiego Kongresu. W psychologii model tzw. wielkiej piątki również był stosowany do przewidywania zachowania za pomocą zadawania pytań dotyczących osobowości, na które z reguły padały podobne odpowiedzi w jednej serii.

Mimo to model statystyczny Funka miał jedną, dużą zaletę: pozwolił firmom na uzyskiwanie wyników nawet w sytuacjach, gdy brakowało wielu danych (przykładem może być użytkownik Netflixa, który ocenił tylko kilkadziesiąt spośród kilku tysięcy filmów dostępnych w serwisie). Ponad 10 lat po tym, jak zakończył się konkurs zorganizowany przez tę firmę, metody oparte o SVD lub podobne modele wciąż są używane przez wiele serwisów chcących przewidzieć, co w przyszłości przeczytają, obejrzą lub kupią ich klienci.

Te modele mogą jednak przewidywać też inne rzeczy.

Facebook wie, jeśli jesteś republikaninem

W 2013 r. naukowcy z Uniwersytetu Cambridge – Michal Kosinski, David Stillwell i Thore Graepel opublikowali artykuł na podstawie danych uzyskanych z internetowego testu osobowości. W swojej pracy poruszyli kwestię tego, jak wiele można przewidzieć, przetwarzając dane z Facebooka. Ich wstępna analiza była niemal identyczna jak ta, użyta w rozwiązaniu, które zdobyło nagrodę Netflixa i używała SVD do kategoryzowania zarówno użytkowników, jak i rzeczy, które polubili.

Artykuł udowadniał, że model wykorzystujący jedynie „lajki” użytkowników był w stanie w 95% przewidzieć, czy dana osoba jest rasy białej czy czarnej (93% dla płci, 88%, jeśli chodzi o podział na orientację seksualną wśród mężczyzn). W 85%rozpoznawał również republikanów i demokratów. Był też przydatny, choć nie tak dokładny, przy przewidywaniu wyników testu osobowości (tzw. wielkiej piątki).

W reakcji na ten wynik podniosła się medialna wrzawa – w ciągu kilku tygodni Facebook zmienił domyślne ustawienia dotyczące widoczności „lajków” na prywatne.

Kogan i Chancellor, obaj pracujący także w tamtym czasie na Uniwersytecie Cambridge, w ramach współpracy z SCL (spółką matką Cambridge Analytica) zaczęli używać danych z Facebooka do targetowania wyborczego. Kogan zaprosił Kosinskiego i Stilwella do tego projektu, ale ostatecznie współpraca nie doszła do skutku. Mówi się, że Kosinski podejrzewał Kogana i Chancellora o odtworzenie facebookowego „systemu lajków” dla Cambridge Analytica. Kogan zaprzeczył jednak tym oskarżeniom, twierdząc, że jego firma „zbudowała własne modele, używając danych zebranych za pomocą własnego oprogramowania”.

Co właściwie zrobili Kogan i Chancellor?

Badając całą historię, wydało mi się jasne, że Kogan i Chancellor rzeczywiście większość swoich danych zebrali za pośrednictwem aplikacji Thisisyourdigitallife. Z pewnością byli w stanie zbudować predykcyjny model oparty o SVD, podobny do tego przedstawionego w badaniach Kosinskiego i Stillwella.

Zapytałem więc Kogana w e-mailu, czy zastosował właśnie tę metodę. Ku mojemu zaskoczeniu odpisał, że ich model nie do końca bazuje na SVD. Kogan zwrócił również uwagę na fakt, że ta metoda miewa kłopoty w sytuacjach, gdy niektórzy użytkownicy dają więcej „lajków” niż inni.

Dodał również, że ta technika została tak naprawdę rozwinięta przez ich samych i że nie jest ona publicznie dostępna. Nie wchodząc w szczegóły, Kogan opisał ją jako „wieloetapowe współwystępowanie”.

Mimo to jego odpowiedź dowodziła, że zastosowana metoda rzeczywiście była podobna do SVD oraz innych metod faktoryzacji macierzy (występujących również w facebookowym modelu autorstwa Kosinskiego, Stilwella i Graepela oraz w algorytmach Netflixa). U podstaw tego modelu leżała redukcja wymiarowości danych pozyskanych z Facebooka.

Jak dokładny był ten algorytm?

Kogan sugerował, że zastosowany model jest bez znaczenia, a liczy się tak naprawdę dokładność jego prognoz. Jak sam twierdzi, korelacja między przewidywanymi a rzeczywistymi wynikami testów psychologicznych wynosiła około 30%. Dla porównania, wyniki kolejnego testu „wielkiej piątki” na podstawie poprzednich rezultatów można przewidzieć z dokładnością od 70 do 80%.

Twierdzenia Kogana dotyczące korelacji, rzecz jasna, nie mogą zostać niezależnie zweryfikowane. Poza tym – w obliczu tak poważnego skandalu, każdy czułby pokusę, aby umniejszyć w nim swoją rolę. W wystąpieniu na antenie stacji CNN Kogan próbował tłumaczyć, ku rosnącej podejrzliwości prowadzącego Andersona Coopera, że jego modele tak naprawdę nie zadziałały zbyt dobrze.

Tak naprawdę, dokładność podawana przez Kogana wydaje się być nieco niska, ale wciąż możliwa. Kosinski, Stillwell i Graepel (oraz inni naukowcy, czasem używający więcej danych niż tylko te z Facebooka) podawali podobne lub niewiele lepsze wyniki powstałe przy wykorzystaniu tzw. śladów cyfrowych do przewidywania cech osobowości. To zaskakujące, że Kogan i Chancellor mieliby stworzyć własny model w sytuacji, gdy dostępne rozwiązania byłyby tak samo skuteczne.

Co jednak ważne, dokładność modelu Kogana w kontekście wyników testu osobowości pozwala na porównanie go z innymi badaniami. Opracowane wcześniej modele, wykazujące podobną dokładność w przewidywaniu cech osobowości, są jednocześnie bardziej skuteczne w prognozowaniu czynników demograficznych i politycznych.

Dla przykładu – podobny, również oparty o SVD model Kosinskiego, Stilwella i Graepela, wykazywał 85-procentową skuteczność w przewidywaniu skłonności politycznych,nie biorąc pod uwagę żadnych innych danych niż „lajki”. Model Kogana miał podobną lub lepszą skuteczność. Przy dodaniu nawet niewielkiej ilości informacji o znajomych czy danych demograficznych o użytkownikach skuteczność modelu prawdopodobnie wzrosłaby powyżej 90%. Przewidywania dotyczące płci, rasy, orientacji seksualnej i innych charakterystyk prawdopodobnie również byłyby dokładne w więcej niż 90%, zwłaszcza wobec tych najbardziej aktywnych użytkowników Facebooka, którzy byli głównymi obiektami targetowania.

Osoby, które były mniej aktywne, prawdopodobnie i tak nie zaglądają na Facebooka zbyt często.

Gdy psychografia zmienia się w demografię

Mając wiedzę na temat tego, jak zbudowany został model Cambridge Analytica, łatwiej jest wyjaśnić sprzeczne stanowiska dotyczące tego, na ile profilowanie osobowości wpłynęło na jego kształt.

Model podobny do tego opracowanego przez Kogana wydaje szacunkową ocenę każdej zmiennej dotyczącej danej grupy użytkowników. To oznacza, że automatycznie określałby wyniki testu „wielkiej piątki” dla każdego głosującego, ale te rezultaty są pochodną modelu, a nie materiałem, który jest analizowany. Jedyne, o czym wie model, to to, że pewne „lajki” i pewni użytkownicy bywają ze sobą związani.

Stosując ten model, Cambridge Analytica mogła targetować ludzi niechętnych nowym doświadczeniom lub o wysokim poziomie neurotyzmu. Te same kryteria mogły być też używane do identyfikowania gorzej wykształconych republikanów.

Informacje udzielone przez Kogana pomagają też w wyjaśnieniu, czy Cambridge Analytica naprawdę usunęła dane uzyskane z Facebooka, zwłaszcza w obecnej sytuacji, gdy oparte o nie modele wciąż znajdują się w obiegu lub nawet są dalej rozwijane.

W modelu redukcji wymiarowości chodzi o to, aby przedstawić dane matematyczne w prostszy sposób. To mniej więcej tak, jak gdyby Cambridge Analytica wykonała zdjęcie w wysokiej rozdzielczości, następnie zmniejszyła jego rozmiar i usunęła oryginał. Zdjęcie wciąż istnieje i dopóki działa model, dane wciąż są w obiegu.

 

Zdjęcie ze strony Cambridge Analytica,  zostało udostępnione na licencji CC. 

Czytaj również

Zamknij