Firmy technologiczne potrzebują danych do szkolenia sztucznej inteligencji. Zrobią wszystko, by pozyskać je od użytkowników.

Gorączka złota zaczynała się zwykle od pojedynczego odkrycia. Kilka bryłek znalezionych w strumieniu wystarczyło, by zjawili się tłumnie poszukiwacze, którzy dzień po dniu przepłukiwali błoto w poszukiwaniu kruszcu. Kiedy naturalnie nagromadzone zasoby wyczerpywały się, ludzie zaczynali drążyć okoliczne skały, aż natrafili na złotonośne złoże. Wydobycie z gór było trudniejsze, ale przynosiło też o wiele większe zyski. „W naszym opartym na technologii świecie najważniejszym zasobem dla firm stały się dane” – pisze w analizie „Jeśli dane to nowe złoto, jak wydobyć ich wartość” Esther van Laarhoven-Smits, partnerka w E&Y. „Dobrze zarządzane dane napędzają silnik biznesowy, ułatwiają usprawnianie procesów, zapewniają solidną podstawę do raportowania, a także umożliwiają złożoną automatyzację” – dodaje. Co można skrócić do: pozwalają zarabiać jeszcze więcej pieniędzy.

Ponieważ dane można przerobić na wiedzę, a tę na dodatnie wyniki finansowe, celem firm staje się wydobycie jak największej ilości informacji, które można poddać analizie. Stanie z sitem w strumieniu jest jednak za mało wydajne i za bardzo czasochłonne. Dlatego firmy starają się dobrać do złóż. I stają się coraz bardziej agresywne.

Poszukiwacze na licencji

A gdyby tak zebrać wszystkie dane użytkowników naszych programów komputerowych działających w chmurze – ich filmy, dokumenty, zdjęcia – i ogłosić, że od dziś będziemy używać ich jak swojej własności? Niemożliwe? Tak właśnie na początku czerwca zrobiła firma Adobe, w której portfolio znajdują się przeglądarka plików PDF Acrobat Reader, program do edycji grafiki Photoshop czy do obróbki wideo – Premiere. Posiadaczom licencji do tych produktów wyświetlono nowe warunki ich użytkownia. „Udzielasz nam niewyłącznej, ogólnoświatowej, wolnej od opłat, zbywalnej licencji na używanie, reprodukcję, publiczne wyświetlanie, dystrybucję, modyfikację, tworzenie dzieł pochodnych na podstawie, publiczne wykonywanie i tłumaczenie treści” – głosi nowa umowa licencyjna. A jeśli ktoś się nie zgadza? No cóż, nie ma obowiązku używania produktów Adobe. Co więcej, firma nie wyłożyła kawy na ławę – w okienku aktualizacji, które pokazało się w aplikacjach Adobe, znalazła się tylko informacja, że firma uzyska dostęp do treści użytkownika w celu dokonania „przeglądu treści”. Dopiero z pełnej wersji nowego regulaminu (a ilu ludzi je czyta?) użytkownicy mogli się dowiedzieć, co to naprawdę oznacza. A i to nie koniec, bo jak donosił jeden z użytkowników, Adobe utrudniało zaznaczenie pola, w którym użytkownicy nie wyrażali zgody na takie działania.

Użytkownicy uznali nowe warunki użytkowania produktów Adobe za absurdalne, media społecznościowe zaroiły się od deklaracji o anulowaniu subskrypcji licencji. Niektóre firmy zakazały używania produktów spółki w środowisku pracy. Wartość udziałów Adobe w ciągu tygodnia spadła o ok. 10 proc. Firma wydała oświadczenie, w którym zapewnia, że nowe warunki zostały przez użytkowników źle zrozumiane i że nie będzie trenowała AI na ich plikach.

Adobe nie jest oczywiście jedynym zainteresowanym, który ruszyłapo złoto. Do użytkowników Facebooka i Instagrama trafiły niedawno e-maile o tym, że ich właściciel (spółka Meta) planuje używać prywatnych postów, zdjęć i innych danych użytkowników, by trenować swoje modele sztucznej inteligencji. Zmiany mają wejść w życie ekspresowo – już 26 czerwca.

Pełna rejestracja

Jaką sztuczną inteligencję chce trenować spółka? Nie wiadomo. – Meta zasadniczo mówi, że może wykorzystywać dowolne dane z dowolnego źródła w dowolnym celu i udostępniać je każdemu na świecie – upraszcza Max Schrems, założyciel NOYB, austriackiej organizacji walczącej o prawa w cyfrowym świecie. W ubiegłym tygodniu NGO złożyło skargę na takie postępowanie w 11 krajach UE, w tym do polskiego Urzędu Ochrony Danych Osobowych. Także dlatego, że postępowanie spółki łamie zdaniem społeczników przepisy RODO. Po pierwsze, nie określa celu przetwarzania danych. Po drugie, nie gwarantuje prawa do bycia zapomnianym (czyli możliwości usunięcia informacji o sobie z internetu). Po trzecie wreszcie, spółka robi wszystko, żeby utrudnić użytkownikom wyrażenie niezgody na trenowanie AI na ich danych. Choć mechanizm opt-out powinien być łatwo dostępny, firma każe uzasadniać swój wybór. Ciekawostka: wystarczy wpisać tam cokolwiek, w moim przypadku poskutkowało „siała baba mak”. Przyznam jednak, że wcześniej konsultowałam to z prawnikami – to oni przekonali mnie, że uzasadnienie w ogóle nie jest potrzebne. Kto nie ma szczęścia, by móc sięgać po opinie ekspertów, może się przestraszyć pseudoprawniczego żargonu. I na to liczy Meta.

Po prawdziwą żyłę złota chce sięgnąć Microsoft. Pod koniec maja firma ujawniła nową funkcję – Recall. Użytkownikom Windows 11 z funkcją Copilot+ ma umożliwić łatwiejsze przeszukiwanie zasobów komputera. Będzie rejestrowała wszystko, co użytkownik robi na swoim komputerze. Jak to określił CEO firmy Satya Nadella, chodzi o nieustanne robienie zrzutów ekranu i zapisywanie ich na dysku urządzenia. Rejestrowane mają być m.in. operacje w aplikacjach, komunikacja podczas spotkań na żywo, odwiedzane strony internetowe, a nawet – jak przyznał w jednym z wywiadów Nadella – hasła czy loginy do banku, bo Recall ma działać „bez cenzury”. Microsoft przekonuje, że dane pozostaną w urządzeniu, jak jednak ostrzegał Piotr Konieczny z portalu Niebezpiecznik.pl, „nagle mamy olbrzymi zbiór informacji na nasz temat, do którego kiedyś ktoś inny może uzyskać dostęp. Pytanie, czy przeciętny konsument dobrze zrozumie wszystkie za i przeciw”.

Eksperci od cyberbezpieczeństwa już znaleźli luki w zabezpieczeniach systemu wyposażonego w Recall. Co więcej, pojawiły się wątpliwości, czy Microsoft nie będzie dokonywać analizy danych użytkowników na urządzeniu i gromadzić wyników w centrali. Zapytaliśmy o to Brada Smitha, wiceprezesa firmy („Polska jest dla nas filarem NATO”, DGP nr 112 z 11 czerwca 2024 r.). Nie potrafił odpowiedzieć, czy taka funkcjonalność została przewidziana. Stwierdził jednak, że firma słucha skarg użytkowników. Już po wywiadzie Microsoft opublikował oświadczenie, w którym zapewnia, że Recall będzie dostępna tylko dla chętnych i poprawiono w niej zabezpieczenia.

W sierpniu 2023 r. zmianę warunków licencyjnych ogłosił też Zoom, czyli dostawca aplikacji do wideokonferencji. Nowy zapis stanowi, że dane generowane przez usługę mogą być wykorzystywane do „uczenia maszynowego lub sztucznej inteligencji (w tym do celów szkolenia i dostrajania algorytmów i modeli”). Później doprecyzowano, że użytkownik może się na to nie zgodzić, a trenowanie sztucznej inteligencji ma przynieść ułatwienia, takie jak automatyczne podsumowania spotkań dla klientów.

Pomóż nauce! I biznesowi…

Część firm poszukujących złóż e-złota stosuje jeszcze bardziej przemyślne wybiegi. Impact CEE to jedna z topowych konferencji w Polsce (w dużej mierze finansowana przez Google’a). Przyjeżdżają tam innowatorzy, politycy, startupowcy i przedstawiciele dużego biznesu, część załatwić interesy, część dla inspiracji czy orientacji w trendach. W tym roku przy pełnej sali mówił do nich Nicklas Lundblad z Google DeepMind, czyli laboratorium utworzonego w Wielkiej Brytanii, ale wykupionego przez cyfrowego giganta. W pełnej entuzjazmu prezentacji przekonywał, że „nauka spowalnia” i jako społeczeństwo koniecznie musimy znaleźć na to odpowiedź. „Musimy sprawić, że świat będzie czytelny dla sztucznej inteligencji” – perswadował. I przekonywał, że najważniejszym zadaniem społeczeństw jest dziś zadbanie o ustrukturyzowane dane, które mogłyby przetwarzać modele. Oczywiście pokazał przy tym kilka przykładów stworzonych przez amerykańską korporację, np. do mapowania protein, przewidywania pogody czy nawet poszukiwania taniego źródła energii. Przedstawiając potrzebę budowania zbiorów danych dla wytwarzanej w Google AI, Lundblad nie zająknął się nawet o tym, by firma przewidywała jakieś „honorarium” za ich dostarczenie. Bez tego mechanizm może wyglądać tak: społeczeństwa ponoszą koszty gorączki e-złota i wydobywają cenny kruszec, w dobrej wierze oddają go badaczom firmy, którzy opracowują dzięki niemu swoje produkty, a później mogą sprzedawać je użytkownikom (np. nowoczesne leki – już dziś przedstawiciele firm farmaceutycznych przyznają, że to big techy mogą przejąć rynek innowacji w tym sektorze).

Zwrot za udostępnienie

Nad innym scenariuszem pracuje Unia Europejska. Ma ucywilizować gorączkę e-złota i, przynajmniej w optymistycznym założeniu, doprowadzić do tego, że społeczeństwa swoje dane, owszem, będą przekazywały, ale firmy będą musiały w jakiś sposób zapłacić za ich wykorzystanie. Ten mechanizm to przestrzenie danych, czyli – upraszczając – gigantyczne ich zbiory kompletowane przez państwa członkowskie i wymieniane między członkami Unii. Mają dotyczyć m.in. rolnictwa, języków czy zdrowia. Ta przestrzeń została już uregulowana – 24 kwietnia PE przyjął rozporządzenie EHDS. Dzięki digitalizacji danych medycznych i ujednoliceniu ich w całej Wspólnocie będzie można stworzyć mechanizm przetwarzania informacji o pacjentach tak, by posłużyły choćby do tworzenia nowych leków czy dopasowanych terapii. Wielkie firmy miałyby dostęp do tych informacji w zanonimizowanej formie i za opłatą, która później mogłaby zasilać budżet np. Narodowego Funduszu Zdrowia.

Teraz kraje członkowskie muszą zacząć pracować nad implementacją EHDS, przepisy dają na to jednak nawet do 12 lat. Choć tworzenie ogromnych baz danych wiąże się z ryzykiem (np. dla bezpieczeństwa czy zapewnienia prywatności), brak państwowego nadzoru nad złożami e-złota może się okazać jeszcze gorszy w skutkach. Poszukiwacze przyjdą bowiem sami i znajdą sposoby, by te dane wydobyć. Niekoniecznie z korzyścią dla ogółu. Na pewno z zyskiem dla swoich akcjonariuszy. ©Ⓟ

Wideo

Jak państwo oraz wielkie firmy wykorzystują dane, by inwigilować obywateli. Oglądaj w podcaście „Wittenberg rozmawia o technologiach”