Publikujemy w internecie tak dużo treści, że z czasem przechowywanie wszystkich stanie się niemożliwe. Pozostawienie selekcji gigantom technologicznym byłoby jak zaprószenie ognia w Bibliotece Aleksandryjskiej

W ciągu ostatnich dwóch lat wygenerowano 90 proc. danych, które znajdują się w sieci. Nieprawdopodobne? Tylko do czasu aż sobie uświadomimy, że dziennie wysyłamy 306 mld e-maili, a każdy użytkownik sieci przesyła średnio jeden gigabajt danych na godzinę – mniej więcej tyle, ile zajmuje kilkaset e-booków. Dynamika przyrostu treści przyspiesza, bo sprzedaje się coraz więcej smartfonów (w tym roku ponad miliard) umożliwiających robienie zdjęć oraz nagrywanie filmów w wysokiej jakości, a więc rozmiary plików rosną, zaś do sieci każdego dnia dołącza ok. 875 tys. nowych osób (obecnie internautów jest niewiele ponad pięć miliardów).
Ktoś powie, że wraz ze wzrostem ilości danych zwiększają się również możliwości ich składowania, np. w chmurze. Ale to tylko część prawdy. Bo choć rok do roku koszty przechowywania cyfrowych treści spadają od 25 proc. do nawet 40 proc. – i jest to trend przyspieszający, bo rynek jest innowacyjny i konkurencyjny – to rzecz w tym, że już dziś nie dałoby się w chmurze pomieścić wszystkich treści. Bo danych przybywa znacznie szybciej niż nowych serwerów.
I choć przetwarzanie danych to obecnie biznes lepszy niż wydobywanie złota czy diamentów, to taki stan nie będzie trwał wiecznie. Jest co najmniej kilka scenariuszy, w których może się okazać, że dane trzeba będzie zacząć selekcjonować. To zaś może stać się nie lada wyzwaniem. Bo kto będzie o tym decydował? I jak ocenić to, co jest wartościowe?
Wycena nostalgii
Giganci technologiczni zachęcają użytkowników do jak najczęstszej aktywności. Bo im więcej wpisów na Twitterze i postów na Facebooku, materiałów wideo na YouTubie, filmowych duetów na TikTok-u oraz zdjęć na Instagramie, tym więcej danych można przetworzyć, dostarczając lepiej sprofilowane reklamy. A im większa część interakcji społecznych przenosi się do internetu, tym bardziej puchną portfele spółek z Doliny Krzemowej lub, coraz częściej, z Pekinu i Hangzhou. Dopóki na produkowanych przez nas treściach zarabiają, dopóty nasze dane są bezpieczne. Lecz jeśli biznes przestanie się spinać, firmy będą porzucać przynoszący straty balast. Tak już zresztą bywało.
Założony w 2003 r. Myspace.com, o którym mało kto już pamięta, był przez wiele lat największym portalem społecznościowym. Oprócz pozyskiwania znajomych oferował też możliwość upubliczniania twórczości przez muzyków z całego świata. Ale w 2019 r. podano, że serwis – oficjalnie z powodu błędów przy migracji danych (to proces przenoszenia danych z jednego systemu na inny) – utracił wszystkie treści, w tym 50 mln utworów, które zostały opublikowane w poprzednich 12 latach. Andy Baio, amerykański technolog i bloger, napisał, że awaria najprawdopodobniej nie była przypadkowa, tylko była wynikiem celowego działania, mającego drastycznie zbić koszty funkcjonowania dogorywającego serwisu – by zbić koszty utrzymywania infrastruktury, na której zostały zgromadzone pliki.
Są też podobne przykłady z rodzimego podwórka. Portal Grono.net założono w 2004 r., a już cztery lata później korzystało z niego 1,7 mln użytkowników, dyskutując ze sobą czy wymieniając się zdjęciami. Serwis był niezwykle popularny do 2008 r., kiedy pojawiła się konkurencja – nie tylko w postaci Facebooka, lecz także portalu Naszaklasa.pl. Na tym drugim, w szczytowym momencie popularności, zarejestrowanych było aż 14 mln użytkowników – w tym wiele osób, które nigdy wcześniej nie miały styczności z komputerem i internetem. Zarówno Grono.net, jak i Naszaklasa.pl (od 2010 r. nk.pl) zakończyły żywot w momencie, gdy przechowywanie danych stało się nieopłacalne. Pierwszy serwis wyzionął ducha w 2012 r., drugi całkiem niedawno, bo 27 lipca 2021 r. Oba stały się częścią historii rodzimej sieci, ale wytworzone przez użytkowników treści – swoiste cyfrowe kapsuły czasu, zawierające wiadomości od ukochanych, zdjęcia i rozmowy z dawnych lat – odeszły w nicość. – Wielu zapomina, że media społecznościowe to wytwór kapitalizmu, a nie społeczne archiwa czy publiczne muzea. To, co dzieje się z danymi, zależy od finansów – punktuje prof. Mirosław Filiciak, kulturoznawca oraz medioznawca z Uniwersytetu SWPS.
Pragmatyczne decyzje korporacji nierzadko skutkują też tym, że tracimy dostęp do wytworów kultury. Już dziś zaczyna to doskwierać chociażby miłośnikom gier wideo. Wielu tytułów – nierzadko wartościowych – nie da się oficjalnie kupić. Z witryn sklepów elektronicznych poznikały produkcje będące adaptacjami popularnych seriali („Simsponów” czy „Transformers”) i filmów („Władcy Pierścieni”), bo skończyła się umowa na wykorzystanie marek. Usuwa się też gry, w których wygasły licencje na wykorzystanie modeli prawdziwych samochodów czy piosenek. Znane są przypadki tytułów, które bardzo trudno przenieść na nowe platformy, bo zaginął ich kod źródłowy („Silent Hill 2”). Lub skasowano wydany już tytuł z powodu konfliktu z twórcą (vide spór japońskiej firmy Konami z Hideo Kojimą o niezwykle interesującą grę „P.T.”). We wspomnieniach nielicznych zostają produkcje, które były sprzedawane na zapomnianych już platformach cyfrowych albo gry wydane na niegdyś modne modele telefonów komórkowych (urządzenia z zainstalowanymi produkcjami na licencji popularnej serii „Final Fantasy” kosztują na portalach aukcyjnych nawet kilka tysięcy dolarów). Z powodów biznesowych znikają też całe światy wirtualne, np. gry sieciowe, w których duże społeczności spędzają czas przez długie lata, nawiązując przyjaźnie.
Sieć pali jak smok
Magazynowanie starych danych i ciągła produkcja nowych wiąże się również z innym kosztem – ekologicznym. Szacuje się, że internet, cała infrastruktura, odpowiada dziś za 3,7 proc. globalnej emisji gazów cieplarnianych do atmosfery; to tyle, co transport lotniczy. I te wartości mają się podwoić do 2025 r. Termin „chmura obliczeniowa” brzmi niewinnie, ale usługę tę tworzą olbrzymie hale wypełnione prądożernymi serwerami, które trzeba przez cały czas chłodzić, i do których budowy potrzeba setek ton surowców. Należy pamiętać także o tym, że nasze zdjęcia kotów, taśmowa produkcja pornfood czy filmiki z wakacji muszą być przechowywane na kilku serwerach, by nie zniknęły w razie awarii.
Zdobywające coraz większą popularność korzystanie ze sztucznej inteligencji (SI) też pozostawia olbrzymi ślad węglowy. Na przykład sprzęt z zainstalowanym algorytmem GPT-3 emituje przy trenowaniu jednego modelu (czyli nauki systemu, aby dokonał analizy konkretnego zagadnienia) tyle dwutlenku węgla, co jeden samochód na dystansie 700 tys. km (to mniej więcej dwukrotność odległości pomiędzy Ziemią a Księżycem). A z pomocy GPT-3 korzystają obecnie dziesiątki tysięcy naukowców z całego świata.
– Gdy prądożerne serwerownie będą musiały konkurować o energię z przemysłem czy gospodarstwami domowymi, może się okazać, że nie możemy przechowywać tak wielu danych w sieci. Już dziś mamy kłopot z wytwarzaniem prądu , więc blackouty w najbliższych latach nie są teoretycznym zagrożeniem – zauważa Jan Zygmuntowski z Akademii Leona Koźmińskiego w Warszawie, współprzewodniczący Polskiej Sieci Ekonomii. Już teraz wszystkie na świecie centra danych zużywają ok. 416 terawatów energii elektrycznej, to 3 proc. produkowanego prądu.
RODO-łamacz biznesu
Jak grzyby po deszczu pojawiają się również coraz to nowe akty prawne dotyczące przetwarzania danych osobowych. One także mogą skutecznie rozbrajać modele biznesowe polegające na niekontrolowanej analizie poczynań użytkowników w sieci. RODO stało się – zgodnie z intencją unijnego ustawodawcy – regulacyjnym motorem napędowym dla świata. W ubiegłym roku amerykański stan Kalifornia wprowadził podobne przepisy – CCPA. W marcu tego roku własne regulacje przyjął Waszyngton, w maju – Nowy Jork, w czerwcu – stan Illinois. Od dłuższego czasu w USA mówi się o konieczności opracowania federalnego aktu dotyczącego ochrony prywatności. Na początku września w Chinach wejdą w życie przepisy mające chronić dane mogące zagrozić bezpieczeństwu Państwa Środka, zaś na początku listopada – regulacja przypominająca RODO. W ostatnich miesiącach rząd w Pekinie skarcił nawet twórców 43 aplikacji (np. Didi, Tencenta czy Alibabę) za nadmierne przetwarzanie danych. A kilka dni temu przedstawiono restrykcyjną propozycję kontroli nad szeroko rozumianymi algorytmami sztucznej inteligencji.
Tomasz Wyszyński, wiceprezes ds. sztucznej inteligencji w Schneider Electric, przyznaje, że właściciele platform technologicznych stale muszą się mieć na baczności i dostosowywać biznesy do pojawiających się zmian w przepisach. – Upowszechniające się regulacje przypominające i rozszerzające RODO mogą prowadzić do tego, że kilkuletnie dane użytkowników będą musiały być automatycznie usuwane z serwisów – uważa Zygmuntowski.
Także coraz więcej użytkowników ma rosnącą świadomość tego, że ich dane osobowe stały się produktem dla gigantów technologicznych. I o ile dziś wiele osób akceptuje jeszcze, że dostaje np. sprofilowane treści w zamian za informacje o swoich preferencjach, tak z czasem mogą zacząć się buntować. – Jeżeli organizacje konsumenckie, a w ślad za nimi także sami użytkownicy zaczną wymagać jakiejś formy dodatkowej kompensacji za udostępnienie swoich danych, to modele biznesowe wielu platform mogą szybko stać się nieopłacalne – przyznaje Tomasz Wyszyński.
Selekcja wartości
Jeżeli zatem istnieje duże ryzyko, że wiele danych użytkowników i wytworów sztuki będzie musiało zniknąć z sieci, powstaje pytanie: czy to platformy powinny decydować o tym, które skasować jako pierwsze?
Tomasz Wyszyński uważa, że firmy mogłyby wybrać niekoniecznie te treści, których byśmy się spodziewali. Bo nie jest powiedziane, że byłyby to materiały, które uzyskały najwięcej polubień czy komentarzy. – Dla biznesu najważniejsze są treści, na których najwięcej zarabia. Te, które sprawiają, że ludzie klikają w reklamy, i te, które wabią nowych użytkowników. W gruncie rzeczy jedynie niewielka część treści przyciąga zdecydowaną większość uwagi, zaś reszta pozostaje niszowa, a zatem trafiłaby pod nóż – wyjaśnia Wyszyński.
Dodaje, że również materiały sprzed kilku lat zapewne by się nie ostały. A to dlatego, że dla portali najważniejsze są bieżące potrzeby użytkowników. Do profilowania dane archiwalne są mało wartościowe. – Ważniejsze są dane zebrane w krótkim terminie. Serwisy chcą się zmieniać, dostosowywać do trendów i angażować. Przygotowywane treści mają być na czasie i istotne w danej chwili. Inaczej użytkownik może się znudzić i przejść do konkurenta – wskazuje Wyszyński.
Zdaniem Jana Zygmuntowskiego przy takim scenariuszu usunięte zostałyby zasoby mające olbrzymie znaczenie sentymentalne dla niewielkich grup, np. pierwsza komunia czy urodziny rodzeństwa. Zostałyby za to filmy z wywodami płaskoziemców czy zwolennikami teorii plandemii, bo to przy nich odbywa się angażująca dla wielu użytkowników dyskusja.
Jednocześnie ekspert przyznaje, że debata na temat selekcji danych na pewno pojawi się w niedalekiej przyszłości. I to nie tylko ze względu na wskazane wcześniej problemy, lecz także z uwagi na fakt, że zacznie umierać pierwsze pokolenie bardzo aktywnych użytkowników internetu. – Wówczas regulatorzy będą musieli zastanowić się, co zrobić z ich zdjęciami, komentarzami i treściami przechowywanymi w chmurze – wskazuje Jan Zygmuntowski.
Pochopna decyzja o ich skasowaniu, zdaniem prof. Mirosława Filiciaka, byłaby jak pożar Wielkiej Biblioteki Aleksandryjskiej w V. w. p.n.e. – Esencja danej epoki to nie tylko najpoważniejsze i najpopularniejsze treści, lecz także żarty, kreatywne wpisy czy przemowy, które skradły ludziom serca. Internet to miliony małych opowieści wykluwających się w miliardach różnych interakcji – uważa.
Trofea z memów
Zdaniem rozmówców najlepiej byłoby, gdyby użytkownicy sami zaczęli wybierać treści, które są dla nich najbardziej wartościowe. Jan Zygmuntowski uważa, że z czasem może rozpowszechniać się idea cyfrowego minimalizmu i tworzenia własnych przestrzeni dyskowych. Przykładowo grupa znajomych, sąsiadów czy współpracowników będzie tworzyć małe serwery na własne potrzeby, np. zasilane panelami słonecznymi umieszczonymi na dachach budynków. – Decentralizacja przetwarzania danych będzie coraz większa. A użytkownicy selektywnie będą podchodzić do danych, zamiast składować ich zupełnie niepotrzebne ilości. Natomiast dane potrzebne społecznie jak np. zdrowotne będą przechowywane we wspólnicach (zbieranie danych z rozproszonych źródeł i magazynowanie ich w jednym rejestrze z/bez możliwości czerpania z niego przez podmioty zewnętrzne – red.), które dziś testują kolejne kraje świata – uważa Zygmuntowski.
Czyli można powiedzieć, że pomimo niezwykłego rozwoju technologicznego internauci wrócą do kolekcjonowania pewnego rodzaju trofeów z treściami, tak jak niegdyś entuzjaści filmów kolekcjonowali filmy na kasetach czy DVD albo muzykoholicy albumy na CD. – Być może dzięki temu będziemy też bardziej szanować wartość ulubionych przez nas treści. Bo dziś konsumujemy tak dużo muzyki czy filmów, że czasem nie dostrzegamy, iż mieliśmy do czynienia z czymś istotnym, czasami wybitnym – wskazuje prof. Filiciak.
Zwykli użytkownicy mogą też stać się z czasem swoistymi mecenasami nauki. Tak jak w przypadku największego zbioru wiedzy na świecie, Sci-hub, czyli strony, na której każdy naukowiec może udostępnić swój artykuł naukowy. Dziś to baza zawierająca ponad 800 mln publikacji. Portal założony przez kazachską programistkę Aleksandrę Ełbakjan jest zwalczany przez serwisy udostępniające odpłatnie prace naukowe. Zamykane są więc jego kolejne serwery. Pojawił się więc pomysł, aby pliki były udostępniane w zamkniętej sieci użytkowników, jak niegdyś popularne torrenty z pirackimi treściami.
Podobnie jest też w przypadku zachowywania (opisywanych wcześniej) utraconych gier komputerowych. Wiele produkcji jest archiwizowanych w formie ROM-ów, które można odtwarzać na innych platformach niż na tych, na których pierwotnie zadebiutowały. W przypadku horroru „P.T.” jeden z polskich programistów odtworzył produkcję w całości na innej platformie. Fanowskie serwery martwych gier sieciowych dają zaś społecznościom możliwość dalszego spędzania czasu w wirtualnym świecie. – Tworzenie archiwów i w praktyce działalność kuratorsko-muzealna w przypadku znacznej części treści kultury cyfrowej przechodzi na entuzjastów. Repozytoria tych danych są w szarej strefie albo i po prostu w strefie pirackiej. Bo prawo wciąż chroni inwestycje bardziej niż pamięć kulturową – przyznaje prof. Mirosław Filiciak.
Jak będzie wyglądała selekcja danych w przyszłości, zależeć będzie zapewne zatem od użytkowników. Coraz częściej – od early adoptersów – czyli dzisiejszej młodzieży, która nie zna czasów bez internetu i smartfonów. Tej, która dziś zalewana jest nieskończonym strumieniem danych, która nie szczędzi swoim ulubieńcom komentarzy, polubień oraz finansowych zachęt. Ale która z czasem też się zestarzeje i będzie chciała odtwarzać treści z dawnych lat. – O ile oczywiście pomyślą o zapewnieniu sobie takiej możliwości – konkluduje prof. Mirosław Filiciak.