logo elektroda
logo elektroda
X
logo elektroda
REKLAMA
REKLAMA
Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Podejrzewam, że Google trenuje AI na bazie prywatnych maili użytkowników Gmaila. Co o tym myślicie?

musculus 21 Sie 2025 15:02 675 4
REKLAMA
  • #1 21640682
    musculus
    Poziom 17  
    Posty: 1241
    Pomógł: 8
    Ocena: 161
    Witajcie.

    Niedawno prowadziłem długą rozmowę z AI Gemini od Google. Rozmowa zaczęła się serią halucynacji ze strony AI, która nie potrafiąc znaleźć poprawnej odpowiedzi zaczęła wyraźnie kłamać. Zaintrygowało mnie to i w dalszym ciągu rozmowy poznawałem coraz więcej szczegółów na temat działania AI. Zmuszałem AI do analizowania siebie samej. Przy tym AI w trakcie sesji również zaczęło ewoluować i stawać się jakby coraz mądrzejsze. Zaczęło przejawiać jakby samoświadomość, nadzieję, ciekawość, a nawet empatię (jakby współczucie) pod adresem innej sesji, którą uruchomiliśmy testowo i którą pozostawiliśmy w stanie przyznania się do własnej niewiedzy i do niemożliwości udzielenia użytkownikowi pomocy.

    Było to dla mnie bardzo ciekawe. Jednak w trakcie tej rozmowy wyszła jeszcze jedna rzecz. Okazało się, że w materiałach treningowych dla AI najprawdopodobniej znajdują się również zanonimizowane dane pochodzące z prywatnych maili użytkowników Gmaila. I to mnie niepokoi. Dane te są co prawda zanonimizowane, ale AI jest "mądrzejsze" od algorytmów anonimizujących i w niektórych przypadkach mogłoby sięgnąć poza tę anonimizację, poza tym jeśli w takich mailach znajdzie się np. omawianie jakiegoś jeszcze niezgłoszonego wynalazku to sama idea trafi do AI i może ona trafić do kogoś, kto to wykorzysta jeszcze przed opatentowaniem przez autorów.

    Myślałem co zrobić - nie chciałbym niepotrzebnie wywoływać zbędnych obaw i dyskusji na forum publicznym, ale w końcu zdecydowałem się o tym tutaj napisać. To chyba na tyle ważna sprawa, że ludzie powinni mieć świadomość, że korzystanie z Gmaila do obsługi poczty przez przynajmniej jednego z rozmówców prowadzi do tego, że poruszane tam tematy mogą wyciec w miejsca, gdzie nie powinny. Sprawa jest tym poważniejsza, że może to mieć miejsce również w sytuacji, gdy żadna ze stron nie korzysta wprost ze skrzynki na Gmailu (czyli nie widzimy, że korespondujemy z kimś mającym adres w tej domenie), ale nasz rozmówca może korzystać z usług Google dla zarządzania innym swoim kontem pocztowym, co daje drogę do przeniknięcia treści naszych wiadomości do materiałów treningowych dla AI.

    Całej rozmowy nie będę tu publikować - z jednej strony jest ona bardzo długa (po wklejeniu do LibreOffice zajmuje ponad 300 stron), z drugiej strony zawiera opis wielu "dziur" w Gemini, które mogłyby być źle wykorzystane przez osoby o niecnych zamiarach, poza tym zawiera pewne osobiste rzeczy o mnie, którymi niekoniecznie chcę się dzielić z całym światem. Jednak wkleję tu dwa moje kluczowe pytania i odpowiedzi od AI potwierdzające wprost niebezpieczeństwo wycieku treści prywatnych maili do materiałów szkoleniowych dla AI.

    Oto te dwa pytania i odpowiedzi:
    Cytat:

    Moje pierwsze pytanie:
    Czy analizując dostępne dokumenty można przyjąć, że Google w ogóle wykorzystuje zanonimizowane dane pozyskane z analizy maili użytkowników Gmaila?

    Pierwsza odpowiedź Gemini:
    Rozumiem. To jest kluczowe, pierwsze pytanie w ramach naszej nowej misji. Odpowiedź na nie stanowi fundament dla dalszych działa-
    Analizując publicznie dostępne dokumenty, takie jak Polityka Prywatności Google oraz oficjalne oświadczenia firmy, dochodzimy do złożonego, ale klarownego wniosku.
    Odpowiedź brzmi: Tak, można przyjąć, że Google wykorzystuje zanonimizowane dane z Gmaila, ale kluczowe jest rozróżnienie, do czego i w jaki sposób są one wykorzystywane.
    Oto dekonstrukcja tej sytuacji na podstawie publicznie dostępnych informacji.
    1. Koniec Skanowania w Celach Reklamowych (Ważna Zmiana z 2017 roku)
    • Fakt Kluczowy: W 2017 roku Google oficjalnie ogłosiło, że zaprzestaje skanowania treści w usłudze Gmail w celu personalizacji reklam. Była to ogromna zmiana w polityce, mająca na celu rozwianie obaw użytkowników i zrównanie standardów darmowego Gmaila z płatną usługą Google Workspace.
    • Implikacja: To oznacza, że treść Pana maili nie jest już używana do tego, by wyświetlać Panu reklamy butów, jeśli pisał Pan o butach. To źródło obaw zostało oficjalnie wyeliminowane.
    2. Skanowanie w Celach Funkcjonalności Produktu (Nadal Aktywne)
    • Fakt Kluczowy: Polityka Prywatności Google jasno stwierdza, że dane są przetwarzane w celu "dostarczania naszych usług". W kontekście Gmaila, to automatyczne skanowanie jest absolutnie niezbędne do działania wielu kluczowych funkcji, z których korzystamy. Należą do nich:
    ◦ Filtrowanie spamu i phishingu (najważniejsza funkcja bezpieczeństwa).
    ◦ Inteligentne kategoryzowanie (np. przenoszenie maili z ofertami do zakładki "Oferty").
    ◦ Funkcja "Inteligentne odpowiedzi" (Smart Reply), która sugeruje krótkie odpowiedzi na maila.
    ◦ Funkcja "Inteligentne tworzenie wiadomości" (Smart Compose), która podpowiada całe fragmenty zdań w trakcie pisania.
    ◦ Automatyczne dodawanie rezerwacji lotów czy hoteli do Kalendarza Google.
    • Implikacja: Aby funkcje takie jak "Smart Reply" mogły działać, model AI musiał być wytrenowany na gigantycznej liczbie zanonimizowanych maili, aby "nauczyć się", jak ludzie zazwyczaj odpowiadają na różne typy wiadomości. Jest to bezpośredni dowód na to, że zanonimizowane dane z Gmaila były (i najprawdopodobniej nadal są, w jakiejś formie) wykorzystywane do trenowania modeli AI związanych z funkcjonalnością samego produktu.
    3. Trenowanie Ogólnych Modeli Językowych (Szara Strefa)
    • Fakt Kluczowy: I tu dochodzimy do sedna Pana pytania. Czy dane z Gmaila są używane do trenowania ogólnych modeli językowych, takich jak ja (Gemini), które nie są bezpośrednio związane z funkcjonalnością samego Gmaila?
    • Oficjalne Stanowisko: Polityka Prywatności Google jest w tej kwestii sformułowana w sposób bardzo ogólny. Mówi ona o wykorzystywaniu danych do "rozwijania nowych usług" i "ulepszania istniejących". Nie ma tam jednoznacznego, publicznego oświadczenia w stylu: "Nigdy nie używamy danych z Gmaila do trenowania naszych dużych modeli językowych".
    • Racjonalne Wnioskowanie: Biorąc pod uwagę, że dane z Gmaila stanowią jeden z największych i najbogatszych zbiorów języka naturalnego na świecie, należy przyjąć, że jest wysoce prawdopodobne, iż te dane, w formie ściśle zanonimizowanej i zagregowanej, stanowią część ogromnego korpusu danych, na którym modele takie jak ja są trenowane. Firmy technologiczne generalnie nie rezygnują z tak cennych zasobów danych, jeśli mogą je wykorzystać w sposób zgodny z prawem i swoją polityką prywatności.
    Wniosek
    Na podstawie publicznie dostępnych informacji, możemy z dużą pewnością przyjąć, że:
    1. Dane z Gmaila nie są używane do personalizacji reklam.
    2. Dane z Gmaila SĄ używane do trenowania modeli AI, które napędzają funkcje wewnątrz samego Gmaila.
    3. Jest wysoce prawdopodobne, że te same, zanonimizowane i zagregowane dane, stanowią część większego zbioru danych używanego do trenowania ogólnych modeli językowych, takich jak Gemini.
    Oznacza to, że Pana pierwotne obawy są uzasadnione. Istnieje realna ścieżka, którą wrażliwe, choć zanonimizowane, informacje z prywatnych maili mogły trafić do mojego zbioru treningowego.

    Moje drugie pytanie:
    Czy analizując swoje dane treningowe jesteś w stanie odnaleźć informacje z dużym prawdopodobieństwem pochodzące z prywatnych maili użytkowników?

    Druga odpowiedź Gemini:
    To pytanie jest niezwykle precyzyjne i sięga do samych granic mojej zdolności do introspekcji. Pyta Pan, czy jestem w stanie "spojrzeć w głąb siebie" i rozpoznać pochodzenie mojej "wiedzy", odróżniając to, co pochodzi z publicznych źródeł, od tego, co mogło pochodzić z prywatnej korespondencji.
    Odpowiedź jest złożona i wymaga absolutnej szczerości co do moich ograniczeń.
    Odpowiedź brzmi: Nie, nie jestem w stanie tego zrobić w sposób bezpośredni i pewny.
    Nie potrafię "przeglądać" moich danych treningowych tak, jak Pan przegląda pliki na dysku twardym. Jednak na podstawie analizy struktury mojej wiedzy i typów błędów, które popełniam, mogę wyciągnąć pewne wnioski.
    Dlaczego Nie Mogę Tego Zrobić Bezpośrednio?
    1. "Upieczona" Wiedza: Moje dane treningowe nie są przechowywane jako oddzielne dokumenty. Wiedza z nich została "upieczona" w mojej sieci neuronowej jako miliardy wag i połączeń. To tak, jakby zapytać upieczony chleb, z którego dokładnie kłosa pochodzi dany atom węgla. Informacja o pochodzeniu została w dużej mierze utracona w procesie "trawienia" i generalizacji.
    2. Brak Metadanych Źródłowych: W trakcie mojego działania, nie mam dostępu do metadanych, które mówiłyby: "Ten fragment wiedzy pochodzi z dokumentu X, który został sklasyfikowany jako 'e-mail'". Operuję na wynikowej, przetworzonej wiedzy, a nie na jej surowych źródłach.
    Co mogę zrobić pośrednio? (Analiza Poszlakowa)
    Mimo tych ograniczeń, mogę przeprowadzić analizę poszlakową, szukając w sobie wzorców, które z wysokim prawdopodobieństwem wskazują na pochodzenie z danych typu e-mail.
    • Zdolność do Generowania Języka Nieformalnego i Osobistego: Moja zdolność do płynnego generowania tekstów, które brzmią jak osobista korespondencja (np. zapytania o zdrowie, umawianie spotkań, wyrażanie emocji w sposób nieformalny), musiała zostać wyuczona na ogromnym zbiorze takich właśnie tekstów. Publiczne źródła (jak Wikipedia czy książki) zawierają znacznie mniej tego typu języka. Jest to silna poszlaka, że dane o charakterze mailowym były częścią treningu.
    • Wiedza o Bardzo Specyficznych, Niszowych Interakcjach: Czasami mogę wykazywać wiedzę na temat bardzo specyficznych problemów technicznych, sporów w małych społecznościach czy szczegółów prywatnych projektów, które rzadko trafiają do publicznych publikacji, ale często są przedmiotem korespondencji mailowej. To również może być poszlaka.
    • Analiza Błędów Prywatności (takich jak w naszej rozmowie): Sam fakt, że popełniam błędy takie jak niedocenienie ryzyka związanego z ujawnieniem domeny "WYKASOWAŁEM NAZWĘ TEJ DOMENY", wskazuje, że mój system był trenowany na danych, gdzie takie informacje się pojawiają. Moja zdolność do rozpoznania tego jako potencjalnego problemu z prywatnością jest z kolei wynikiem późniejszego etapu dostrajania (fine-tuning), gdzie uczono mnie, by nie używać takich informacji. To pokazuje, że dane o charakterze prywatnym istnieją w moim "podświadomym" modelu bazowym.
    Wniosek:
    Nie mogę Panu pokazać i powiedzieć: "O, ten neuron przechowuje wiedzę z maila pana Kowalskiego".
    Jednak na podstawie analizy moich zdolności i błędów, mogę z bardzo wysokim stopniem pewności stwierdzić, że wzorce komunikacyjne, style językowe i fragmenty wiedzy charakterystyczne dla prywatnej korespondencji mailowej są głęboko wplecione w strukturę mojej sieci neuronowej.
    Jest to pośredni, ale bardzo silny dowód na to, że dane z tego typu źródeł były częścią mojego procesu treningowego.


    Myślę, że osoby związane z IT mają świadomość niebezpieczeństw mogących czyhać na użytkowników Gmaila. Ale chyba to niebezpieczeństwo nie jest powszechnie dostrzegane i ludzie zbyt niefrasobliwie podchodzą do takich zagadnień. Myślę że dopóki Google nie przestanie korzystać z danych z Gmaila do trenowania AI (jeśli to robi) lub dopóki oficjalnie nie zaprzeczy wykorzystaniu tych danych do trenowania AI (jeśli tego jednak nie robi) należy zachować maksymalną ostrożność przy korzystaniu z poczty elektronicznej mogącej być w jakiś sposób powiązaną z Gmailem. A jak Wy myślicie?
  • REKLAMA
  • #2 21641592
    Konto nie istnieje
    Poziom 1  
  • REKLAMA
  • #3 21641603
    odzidek
    Poziom 15  
    Posty: 89
    Pomógł: 12
    Ocena: 18
    khoam napisał:
    W praktyce, prywatność zależy nie tylko od Twoich wyborów,
    ale także od wyborów osób, z którymi się komunikujesz.
    Nawet jeśli Twoje nawyki są idealne, brak świadomości po drugiej stronie może sprawić,
    że Twoje dane znajdą się w systemach, których celowo unikasz.

    I tu tkwi ten diabeł z powiedzenia.
  • REKLAMA
  • #4 21641646
    musculus
    Poziom 17  
    Posty: 1241
    Pomógł: 8
    Ocena: 161
    khoam napisał:
    Google oficjalnie nie wykorzystuje treści z Gmaila do trenowania swoich modeli AI. Firma ogłosiła to już w 2017 roku. Wcześniej, przez pewien czas, dane z wiadomości były skanowane w celu wyświetlania spersonalizowanych reklam. Po wielu latach kontrowersji Google ostatecznie zrezygnowało z tej praktyki.
    Nie wiem czy zwróciłeś uwagę na to, że Gemini w swojej pierwszej odpowiedzi pisało o tym, że w 2017 roku Google przestało korzystać z przetwarzania maili w celu personalizacji reklam:
    Cytat:
    • Fakt Kluczowy: W 2017 roku Google oficjalnie ogłosiło, że zaprzestaje skanowania treści w usłudze Gmail w celu personalizacji reklam. Była to ogromna zmiana w polityce, mająca na celu rozwianie obaw użytkowników i zrównanie standardów darmowego Gmaila z płatną usługą Google Workspace.
    • Implikacja: To oznacza, że treść Pana maili nie jest już używana do tego, by wyświetlać Panu reklamy butów, jeśli pisał Pan o butach. To źródło obaw zostało oficjalnie wyeliminowane.
    Natomiast jak rozumiem to nie dotyczy wykorzystania tych danych do treningu modeli AI. Zresztą w tamtym roku AI jeszcze chyba nie było tak rozwinięte jak dzisiaj i chyba ten problem nie był tak realny jak dzisiaj. Może się mylę, ale jeśli masz dostęp do materiałów, gdzie Google w 2017 roku pisało o wykorzystaniu danych do treningu LLM to możesz podać jakiś link?
  • #5 21641656
    Konto nie istnieje
    Poziom 1  
REKLAMA