Te czaty uczone są na treściach z Internetu - a mamy wśród nich przewagę spamu. To dlatego przecież ostatnio jedna z firm kupiła za grube miliony treści z serwisu Reddit w celu użycie ich do algorytmów uczenia maszynowego.
Kiedy spam zaczął być generowany przez modele językowe, kolejne generacje modeli zaczęły być uczone na swoich własnych (lub poprzednich generacji) wynikach. Stąd problematyczne uczenie. A wraz z zanikiem niezależnych stron, wartościowej treści, którą można "przepakować", ubywa.
Do tego dochodzi niepewna sytuacja prawna wielu zbiorów uczących - wiele treści, które zapakowano do modelu GPT jest licencjonowane niekomercyjnie. Ponieważ model językowy można opisać jako algorytm kompresji, to sprzedaż usługi GPT w zasadzie nie różni się wiele od handlowania płytkami z DivX-ami, czyli skompresowanymi stratnie filmami skopiowanymi bez wiedzy i zgody dystrybutorów z płyt DVD - aktywność taka była bardzo popularna jeszcze 10-15 lat temu na bazarach i giełdach komputerowych i była srogo karana przez wszelkie służby.