30/01/2025

CDN

TWOJA GAZETA STUDENCKA

Nieludzki głos. O voice cloningu i jego naturze

10 min read

źródło: https://pxhere.com/

Klonowanie głosu  (voice cloning), to zabieg, który na podstawie próbek dźwięku o określonej długości pozwala maszynowo odtworzyć zbliżony do pierwowzoru głos. Podobnie jak Deepfake (służący do imitowania twarzy) lub inne narzędzia AI, voice cloning jest zarówno użyteczny, jak i bardzo niebezpieczny, i kto wie, czy nie stanie się on jednym z wielu problemów przyszłości.

Technologia o dwóch obliczach: Potencjał i zagrożenia klonowania głosu

Ten temat od początku wydawał się trudny. Można powiedzieć, że trochę wyprzedziłem moich rówieśników, którzy dopiero niedawno wkroczyli w świat narzędzi bazujących na sztucznej inteligencji. Teraz, kiedy rozmawiam o tym z bliskimi, zazwyczaj słyszę głosy zobojętnienia, choć czasem zdarzy się też iskra niechęci wobec bezdusznych narzędzi. Jednym z wrogów AI jest moja obecna dziewczyna, absolwentka Państwowego Liceum Sztuk Plastycznych im. Magdaleny Abakanowicz w Gdyni.

 

 – Pamiętasz, co mi powiedziałaś, jak pierwszy raz rozmawialiśmy o AI?
–  W kontekście grafiki – wytwory mają dużo niższą jakość. Czasem mnie ostro irytuje, że ktoś sobie wygeneruje obrazek, wrzuci do sieci i się chwali: „o jaki sobie obrazek wygenerowałem, a wy sobie tam musicie rysować”. Nie dziwię się, że tyle osób powypadało z Riotu (firmy tworzącej gry), maszyna jest szybsza.
„Maszyna jest szybsza”, te słowa długo spędzały mi sen z powiek. Wielu ludzi straci pracę przez rozwój sztucznej inteligencji. Nie będą to tylko graficy, muzycy, czy programiści, ten problem może dotknąć nas wszystkich. A przecież nie do tego powinna służyć technologia. Narzędzia AI mogą pomóc wielu ludziom, których wołania zdają się niknąć w zgiełku dnia codziennego. Przynajmniej tak wtedy myślałem.

źródło: https://www.pexels.com/pl-pl/

Od pasji do kontrowersji: Historia projektu Mekatron

 To był 22 stycznia 2021 roku, gdy zafascynowany możliwościami, jakie daje odkryte przeze mnie narzędzie do tworzenia głosu postaci z gry Gothic, napisałem do szefa projektu, oferując swoją pomoc. Na początku uważałem, że strona Mekatron, to spełnienie marzeń, które pomoże społeczności przy ich projektach. Nareszcie otrzymalibyśmy fanowską zawartość, która nie odstawałaby od tego, co widzimy w grach. Później zdałem sobie sprawę, że to coś o wiele większego. Możemy w ten sposób zmienić życie wielu ludzi. Przecież ci, którzy wskutek wypadku utracili głos lub tacy, którzy zmuszeni są używać syntetyzatora głosu, mogliby w końcu przemówić swoim lub wybranym przez siebie głosem. To byłoby fantastyczne, prawda? Albo usłyszenie głosu swojego partnera, gdy już skreśliło się tę możliwość na dobre. Ale okazało się, że do tego etapu prowadzi wyboista droga

Tego samego roku, 25 października, strona została zamknięta. M. wydawał się wystraszony i był mniej gadatliwy niż zwykle. W końcu, po kilku godzinach rozmowy przełamał się i wyznał, że to przez pismo Związku Artystów Scen Polskich (ZASP) musiał zamknąć stronę. Byliśmy w szoku. Doszły nas co prawda informacje, że podobny projekt – GothicBot – także został zamknięty na prośbę ZASP, lecz nie spodziewaliśmy się, że nas czeka to samo. W przeciwieństwie do GothicBota zaznaczaliśmy, że te głosy należą do ich właścicieli oraz nie pobieraliśmy opłat za dostęp do narzędzia. Byliśmy zdruzgotani i przerażeni. Cała nasza ciężka praca legła w gruzach, a ambicje i marzenia zostały zakopane pod piętrzącymi się wątpliwościami i pytaniami. „Czy trafimy do więzienia?”, ta myśl przewijała się przez wszystkie wiadomości. Część z nas wyszła z serwera, część nadal nie mogła uwierzyć w to, co się dzieje. Jednak to, co stało się potem, przelało czarę goryczy i zdenerwowało nawet tych, którzy naśmiewali się z upadku Mekatrona.

Jako że serwer discord, na którym się porozumiewaliśmy, był otwarty dla wszystkich, kilka dni wcześniej dołączyła pewna osoba, która zaczęła podnosić temat kradzieży głosu.

Przyznam szczerze, że żaden z nas nie patrzył na to w ten sposób, więc ta myśl wydała się nam absurdalna. Dodatkowo według prawa nie robiliśmy w tamtym czasie nic, co mogłoby jednoznacznie przysporzyć nam kłopotów. Ostatecznie uznaliśmy, że jest to osoba z odmiennymi poglądami niż nasze i poza zmianą regulaminu strony, zostawiliśmy ją w spokoju. Teraz Mekatron jeszcze bardziej podkreślał, że głosy należą do oryginalnych właścicieli i nie można wykorzystywać ich do celów zarobkowych lub – co gorsza – łamiących prawo. To jednak nie powstrzymało nadchodzących wydarzeń. Trzy dni po wyłączeniu strony (28.10.2021) pojawił się artykuł, który opisywał całą sytuację. Serwis PolscyLektorzy.pl jednoznacznie potępił naszą działalność i wyśmiał M., nie dając nam nawet prawa głosu. Szczerze mówiąc, nie dziwię się, że M. zniknął z internetu na tak długi czas, skoro nawet część społeczności zaczęła go wyzywać przez ten artykuł. Dodatkowo na YouTube pojawiły się materiały, które ogłaszały upadek niegodziwego programu. Ale nie można zabić czegoś, co tak dobrze zakorzeniło się w internecie. Przecież przetarliśmy w końcu szlaki dla takiej technologi w Polsce.

Od tego momentu zarządzanie serwerem objął jeden z administratorów, lecz ten także szybko nas opuścił. Ostatecznie padło na programistyczną pomoc M. – Vojaka. To on kilka razy powstrzymał użycie tego narzędzia w niegodziwym celu. Ale nie mógł być wszędzie. Gdy zamknięto stronę, społeczność przesiadła się na GoogleColab, który umożliwiał każdemu, kto miał jakąś wiedzę, na wygenerowanie próbki głosu. To właśnie tę technologię rozwijaliśmy, by poprawić działanie strony, gdy ta jeszcze funkcjonowała. 1 sierpnia 2021 roku powstał filmik, który podrabiał głos zyskującego wówczas popularność, starszego YouTubera – Chezjusza. Był to emerytowany górnik, który znalazł radość i  ukojenie, grając ze swoimi widzami w Minecraft. Dzielił się wtedy także ciekawymi opowieściami ze swojego życia, od czasu do czasu posyłając widzom ciepły uśmiech. To właśnie on stał się celem ataku grupy hejterów. Podrabiając twarz minecraftowego YouTubera programem do Deepfaku i wykorzystując otwartą dla wszystkich technologię GoogleColab, stworzono masę obraźliwych filmików, które przedstawiały np. Chezjusza mówiącego o paleniu żydów w grze Minecraft. Doprowadziło to do konfliktów YouTubera z rodziną, a następnie do zawieszenia jego kanału. Gdy tylko pojawiły się pierwsze pogłoski o filmikach, próbowaliśmy namierzyć sprawców i wyrzucić ich z serwera, ale byli kroplą wśród morza użytkowników. Po tych wydarzeniach Chezjusz przebaczył nam, jako twórcom polskiej wersji tego narzędzia, lecz gdzieś w głębi duszy czuję się zobowiązany wyrażać skruchę za każdym razem, gdy natknę się na niego w zakątkach internetu.

Ja byłem tylko osobą odpowiedzialną za tworzenie głosów. Nazywaliśmy to stanowisko „kontrybutor”. Czasem zdarzało mi się robić także jako transkryptor podczas pracy nad próbkami innych kontrybutorów. Jednak nie wszyscy widzą te wydarzenia tak jak ja. Byłoby to przecież dziwne. Pozwólmy zatem wypowiedzieć się komuś, kto zna projekt trochę od innej strony.

            – Czy mógłbyś się przedstawić? Tak dla formalności.

            – Jestem Vojak.

            – Jaką funkcję pełniłeś w projekcie?

            – Byłem kontrybutorem i pomagałem czasem przy programowaniu. Trochę później zostałem administratorem serwera discord.

            – Czy możesz powiedzieć, jak wyglądało twoje dołączenie do projektu?

            – Do projektu dołączyłem mniej więcej na końcu 2020 roku. Był to czas, gdzie szukałem sposobu na to, jak samemu wygenerować głosy za pomocą AI, zainspirowany filmikiem tutorialowym, wypuszczonym przez autora projektu GothicBot, który to w zamian za wpłatę na Patronite, udostępniał klucz do strony, na której można było generować z wcześniej przygotowanych przez niego głosów. Szukając w serwisie Youtube darmowych alternatyw, trafiłem na Machinimę z Gothic’a (humorystyczną animację zrobioną poprzez grę komputerową), z wykorzystaniem głosów aktorów z gry. Niestety tej animacji nie można już obejrzeć, lecz pamiętam, że w opisie do niej był link do strony Mekatrona, oraz do Discorda społeczności, do której dołączyłem i zacząłem się udzielać.

            – Jaka była twoja motywacja? Co chciałeś osiągnąć przez pracę nad voice cloningiem?

            – Główną moją motywacją była czysta ciekawość sposobu, jak taki voice cloning działa, gdyż w tamtym czasie była to dla mnie czarna magia. Z biegiem czasu, gdy uczyłem się nowych rzeczy, a M., który na początku istnienia projektu udostępniał tylko wytrenowane przez siebie głosy na stronie, postanowił dodawać głosy kontrybutorów, moja motywacja się zmieniła. Ciekawość zamieniła się w chęć stworzenia swoich własnych głosów, które wcześniej nie zostały wytrenowane lub które sama społeczność chciała widzieć na stronie i prosiła tych, którzy potrafili je wytrenować, aby je przygotowali.

            – Jak się czułeś, gdy okazało się, że ZASP negatywnie wypowiada się o działaniach grupy?

            – W czasie, gdy ZASP zaczął wypowiadać się negatywnie o Mekatronie, osiągnąłem w społeczności status moderatora serwera Discord i bardziej angażowałem się w projekt. Oczywiście rozumiałem oskarżenia ZASP’u o „kradzież” czyjegoś głosu i bezpodstawne wykorzystywanie go przez gawiedź internetową. Należy jednak pamiętać, że sam projekt był darmowy, a technologia wykorzystywana przez stronę była na licencji open–source, która pozwalała każdemu, poświęcając nieco czasu, wygenerować samemu prywatnie czyjś głos. Mekatron tylko to ułatwiał, a dostał tyle negatywnych opinii, gdyż był łatwo dostępny i przede wszystkim darmowy. Uważam więc, że nie robiliśmy nic złego, w porównaniu do niesławnego „konkurenta” Mekatrona – GothicBota – który za dostęp do generowania głosu wymagał opłaty dla autora strony, co było według mnie niemoralne w porównaniu do Mekatrona, który zbierał pieniądze wyłącznie na prąd do utrzymania serwera.

            – Co myślałeś, gdy strona została zamknięta? Jak na Ciebie to wpłynęło?

            – To był bardzo chaotyczny okres. Pamiętam, że w momencie zamknięcia projektu i otrzymania przez M. listu ZASP’u o cease–and–desist Mekatrona, wszyscy kontrybutorzy bali się o to, że trafią do sądu. Całe szczęście skończyło się tylko na tym, że M. musiał wyłączyć stronę, a Patronite, na którym zbierane były środki na stronę, został zablokowany. Jednak długoterminowe skutki tej decyzji czuć do teraz. Od momentu zamknięcia strony moje chęci do rozwijania technologii voice cloningu spadły do zera, M. odszedł i zamknął swój rozdział z AI, a Discord, po długich turbulencjach zamienił się w grupę wspierającą tworzenie modeli głosów. Muszą działać ostrożnie i rozważać nad  treściami, które wysyłają. Po paru miesiącach od „upadku” Mekatrona sam odszedłem z Discorda i od tamtego czasu nie wiem, co się tam dzieje.

            – Czy wiesz o nękaniu Chezjusza? Co o tym sądzisz?

            – Tak, obiło mi się o uszy, że ktoś wykorzystywał jego głos do nękania go i sprawiania wielu nieprzyjemności. Uważam, że osoby za to odpowiedzialne powinny ponieść konsekwencję swoich działań, gdyż było to niemoralne i bardzo okrutne.

            – Masz jakieś spostrzeżenia co do dalszego rozwoju tej technologi?

            – Technologia ma potencjał. Tuż przed zamknięciem Mekatrona eksperymentowaliśmy z możliwościami następców bazowej technologii generowania głosu, która miała możliwość emulowania emocji w głosie. Co do samej technologii uważam, że jeżeli ma ona istnieć, musi być uregulowana prawnie, a w tym momencie w Polsce jest „dziki zachód” pod względem technologii AI i twórcy muszą bacznie uważać na to, co robią. Jeżeli nie, technologia wymrze, a może nawet zniknie.

            – Ostatnie pytanie z mojej strony. Co myślisz o użyciu podobnej technologi w celu kradzieży? Czy spotkałeś się z takimi przypadkami?

            – Tak, spotkałem się z jednym przypadkiem opisanym w wiadomościach, kilka miesięcy temu. Tak samo, jak odpowiedziałem w przypadku twórcy Chezjusza, jest to niemoralne i nieodpowiednie. Nie powinno się tak wykorzystywać tej technologii.

W pełni zgadzam się z tym, co powiedział Vojak. Przecież wykorzystywanie naiwności ludzkiej już samo w sobie jest niemoralne, a kradzież wizerunku, by jeszcze łatwiej pozyskiwać dobra materialne, to coś okropnego. Już teraz przecież na stronach typu Facebook, czy X możemy zobaczyć reklamy mówiące o „nowej aplikacji popularnego influencera Buddy”, albo o „nowym projekcie Blowka” (czasem także pojawia się wariant z amerykańskim YouTuberem Mr.Beastem). Technologia ta coraz bardziej zaczyna przypominać człowieka i niedługo jeszcze trudniej będzie nam odróżnić prawdę od oszustwa. Ten internetowy ekwiwalent metody „na wnuczka” doprowadzi w końcu do globalnej paranoi. Nie będzie można zaufać nawet własnej córce, która dzwoni na kamerce, prosząc o trochę pieniędzy na nową torebkę. W końcu co jeśli to nie ona?

Przyszłość?

Jedyną naszą nadzieją jest to, że Unia Europejska, jak i poszczególne kraje ograniczą prawnie korzystanie z AI, oraz że będą przykładnie karać wszystkich, którzy dopuszczają się takich przestępstw. Jako zwykli obywatele możemy jedynie uważnie przyglądać się nagraniom i reklamom oraz weryfikować informacje. Zwracajmy uwagę na detale, które odstają od reszty, a także ostrzegajmy swoich bliskich przed takimi technikami kradzieży. Podsumować to wszystko mogą tylko słowa angielskiego polityka, Joseph’a Chamberlain’a z 1898 roku – „Zgodzicie się, że żyjemy w ciekawych czasach (…)”.

 

Tekst autorstwa Macieja Wasielke