Twórcy ChatGPT podkreślają, że głosy stworzono we współpracy z opłaconymi aktorami dubbingowymi
Michał Duszczyk
Popularny ChatGPT zyska nową funkcjonalność. Stojąca za tą technologią firma rozpoczęła właśnie wdrażanie Advanced Voice Mode, czyli głosowej opcji, która da użytkownikom bota możliwość konwersacji z AI, gdyż ChatGPT przemówi do nas „ludzkim” głosem. Hiperrealistyczne odpowiedzi audio na razie we wczesnym dostępie uzyskało tylko wąskie grono płatnych użytkowników GPT-4o. Pozostali subskrybenci ChatGPT muszą poczekać parę miesięcy. OpenAI twierdzi, że funkcja ta na szerszą skalę wdrożona zostanie bowiem na jesieni br.
Jakie głosy będzie miał ChatGPT
Pozornie może wydawać się, że to nic nowego, gdyż bot już wcześniej korzystał z generatora mowy, przetwarzającego tekst na głos. Było to jednak dość proste rozwiązanie. Teraz system ma być znacznie bardziej zaawansowany. GPT-4o jest multimodalny, zdolny do przetwarzania zadań bez tzw. pomocy modeli pomocniczych, co pozwala na tworzenie konwersacji o znacznie niższym opóźnieniu. Ma też wyczuwać emocjonalne intonacje w głosie, w tym smutek, podekscytowanie lub śpiew. OpenAI firma twierdzi, że testowała możliwości głosowe GPT-4o w 45 różnych językach.
Advanced Voice Mode będzie ograniczony do czterech predefiniowanych głosów: Juniper, Breeze, Cove i Ember. Twórcy ChatGPT podkreślają przy tym, że stworzono je we współpracy z opłaconymi aktorami dubbingowymi. W ten sposób OpenAI odnosi się do niedawnej afery, gdy po raz pierwszy prezentując w maju audio GPT-4o firma spotkała się z oskarżeniami, iż głos bota Sky podobny jest do głosu znanej aktorki Scarlett Johansson. Gwiazda, grająca w filmie „Her” (a właściwie jedynie użyczająca głosu filmowej sztucznej inteligencji), informowała, że dostała propozycję współpracy od Sama Altmana, ale ją odrzuciła. Mimo to Sky brzmiał jak ona. Johansson zatrudniła prawnika, który sprawił, że Sky zniknął z opcji ChatGPT. Z kolei prace nad Advanced Voice Mode w efekcie się wydłużyły.
Nadzwyczajne środki bezpieczeństwa
OpenAI zapewnia teraz, że poprawi swoje środki bezpieczeństwa (wyda w sierpniu specjalny raport na ten temat), czego efektem będzie zablokowanie możliwości tworzenia przez użytkowników własnych głosów. Mogłoby to otworzyć prawdziwą puszkę Pandory, bo możliwość wygenerowania wysokiej jakości głosu każdego człowieka na podstawie nawet krótkiego nagrania zamieszczonego np. na Facebooku, nie jest już żadnym science-fiction. A to mogłoby być wykorzystane np. do oszustw. Firma ewidentnie stara się unikać kontrowersji związanych z deepfake’ami. Stąd wprowadziła filtry, które uniemożliwiają ChatGPT odpowiadanie na prośbę użytkownika o generowanie muzyki lub innego chronionego prawem autorskim audio.
W zeszłym roku firmy AI wpadły w kłopoty prawne z powodu naruszenia praw autorskich – wystarczy wspomnieć o pozwach ze strony wytwórni płytowych wobec generatorów muzyki: AI Suno i Udio.