Kluczowe dania na wynos
- DeepZen wykorzystuje sztuczną inteligencję (sztuczną inteligencję) do tworzenia zaskakująco realistycznych audiobooków z tekstu.
- Technika używa prawdziwych aktorów głosu ludzkiego, aby zapewnić elementy konstrukcyjne.
- Amazon i Audible obecnie nie akceptują audiobooków generowanych komputerowo.
DeepZen to firma, która tworzy głosy komputerowe wykorzystywane w audiobookach, oparte na prawdziwych głosach ludzkich aktorów. Jakość jest przerażająca - łatwo jest słuchać godzinami. Sztuczka tutaj jest komponentem AI (sztucznej inteligencji), który może czytać tekst i wywnioskować prawidłową reakcję emocjonalną na podstawie kontekstu. Następnie umieszcza tę emocję w głosie.
To imponujące i bardzo wygodne. Ale czy naprawdę chcemy zhomogenizowanego audiobooka? A co z tymi aktorami głosowymi?
„Z perspektywy niezależnego wydawcy wszystko, co obniża koszty produkcji audiobooków, jest bardzo interesujące” – powiedział Lifewire Rick Carlile, właściciel niezależnego wydawcy Carlile Media.
"Ale ta atrakcyjność zakłada, że produkt będzie miał taką samą jakość jak tradycyjna narracja. Nie sądzę, że jesteśmy jeszcze w stu procentach. Nie zrozum mnie źle, DeepZen jest zadziwiająco dobry. ogromny przełom, a jego twórcy zasługują na ogromną pochwałę i sukces. Ale to jeszcze nie jest idealne."
Dźwięk to „wystarczająco dobre”
Najlepszym sposobem zrozumienia jakości DeepZen jest słuchanie próbek. Jeśli nie wiedziałeś, że zostały wygenerowane komputerowo, możesz nawet nie zdawać sobie sprawy. W każdym razie nie przez jakiś czas. Załóżmy, że sztuczna inteligencja DeepZen jest idealna i nigdy nie błędnie interpretuje emocjonalnych nut, w które ma uderzać.
Nawet wtedy człowiek może zaoferować bardziej zniuansowane i często bardziej zaskakujące interpretacje. Aktor może nieoczekiwanie zmienić słowa, których komputer nawet by nie rozważył. W rzeczywistości interpretacja AI z pewnością nie jest jeszcze tak dobra, jak w przypadku profesjonalnego aktora głosowego.
"Jako osoba, która pracuje nad filmami, a ostatnio w świecie narracji dźwiękowej, podczas gdy jestem pod wrażeniem sztucznej inteligencji - wiem, że istnieje głęboka głębia znaczenia, której maszyna nie może zinterpretować ", profesjonalny głos aktor Paul Cram powiedział Lifewire przez e-mail.
"Czy pojawi się fala nieznanych autorów używających go? Gwarantuję, że będzie, ponieważ jest 'wystarczająco dobry'"
Wystarczająco dobry, w połączeniu z wygodą i oszczędnością, może wystarczyć, aby zachęcić niezależnych wydawców do korzystania z usługi.
„Audiobooki mogą kosztować do 500 USD za gotową godzinę dźwięku (znacznie więcej w przypadku głosu celebryty), a to nie obejmuje kosztów czasu zarządzania i administrowania” - mówi Carlile. „Możliwość zmniejszenia o połowę tego kosztu przez proste przesłanie rękopisu do dostawcy takiego jak DeepZen jest niezwykle atrakcyjna.”
Kłopoty z rozmowami
To nie jest jeszcze tak proste, jak zwolnienie aktorów głosowych i przesyłanie rękopisów do DeepZen. Obecnie istnieje jedna bariera dla łatwej oracji AI na temat audiobooków i pochodzi ona z Amazon.
„Obecnie ACX, droga samodzielnego wydawcy do dystrybucji audiobooków Audible i Amazon, nie akceptuje audiobooków, których nie nagrał człowiek”, mówi Carlile.
Dlaczego? Jakość. Oto wpis FAQ ze strony internetowej:
Nagrywanie tekstu na mowę lub inne automatyczne nagrywanie nie jest dozwolone. Słuchacze słyszalni wybierają audiobooki do wykonania materiału, a także historii. Aby spełnić te oczekiwania, Twój audiobook musi być nagrany przez człowieka. „
Oznacza to, że audiobooki generowane przez DeepZen są przynajmniej na razie niedostępne. To czysta spekulacja, ale DeepZen wydaje się całkiem niezłym przejęciem dla Amazona, pozwalając mu sprzedawać usługę i przechowywać ją wyłącznie dla książek Audible. A nawet jeśli tak się nie stanie, jeśli jakość audiobooków generowanych komputerowo jest tak dobra, to wydaje się, że nie ma powodu, aby nie robić wyjątku od tej reguły.
Czy chciałbyś posłuchać audiobooków stworzonych w ten sposób? Kiedy to się stanie, większość ludzi nawet nie będzie podejrzewać. Niektórzy mogą preferować doskonałość głosów generowanych komputerowo, ponieważ będą one wolne od tików i nawyków wokalnych, które czasami mogą rozpraszać. Technologia nadaje się również do gier wideo, reklam telewizyjnych i radiowych oraz każdego innego scenariusza, w którym zatrudnisz aktora głosowego.
Technologia DeepZen byłaby również świetnym sposobem na automatyczne tworzenie podcastów z wiadomościami z pisanych artykułów, co może być przydatne podczas dojazdów.
A co z tymi aktorami głosowymi? Cóż, będzie co najmniej jedna okazja: mogą iść i pracować dla DeepZen.