Jak sztuczna inteligencja może uczynić mowę komputerową bardziej naturalną

2025 Autor: Abigail Brown | [email protected]. Ostatnio zmodyfikowany: 2025-06-01 07:17

Kluczowe dania na wynos

Firmy ścigają się, aby znaleźć sposób, aby dźwięk generowany komputerowo był bardziej realistyczny.
NVIDIA zaprezentowała niedawno narzędzia, które mogą uchwycić dźwięk naturalnej mowy, umożliwiając trenowanie sztucznej inteligencji własnym głosem.
Intonacja, emocje i muzykalność to cechy, których wciąż brakuje głosom komputerowym, mówi jeden z ekspertów.

Mowa generowana komputerowo może wkrótce brzmieć bardziej ludzko.

Twórca części komputerowych NVIDIA zaprezentowała niedawno narzędzia, które mogą uchwycić dźwięk naturalnej mowy, umożliwiając trenowanie sztucznej inteligencji za pomocą głosu. Oprogramowanie może również przekazywać słowa jednego mówcy za pomocą głosu innej osoby. Jest to część rozwijającego się dążenia do uczynienia mowy komputerowej bardziej realistyczną.

„Zaawansowana technologia sztucznej inteligencji głosowej pozwala użytkownikom mówić naturalnie, łącząc wiele zapytań w jedno zdanie i eliminując potrzebę ciągłego powtarzania szczegółów z oryginalnego zapytania”, Michael Zagorsek, dyrektor operacyjny firmy SoundHound zajmującej się rozpoznawaniem mowy, powiedział Lifewire w rozmowie e-mailowej.

„Dodanie wielu języków, teraz dostępnych na większości platform AI głosowych, sprawia, że cyfrowi asystenci głosowi są dostępni w większej liczbie regionów geograficznych i dla większej liczby populacji” - dodał.

Robospeech Rosnące

Amazon Alexa i Siri Apple brzmią o wiele lepiej niż mowa komputerowa sprzed nawet dekady, ale w najbliższym czasie nie zostaną pomylone z autentycznymi ludzkimi głosami.

Aby sztuczna mowa brzmiała bardziej naturalnie, zespół badawczy zajmujący się przetwarzaniem tekstu na mowę firmy NVIDIA opracował model RAD-TTS. System umożliwia poszczególnym osobom nauczanie modelu zamiany tekstu na mowę (TTS) za pomocą głosu, w tym tempa, tonacji, barwy i innych czynników.

Firma wykorzystała swój nowy model do stworzenia bardziej konwersacyjnej narracji głosowej w swojej serii wideo I Am AI.

Dzięki temu interfejsowi nasz producent wideo może nagrać siebie, gdy czyta skrypt wideo, a następnie użyć modelu sztucznej inteligencji, aby przekonwertować swoją mowę na głos narratora. Wykorzystując tę podstawową narrację, producent może następnie kierować sztuczną inteligencją jak aktor głosowy poprawia syntezatorową mowę, aby podkreślić określone słowa i modyfikuje tempo narracji, aby lepiej wyrazić ton wideo” - napisała firma NVIDIA na swojej stronie internetowej.

Trudniej niż się wydaje

Sprawienie, by dźwięk generowany komputerowo brzmiał naturalnie, to trudny problem, mówią eksperci.

„Musisz nagrać setki godzin czyjegoś głosu, aby stworzyć jego wersję komputerową” - powiedział Lifewire Nazim Ragimov, dyrektor generalny firmy zajmującej się przetwarzaniem tekstu na mowę Kukarella, w wywiadzie e-mailowym dla Lifewire. „A nagranie musi być wysokiej jakości, zarejestrowane w profesjonalnym studiu. Im więcej godzin załadowanej i przetworzonej wysokiej jakości mowy, tym lepszy wynik."

Zamiana tekstu na mowę może być używana w grach, aby pomóc osobom z niepełnosprawnością głosu lub pomóc użytkownikom tłumaczyć między językami własnym głosem.

Intonacja, emocje i muzykalność to cechy, których wciąż brakuje głosom komputerowym, powiedział Ragimov.

Jeśli sztuczna inteligencja może dodać te brakujące ogniwa, mowa generowana komputerowo będzie „nie do odróżnienia od głosów prawdziwych aktorów” - dodał. „To praca w toku. Inne głosy będą mogły konkurować z radiostami. Wkrótce zobaczysz głosy, które potrafią śpiewać i czytać audiobooki.”

Technologia mowy staje się coraz bardziej popularna w wielu różnych firmach.

„Branża motoryzacyjna ostatnio przyjęła sztuczną inteligencję głosową jako sposób na tworzenie bezpieczniejszych i bardziej połączonych doświadczeń z jazdy” - powiedział Zagorsek.

„Od tego czasu asystenci głosowi stają się coraz bardziej wszechobecni, ponieważ marki poszukują sposobów na poprawę doświadczeń klientów i zaspokojenie zapotrzebowania na łatwiejsze, bezpieczniejsze, wygodniejsze, wydajniejsze i bardziej higieniczne metody interakcji z ich produktami i usługami”.

Zazwyczaj głosowa sztuczna inteligencja konwertuje zapytania na odpowiedzi w dwuetapowym procesie, który rozpoczyna się od transkrypcji mowy na tekst za pomocą automatycznego rozpoznawania mowy (ASR), a następnie przekształcenia tego tekstu w model rozumienia języka naturalnego (NLU).

Podejście SoundHound łączy te dwa kroki w jeden proces do śledzenia mowy w czasie rzeczywistym. Firma twierdzi, że ta technika pozwala asystentom głosowym zrozumieć znaczenie zapytań użytkownika, nawet zanim osoba skończy mówić.

Przyszłe postępy w mowie komputerowej, w tym dostępność różnych opcji łączności, od wersji wbudowanych (nie jest wymagane połączenie z chmurą) po hybrydowe (wbudowane plus chmura) i tylko w chmurze „dadzą większy wybór firmom z różnych branż pod względem kosztów, prywatności i dostępności mocy obliczeniowej” - powiedział Zagoresk.

NVIDIA twierdzi, że jej modele AI w wiadomościach wykraczają poza narrację.

„Zamiana tekstu na mowę może być używana w grach, aby pomóc osobom z niepełnosprawnością głosu lub pomóc użytkownikom tłumaczyć między językami własnym głosem” - napisała firma. „Może nawet odtworzyć występy kultowych wokalistów, dopasowując nie tylko melodię piosenki, ale także emocjonalną ekspresję za wokalem.”

Zalecana:

Jak sztuczna inteligencja może pomóc rolnikom w uprawie większej ilości upraw

Rolnictwo staje się zaawansowane technologicznie dzięki niedawnym postępom w sztucznej inteligencji i miejmy nadzieję, że wystarczy, aby uprawiać więcej roślin

Jak sztuczna inteligencja może szybko zapewnić ludziom bezpieczeństwo w domu

Kierowców autobusów szkolnych brakuje, a trasy samochodowe mogłyby być znacznie lepsze. Na szczęście sztuczna inteligencja jest tutaj, aby pomóc we wszystkim ulepszyć

Jak sztuczna inteligencja może zmienić język w kod

Sztuczna inteligencja może pomóc ludziom, którzy nie wiedzą, jak kodować, tworzyć rzeczy wymagające kodu, takie jak aplikacje mobilne i strony internetowe, a sztuczna inteligencja staje się bardziej intuicyjna

Jak sztuczna inteligencja może tworzyć dla Ciebie sztukę

Sztuczna inteligencja może badać i naśladować wzorce występujące w sztuce, ale eksperci twierdzą, że brakuje jej kreatywności, którą posiadają ludzie, chociaż nadal może być użytecznym narzędziem dla artystów

Czy sztuczna inteligencja może nas nauczyć być bardziej ludzkim?

Naukowcy pracują nad tym, aby sztuczna inteligencja stała się bardziej empatyczna, aby pomóc ludziom być bardziej empatycznymi, ale nauczenie sztucznej inteligencji, aby była bardziej ludzka, może pozbyć się niektórych emocji, które czynią ludzi wyjątkowymi

Jak sztuczna inteligencja może uczynić mowę komputerową bardziej naturalną

Spisu treści:

Kluczowe dania na wynos

Robospeech Rosnące

Trudniej niż się wydaje

Zalecana:

Jak sztuczna inteligencja może pomóc rolnikom w uprawie większej ilości upraw

Jak sztuczna inteligencja może szybko zapewnić ludziom bezpieczeństwo w domu

Jak sztuczna inteligencja może zmienić język w kod

Jak sztuczna inteligencja może tworzyć dla Ciebie sztukę

Czy sztuczna inteligencja może nas nauczyć być bardziej ludzkim?

Inteligentna kuchnia Multo sprawia, że wyglądam jak dobry kucharz

Jak szybki naprawdę musi być Twój komputer?

Rozpoznaj osiągnięcia za pomocą odpowiedniego sformułowania certyfikatu

Definicja diagramu relacji encji

8 Najlepsze usługi strumieniowego przesyłania muzyki w trybie offline

Czy możesz używać Skype'a jako telefonu domowego?

7 najlepszych strzelanek z dwoma drążkami dla Androida

WT Social: co to jest i jak z niego korzystać

Migawki APFS: powrót do poprzedniego znanego stanu

Zoom dla komputerów Mac ma dwie nowe wady bezpieczeństwa

Recenzja NOCO Genius Boost Pro GB150: kosztowna, ale niezawodna

Wear OS vs. watchOS: które oprogramowanie jest lepsze?

DBPOWER 600A Peak 18000mAh Recenzja: Niezawodny Jump Starter

Najlepsze darmowe alternatywy iTunes do synchronizacji muzyki

Dodawanie muzyki do filmu w programie Movie Maker