Jak sztuczna inteligencja może uczynić mowę komputerową bardziej naturalną

Spisu treści:

Jak sztuczna inteligencja może uczynić mowę komputerową bardziej naturalną
Jak sztuczna inteligencja może uczynić mowę komputerową bardziej naturalną
Anonim

Kluczowe dania na wynos

  • Firmy ścigają się, aby znaleźć sposób, aby dźwięk generowany komputerowo był bardziej realistyczny.
  • NVIDIA zaprezentowała niedawno narzędzia, które mogą uchwycić dźwięk naturalnej mowy, umożliwiając trenowanie sztucznej inteligencji własnym głosem.
  • Intonacja, emocje i muzykalność to cechy, których wciąż brakuje głosom komputerowym, mówi jeden z ekspertów.
Image
Image

Mowa generowana komputerowo może wkrótce brzmieć bardziej ludzko.

Twórca części komputerowych NVIDIA zaprezentowała niedawno narzędzia, które mogą uchwycić dźwięk naturalnej mowy, umożliwiając trenowanie sztucznej inteligencji za pomocą głosu. Oprogramowanie może również przekazywać słowa jednego mówcy za pomocą głosu innej osoby. Jest to część rozwijającego się dążenia do uczynienia mowy komputerowej bardziej realistyczną.

„Zaawansowana technologia sztucznej inteligencji głosowej pozwala użytkownikom mówić naturalnie, łącząc wiele zapytań w jedno zdanie i eliminując potrzebę ciągłego powtarzania szczegółów z oryginalnego zapytania”, Michael Zagorsek, dyrektor operacyjny firmy SoundHound zajmującej się rozpoznawaniem mowy, powiedział Lifewire w rozmowie e-mailowej.

„Dodanie wielu języków, teraz dostępnych na większości platform AI głosowych, sprawia, że cyfrowi asystenci głosowi są dostępni w większej liczbie regionów geograficznych i dla większej liczby populacji” – dodał.

Robospeech Rosnące

Amazon Alexa i Siri Apple brzmią o wiele lepiej niż mowa komputerowa sprzed nawet dekady, ale w najbliższym czasie nie zostaną pomylone z autentycznymi ludzkimi głosami.

Aby sztuczna mowa brzmiała bardziej naturalnie, zespół badawczy zajmujący się przetwarzaniem tekstu na mowę firmy NVIDIA opracował model RAD-TTS. System umożliwia poszczególnym osobom nauczanie modelu zamiany tekstu na mowę (TTS) za pomocą głosu, w tym tempa, tonacji, barwy i innych czynników.

Firma wykorzystała swój nowy model do stworzenia bardziej konwersacyjnej narracji głosowej w swojej serii wideo I Am AI.

Dzięki temu interfejsowi nasz producent wideo może nagrać siebie, gdy czyta skrypt wideo, a następnie użyć modelu sztucznej inteligencji, aby przekonwertować swoją mowę na głos narratora. Wykorzystując tę podstawową narrację, producent może następnie kierować sztuczną inteligencją jak aktor głosowy poprawia syntezatorową mowę, aby podkreślić określone słowa i modyfikuje tempo narracji, aby lepiej wyrazić ton wideo” - napisała firma NVIDIA na swojej stronie internetowej.

Trudniej niż się wydaje

Sprawienie, by dźwięk generowany komputerowo brzmiał naturalnie, to trudny problem, mówią eksperci.

„Musisz nagrać setki godzin czyjegoś głosu, aby stworzyć jego wersję komputerową” – powiedział Lifewire Nazim Ragimov, dyrektor generalny firmy zajmującej się przetwarzaniem tekstu na mowę Kukarella, w wywiadzie e-mailowym dla Lifewire. „A nagranie musi być wysokiej jakości, zarejestrowane w profesjonalnym studiu. Im więcej godzin załadowanej i przetworzonej wysokiej jakości mowy, tym lepszy wynik."

Zamiana tekstu na mowę może być używana w grach, aby pomóc osobom z niepełnosprawnością głosu lub pomóc użytkownikom tłumaczyć między językami własnym głosem.

Intonacja, emocje i muzykalność to cechy, których wciąż brakuje głosom komputerowym, powiedział Ragimov.

Jeśli sztuczna inteligencja może dodać te brakujące ogniwa, mowa generowana komputerowo będzie „nie do odróżnienia od głosów prawdziwych aktorów” – dodał. „To praca w toku. Inne głosy będą mogły konkurować z radiostami. Wkrótce zobaczysz głosy, które potrafią śpiewać i czytać audiobooki.”

Technologia mowy staje się coraz bardziej popularna w wielu różnych firmach.

„Branża motoryzacyjna ostatnio przyjęła sztuczną inteligencję głosową jako sposób na tworzenie bezpieczniejszych i bardziej połączonych doświadczeń z jazdy” – powiedział Zagorsek.

„Od tego czasu asystenci głosowi stają się coraz bardziej wszechobecni, ponieważ marki poszukują sposobów na poprawę doświadczeń klientów i zaspokojenie zapotrzebowania na łatwiejsze, bezpieczniejsze, wygodniejsze, wydajniejsze i bardziej higieniczne metody interakcji z ich produktami i usługami”.

Zazwyczaj głosowa sztuczna inteligencja konwertuje zapytania na odpowiedzi w dwuetapowym procesie, który rozpoczyna się od transkrypcji mowy na tekst za pomocą automatycznego rozpoznawania mowy (ASR), a następnie przekształcenia tego tekstu w model rozumienia języka naturalnego (NLU).

Image
Image

Podejście SoundHound łączy te dwa kroki w jeden proces do śledzenia mowy w czasie rzeczywistym. Firma twierdzi, że ta technika pozwala asystentom głosowym zrozumieć znaczenie zapytań użytkownika, nawet zanim osoba skończy mówić.

Przyszłe postępy w mowie komputerowej, w tym dostępność różnych opcji łączności, od wersji wbudowanych (nie jest wymagane połączenie z chmurą) po hybrydowe (wbudowane plus chmura) i tylko w chmurze „dadzą większy wybór firmom z różnych branż pod względem kosztów, prywatności i dostępności mocy obliczeniowej” – powiedział Zagoresk.

NVIDIA twierdzi, że jej modele AI w wiadomościach wykraczają poza narrację.

„Zamiana tekstu na mowę może być używana w grach, aby pomóc osobom z niepełnosprawnością głosu lub pomóc użytkownikom tłumaczyć między językami własnym głosem” – napisała firma. „Może nawet odtworzyć występy kultowych wokalistów, dopasowując nie tylko melodię piosenki, ale także emocjonalną ekspresję za wokalem.”

Zalecana: