Rozmowy z komputerem mogą być bardziej realistyczne

Spisu treści:

Rozmowy z komputerem mogą być bardziej realistyczne
Rozmowy z komputerem mogą być bardziej realistyczne
Anonim

Kluczowe dania na wynos

  • Meta wykorzystuje sztuczną inteligencję do tworzenia programów, które mogą wyrażać emocje w mowie.
  • Zespół AI firmy powiedział, że poczynił postępy w modelowaniu ekspresyjnych wokalizacji, takich jak śmiech, ziewanie, płacz i „spontaniczna pogawędka” w czasie rzeczywistym.
  • AI jest również wykorzystywana do usprawniania rozpoznawania mowy.
Image
Image

Wkrótce możesz prowadzić bardziej naturalny czat ze swoim komputerem, dzięki sile sztucznej inteligencji (AI).

Meta powiedział, że poczynił znaczne postępy w tworzeniu bardziej realistycznych systemów mowy generowanych przez sztuczną inteligencję. Zespół AI firmy powiedział, że poczynił postępy w zakresie modelowania ekspresyjnych wokalizacji, takich jak śmiech, ziewanie i płacz, oprócz „spontanicznej pogawędki” w czasie rzeczywistym.

„W każdej rozmowie ludzie wymieniają się przepełnionymi niewerbalnymi sygnałami, takimi jak intonacje, ekspresja emocjonalna, pauzy, akcenty, rytmy – wszystko to jest ważne dla interakcji międzyludzkich” – napisał zespół w ostatnim poście na blogu.. „Ale dzisiejsze systemy sztucznej inteligencji nie są w stanie wychwycić tych bogatych, ekspresyjnych sygnałów, ponieważ uczą się tylko z tekstu pisanego, który rejestruje to, co mówimy, ale nie sposób, w jaki to mówimy.”

Mądrzejsza mowa

W poście na blogu zespół Meta AI powiedział, że pracuje nad przezwyciężeniem ograniczeń tradycyjnych systemów sztucznej inteligencji, które nie potrafią zrozumieć niewerbalnych sygnałów w mowie, takich jak intonacje, wyrażenia emocjonalne, pauzy, akcenty i rytmy. Systemy są powstrzymywane, ponieważ mogą uczyć się tylko z tekstu pisanego.

Ale praca Meta różni się od poprzednich, ponieważ jej modele AI mogą wykorzystywać modele przetwarzania języka naturalnego, aby uchwycić pełną naturę języka mówionego. Badacze Meta twierdzą, że nowe modele mogą umożliwić systemom sztucznej inteligencji przekazywanie uczuć, które chcą przekazać, takich jak nuda lub ironia.

"W niedalekiej przyszłości skupimy się na stosowaniu technik beztekstowych do tworzenia przydatnych dalszych aplikacji bez konieczności stosowania etykiet tekstowych wymagających dużej ilości zasobów lub automatycznych systemów rozpoznawania mowy (ASR), takich jak odpowiadanie na pytania (np. „Jak się ma pogoda?"), napisał zespół we wpisie na blogu. „Wierzymy, że prozodia w mowie może pomóc w lepszym analizowaniu zdania, co z kolei ułatwia zrozumienie intencji i poprawia wydajność odpowiadania na pytania”.

AI Powers Rozumienie

Nie tylko komputery są coraz lepsze w komunikowaniu znaczenia, ale sztuczna inteligencja jest również wykorzystywana do usprawniania rozpoznawania mowy.

Naukowcy komputerowi pracują nad komputerowym rozpoznawaniem mowy od co najmniej 1952 roku, kiedy to trzech badaczy z Bell Labs stworzyło system, który może rozpoznawać pojedyncze cyfry, powiedział dyrektor ds. technologii AI Dynamics, Ryan Monsurate w e-mailu do Lifewire. W latach 90. systemy rozpoznawania mowy były dostępne na rynku, ale nadal charakteryzowały się wystarczająco wysokim wskaźnikiem błędów, aby zniechęcić do korzystania poza bardzo specyficznymi dziedzinami zastosowań, takimi jak opieka zdrowotna.

„Teraz, gdy modele głębokiego uczenia umożliwiły modelom zespołowym (takim jak te firmy Microsoft) osiągnięcie nadludzkiej wydajności w rozpoznawaniu mowy, mamy technologię umożliwiającą niezależną od mówcy komunikację werbalną z komputerami na dużą skalę” – powiedział Monsurate. „Następny etap obejmie obniżenie kosztów, aby każdy, kto korzysta z Siri lub asystentów AI Google, miał dostęp do tego poziomu rozpoznawania mowy”.

Image
Image

AI jest przydatna do rozpoznawania mowy, ponieważ może z czasem ulec poprawie dzięki uczeniu się, powiedział Lifewire w rozmowie e-mailowej Ariel Utnik, dyrektor ds. przychodów i dyrektor generalny firmy Verbit.ai zajmującej się głosem sztucznej inteligencji. Na przykład firma Verbit twierdzi, że jej wewnętrzna technologia AI wykrywa i odfiltrowuje szumy tła i echa oraz transkrybuje głośniki niezależnie od akcentu, aby wygenerować szczegółowe, profesjonalne transkrypcje i podpisy z wideo i audio na żywo i nagranych.

Ale Utnik powiedział, że większość obecnych platform rozpoznawania mowy jest dokładna tylko w 75-80%.

„Sztuczna inteligencja nigdy w pełni nie zastąpi ludzi, ponieważ osobista recenzja dokonywana przez transkrybistów, korektorów i redaktorów jest konieczna, aby zapewnić wysoką jakość i najwyższą dokładność końcowego zapisu” – dodał.

Lepsze rozpoznawanie głosu może być również wykorzystywane do zapobiegania hakerom, powiedział w e-mailu Sanjay Gupta, wiceprezes ds. globalnego rozwoju produktów i rozwoju korporacyjnego w firmie Mitek Systems zajmującej się rozpoznawaniem głosu. Badania wskazują, że w ciągu dwóch lat 20 procent wszystkich udanych ataków polegających na przejęciu konta będzie wykorzystywało syntetyczne wzmocnienie głosu, dodał.

„Oznacza to, że w miarę jak technologia głębokiego fałszowania staje się bardziej wyrafinowana, musimy jednocześnie stworzyć zaawansowane zabezpieczenia, które będą w stanie zwalczać te taktyki wraz z fałszowaniem obrazów i wideo” – powiedział Gupta. „Zwalczanie fałszowania głosu wymaga technologii wykrywania ożywiania, zdolnej do odróżnienia głosu na żywo od nagranej, syntetycznej lub wygenerowanej komputerowo wersji głosu.”

Poprawka 04.05.2022: Poprawiono pisownię nazwiska Ryana Monsurate w akapicie 9.

Zalecana: