Wkrótce możesz nie wiedzieć, że rozmawiasz z komputerem

Spisu treści:

Wkrótce możesz nie wiedzieć, że rozmawiasz z komputerem
Wkrótce możesz nie wiedzieć, że rozmawiasz z komputerem
Anonim

Kluczowe dania na wynos

  • Zbliża się dzień, w którym nie będziesz w stanie odróżnić mowy generowanej komputerowo od rzeczywistości.
  • Google niedawno zaprezentowało LaMDA, model, który może pozwolić na bardziej naturalne rozmowy.
  • Wytwarzanie mowy przypominającej ludzką również wymaga ogromnej mocy obliczeniowej.
Image
Image

W tej chwili łatwo jest stwierdzić, kiedy rozmawiasz z komputerem, ale to może się wkrótce zmienić dzięki ostatnim postępom w sztucznej inteligencji.

Google niedawno zaprezentowało LaMDA, eksperymentalny model, który według firmy może zwiększyć możliwości jej konwersacyjnych asystentów AI i umożliwić bardziej naturalne rozmowy. LaMDA ma na celu w końcu normalnie rozmawiać o prawie wszystkim bez wcześniejszego szkolenia.

Jest to jeden z rosnącej liczby projektów AI, które mogą sprawić, że będziesz się zastanawiać, czy rozmawiasz z człowiekiem.

„Szacuję, że w ciągu najbliższych 12 miesięcy użytkownicy zaczną być narażeni na te nowe, bardziej emocjonalne głosy i przyzwyczajać się do nich”, James Kaplan, dyrektor generalny MeetKai, konwersacyjnego wirtualnego asystenta głosowego AI i wyszukiwarki silnik, powiedział w wywiadzie e-mail.

"Gdy to się stanie, dzisiejsza synteza mowy będzie brzmiała dla użytkowników tak, jak dzisiaj brzmi dla nas mowa z początku XXI wieku."

Asystenci głosowi z postacią

LaMDA Google opiera się na Transformer, architekturze sieci neuronowej wynalezionej przez Google Research. W przeciwieństwie do innych modeli językowych, Google LaMDA został przeszkolony w prawdziwym dialogu.

Częścią wyzwania, jakim jest tworzenie naturalnie brzmiącej mowy opartej na sztucznej inteligencji, jest otwarty charakter konwersacji, napisał Eli Collins z Google w poście na blogu.

Image
Image

„Pogawędka z przyjacielem na temat programu telewizyjnego może przekształcić się w dyskusję o kraju, w którym kręcono program, zanim zdecyduje się na debatę na temat najlepszej kuchni regionalnej w tym kraju” – dodał.

Wszystko szybko się zmienia dzięki mowie robota. Eric Rosenblum, partner zarządzający w firmie Tsingyuan Ventures, która inwestuje w konwersacyjną sztuczną inteligencję, powiedział, że niektóre z najbardziej podstawowych problemów związanych z komputerowym wspomaganiem mowy zostały praktycznie rozwiązane.

Na przykład, wskaźnik dokładności rozumienia mowy jest już bardzo wysoki w usługach takich jak transkrypcje wykonywane przez oprogramowanie Otter.ai lub notatki medyczne sporządzone przez DeepScribe.

„Następna granica jest jednak znacznie trudniejsza” – dodał.

"Zachowanie zrozumienia kontekstu, co jest problemem wykraczającym daleko poza przetwarzanie języka naturalnego, oraz empatia, taka jak komputery wchodzące w interakcje z ludźmi, muszą zrozumieć frustrację, złość, zniecierpliwienie itp. Trwają prace nad obydwoma tymi kwestiami, ale oba są dość dalekie od zadowalających."

Sieci neuronowe są kluczem

Aby generować realistyczne głosy, firmy korzystają z technologii, takich jak głębokie sieci neuronowe, forma uczenia maszynowego, która klasyfikuje dane za pomocą warstw, Matt Muldoon, północnoamerykański prezes ReadSpeaker, firmy opracowującej oprogramowanie do zamiany tekstu na mowę, powiedział w wywiadzie e-mail.

„Te warstwy udoskonalają sygnał, dzieląc go na bardziej złożone klasyfikacje” – dodał. „Rezultatem jest syntetyczna mowa, która brzmi niesamowicie jak człowiek.”

Kolejną opracowywaną technologią jest Prosody Transfer, która polega na łączeniu dźwięku jednego głosu przekształcającego tekst na mowę ze stylem mówienia innego, powiedział Muldoon. Istnieje również uczenie transferu, które zmniejsza ilość danych treningowych potrzebnych do wytworzenia nowego neuronowego głosu zamiany tekstu na mowę.

Kaplan powiedział, że wytwarzanie mowy podobnej do ludzkiej również wymaga ogromnej mocy obliczeniowej. Firmy opracowują chipy akceleratorów neuronowych, które są niestandardowymi modułami, które działają w połączeniu ze zwykłymi procesorami.

„Następnym etapem będzie umieszczenie tych chipów w mniejszym sprzęcie, ponieważ obecnie jest to już robione w przypadku kamer, gdy wymagana jest sztuczna inteligencja dla wizji” – dodał. „Nie minie dużo czasu, zanim tego typu możliwości obliczeniowe będą dostępne w samych słuchawkach.”

Jednym z wyzwań w rozwoju mowy opartej na sztucznej inteligencji jest to, że każdy mówi inaczej, więc komputery mają trudności ze zrozumieniem nas.

„Pomyśl o akcentach Georgia vs. Boston vs. Północna Dakota i czy angielski jest Twoim podstawowym językiem”, powiedziała Monica Dema, która pracuje nad analizą wyszukiwania głosowego w MDinc, w e-mailu. „Myśląc globalnie, jest to kosztowne dla wszystkich regionów Niemiec, Chin i Indii, ale to nie znaczy, że nie jest lub nie można tego zrobić”.

Zalecana: