Wkrótce możesz nie wiedzieć, że rozmawiasz z komputerem

2025 Autor: Abigail Brown | [email protected]. Ostatnio zmodyfikowany: 2025-06-01 07:17

Kluczowe dania na wynos

Zbliża się dzień, w którym nie będziesz w stanie odróżnić mowy generowanej komputerowo od rzeczywistości.
Google niedawno zaprezentowało LaMDA, model, który może pozwolić na bardziej naturalne rozmowy.
Wytwarzanie mowy przypominającej ludzką również wymaga ogromnej mocy obliczeniowej.

W tej chwili łatwo jest stwierdzić, kiedy rozmawiasz z komputerem, ale to może się wkrótce zmienić dzięki ostatnim postępom w sztucznej inteligencji.

Google niedawno zaprezentowało LaMDA, eksperymentalny model, który według firmy może zwiększyć możliwości jej konwersacyjnych asystentów AI i umożliwić bardziej naturalne rozmowy. LaMDA ma na celu w końcu normalnie rozmawiać o prawie wszystkim bez wcześniejszego szkolenia.

Jest to jeden z rosnącej liczby projektów AI, które mogą sprawić, że będziesz się zastanawiać, czy rozmawiasz z człowiekiem.

„Szacuję, że w ciągu najbliższych 12 miesięcy użytkownicy zaczną być narażeni na te nowe, bardziej emocjonalne głosy i przyzwyczajać się do nich”, James Kaplan, dyrektor generalny MeetKai, konwersacyjnego wirtualnego asystenta głosowego AI i wyszukiwarki silnik, powiedział w wywiadzie e-mail.

"Gdy to się stanie, dzisiejsza synteza mowy będzie brzmiała dla użytkowników tak, jak dzisiaj brzmi dla nas mowa z początku XXI wieku."

Asystenci głosowi z postacią

LaMDA Google opiera się na Transformer, architekturze sieci neuronowej wynalezionej przez Google Research. W przeciwieństwie do innych modeli językowych, Google LaMDA został przeszkolony w prawdziwym dialogu.

Częścią wyzwania, jakim jest tworzenie naturalnie brzmiącej mowy opartej na sztucznej inteligencji, jest otwarty charakter konwersacji, napisał Eli Collins z Google w poście na blogu.

„Pogawędka z przyjacielem na temat programu telewizyjnego może przekształcić się w dyskusję o kraju, w którym kręcono program, zanim zdecyduje się na debatę na temat najlepszej kuchni regionalnej w tym kraju” - dodał.

Wszystko szybko się zmienia dzięki mowie robota. Eric Rosenblum, partner zarządzający w firmie Tsingyuan Ventures, która inwestuje w konwersacyjną sztuczną inteligencję, powiedział, że niektóre z najbardziej podstawowych problemów związanych z komputerowym wspomaganiem mowy zostały praktycznie rozwiązane.

Na przykład, wskaźnik dokładności rozumienia mowy jest już bardzo wysoki w usługach takich jak transkrypcje wykonywane przez oprogramowanie Otter.ai lub notatki medyczne sporządzone przez DeepScribe.

„Następna granica jest jednak znacznie trudniejsza” - dodał.

"Zachowanie zrozumienia kontekstu, co jest problemem wykraczającym daleko poza przetwarzanie języka naturalnego, oraz empatia, taka jak komputery wchodzące w interakcje z ludźmi, muszą zrozumieć frustrację, złość, zniecierpliwienie itp. Trwają prace nad obydwoma tymi kwestiami, ale oba są dość dalekie od zadowalających."

Sieci neuronowe są kluczem

Aby generować realistyczne głosy, firmy korzystają z technologii, takich jak głębokie sieci neuronowe, forma uczenia maszynowego, która klasyfikuje dane za pomocą warstw, Matt Muldoon, północnoamerykański prezes ReadSpeaker, firmy opracowującej oprogramowanie do zamiany tekstu na mowę, powiedział w wywiadzie e-mail.

„Te warstwy udoskonalają sygnał, dzieląc go na bardziej złożone klasyfikacje” - dodał. „Rezultatem jest syntetyczna mowa, która brzmi niesamowicie jak człowiek.”

Kolejną opracowywaną technologią jest Prosody Transfer, która polega na łączeniu dźwięku jednego głosu przekształcającego tekst na mowę ze stylem mówienia innego, powiedział Muldoon. Istnieje również uczenie transferu, które zmniejsza ilość danych treningowych potrzebnych do wytworzenia nowego neuronowego głosu zamiany tekstu na mowę.

Kaplan powiedział, że wytwarzanie mowy podobnej do ludzkiej również wymaga ogromnej mocy obliczeniowej. Firmy opracowują chipy akceleratorów neuronowych, które są niestandardowymi modułami, które działają w połączeniu ze zwykłymi procesorami.

„Następnym etapem będzie umieszczenie tych chipów w mniejszym sprzęcie, ponieważ obecnie jest to już robione w przypadku kamer, gdy wymagana jest sztuczna inteligencja dla wizji” - dodał. „Nie minie dużo czasu, zanim tego typu możliwości obliczeniowe będą dostępne w samych słuchawkach.”

Jednym z wyzwań w rozwoju mowy opartej na sztucznej inteligencji jest to, że każdy mówi inaczej, więc komputery mają trudności ze zrozumieniem nas.

„Pomyśl o akcentach Georgia vs. Boston vs. Północna Dakota i czy angielski jest Twoim podstawowym językiem”, powiedziała Monica Dema, która pracuje nad analizą wyszukiwania głosowego w MDinc, w e-mailu. „Myśląc globalnie, jest to kosztowne dla wszystkich regionów Niemiec, Chin i Indii, ale to nie znaczy, że nie jest lub nie można tego zrobić”.

Zalecana:

Wkrótce możesz nie wiedzieć, że rozmawiasz z komputerem

Spisu treści:

Kluczowe dania na wynos

Asystenci głosowi z postacią

Sieci neuronowe są kluczem

Zalecana:

Dlaczego możesz (lub nie) zobaczyć wkrótce YouTube Picture-in-Picture

Nie możesz dostać Sling TV na PS4; Oto, co możesz uzyskać

Jaka jest różnica między komputerem Mac a komputerem PC?

Czy możesz zmienić imię Siri? Nie, ale oto, co możesz zrobić

Czy możesz cofnąć migawkę? Nie, ale możesz go usunąć

Recenzja zestawu słuchawkowego HTC Vive Pro: najlepsza konsumencka VR

Comcast oferuje nową usługę przesyłania strumieniowego Peacock do przecinarek do kabli

Jak naprawić Msvcp80.dll brakuje lub nie znaleziono błędów

Recenzja Echo Dot (3rd Gen): Wszystko, co Alexa ma do zaoferowania w małym opakowaniu

Recenzja drukarki HP OfficeJet Pro 8720 All-in-One: kompaktowa drukarka biznesowa

Jak zapisywać hasła w Chrome na iOS

Notatki samoprzylepne dla systemu Windows 7: Karteczki samoprzylepne na komputer

Jak uzyskać Asystenta Google na PC

Nie musisz poświęcać czasu na konserwację pojazdu elektrycznego

Jak naprawić komputer, który się włącza, ale nic nie wyświetla

Jak Instagram utrzymuje złośliwe wiadomości z Twojej skrzynki odbiorczej

Jak przesłać SMS-a na Androida

8 najlepszych projektorów 4K i 1080p w 2022 roku

Niebezpieczeństwa związane z automatycznymi odpowiedziami poza biurem

Jak włączyć lub wyłączyć potwierdzenia odczytu w telefonie iPhone & Android