Napisy i tłumaczenia w czasie rzeczywistym mogą być przyszłością czatu wideo

Spisu treści:

Napisy i tłumaczenia w czasie rzeczywistym mogą być przyszłością czatu wideo
Napisy i tłumaczenia w czasie rzeczywistym mogą być przyszłością czatu wideo
Anonim

Kluczowe dania na wynos

  • Navi korzysta z SharePlay i wbudowanej funkcji zamiany mowy na tekst firmy Apple, aby oferować napisy i tłumaczenia w FaceTime.
  • Jest daleki od ideału, ale już wystarczająco dobry.
  • Napisy są świetne dla ułatwienia dostępu.
Image
Image

Navi to aplikacja, która dodaje napisy na żywo i tłumaczenia w czasie rzeczywistym do połączeń FaceTime.

Aplikacja wykorzystuje funkcję SharePlay i wbudowaną funkcję rozpoznawania mowy, aby dodawać napisy i tłumaczenia w 20 językach do połączeń FaceTime. To niesamowite wykorzystanie SharePlay, które większość z nas uważa za sztuczny sposób na oglądanie zsynchronizowanych filmów z ludźmi w innych miejscach. Być może nie musisz jeszcze zwalniać tłumacza, ale aplikacja, która robi to dobrze, może być niesamowicie przydatna.

„Nie otrzymuję dźwięku z rozmowy FaceTime”, pisze programista Navi Jordi Bruin na Twitterze, „ale używam SharePlay do udostępniania go uczestnikom rozmowy”.

SharePlay

SharePlay to nowa funkcja w systemach iOS 15 i macOS 12.1, która umożliwia udostępnianie i synchronizowanie rzeczy podczas połączeń FaceTime. W powyższym przykładzie oglądania filmu każdy uczestnik może wstrzymać lub odtworzyć film, na przykład podczas gdy wszyscy rozmawiacie podczas rozmowy FaceTime. Wideo FaceTime pozostaje otwarte w małym, ruchomym panelu obrazu w obrazie, a każdy uczestnik uruchamia aplikację lokalnie na swoim urządzeniu. Sztuczka SharePlay polega na synchronizowaniu wszystkiego, co dzieje się w tych lokalnych aplikacjach, dzięki czemu wszyscy dzielą się doświadczeniem, niezależnie od tego, czy jest to film, trening Fitness+, czy arkusz kalkulacyjny.

Navi korzysta z tej samej technologii, tylko aplikacja do połączenia nie jest filmem - to mechanizm tłumaczenia w czasie rzeczywistym. Aby z niego skorzystać, uruchom aplikację podczas połączenia FaceTime i dotknij przycisku „Włącz napisy”. Wtedy inni uczestnicy również mogą dołączyć do akcji i zobaczyć napisy na żywo dla obecnego mówcy. Jeśli ktoś monologuje, jego dymek rośnie i utrzymuje się trochę dłużej.

Image
Image

Dla niesłyszących może to oznaczać różnicę między dzwonieniem a nie. A dla każdego oznacza to, że możesz prowadzić przydatne rozmowy między osobami, które nie dzielą języka.

Tekst uniwersalny

Internet opiera się na tekście i to świetnie. Jest mały i łatwy do tworzenia, czytania i tłumaczenia. Łatwo jest też zamienić mowę syntetyczną. W rezultacie w każdej rozmowie może uczestniczyć każdy z dowolnego miejsca. Język nie jest barierą, podobnie jak głuchota ani ślepota – o ile używasz urządzenia z dobrymi narzędziami ułatwiającymi dostęp dla osób z upośledzeniem wzroku lub słuchu.

Ale słowo mówione jest znacznie trudniejsze do przetworzenia. Dyktowanie mowy na tekst jest imponujące, ale dopiero stosunkowo niedawno ogólne rozpoznawanie mowy stało się wystarczająco dobre do ogólnego użytku – dobrym przykładem jest aplikacja Tłumacz firmy Apple. Wprowadzony w iOS 15, oferuje tłumaczenia audio w czasie rzeczywistym. Gdybyśmy nadal jeździli na zagraniczne wakacje, byłoby idealnie.

Teraz coraz częściej używamy wideo do pracy i do utrzymywania kontaktu z przyjaciółmi i rodziną. Bez względu na to, jak będziemy pracować w przyszłości, bariera dla rozmów wideo została całkowicie przełamana. Jest to obecnie powszechne narzędzie, ale brakuje mu finezji narzędzi komunikacji pisemnej.

Coś takiego jak Navi, które oferuje napisy i tłumaczenie w czasie rzeczywistym, może być znaczące. Dostępność to jeden z aspektów, ale umiejętność rozmawiania z ludźmi, których języka nie znasz, otwiera międzynarodowy biznes w zaskakującym stopniu.

Image
Image

W akcji

Przetestowałem Navi z twórcą aplikacji, autorem i użytkownikiem aparatów słuchowych Grahamem Bowerem. Jest całkiem niezły, ale nie jest jeszcze gotowy do krytycznych zadań. Niektóre transkrypcje były komicznie złe i zbyt wulgarne, by je opisać. Jednak w miarę upływu czasu nasza rozmowa znacznie się poprawiła w dokładnym rozpoznawaniu jego mowy. Ma to sens, ponieważ mechanizm dyktowania w systemie iOS z czasem dostosowuje się do Twojego głosu.

Tłumaczenie również zadziałało, chociaż jakość jego tłumaczeń zależy od dokładności danych wejściowych.

Projektowanie tego rodzaju technologii w przyszłych okularach Apple lub jakimkolwiek innym podobno produkcie AR/VR, nad którym pracujemy w tym tygodniu, jest łatwe.

„Widzę, że to działa w okularach AR”, powiedział Bower podczas naszej rozmowy. „Niektórzy ludzie, nawet z normalnym słuchem, wolą napisy w filmach. To jak napisy w prawdziwym życiu.”

Chociaż imponujące demo techniczne, Navi jeszcze nie ma. Aby zapewnić niezawodne użytkowanie biznesowe, początkowe rozpoznawanie mowy Apple będzie musiało być znacznie dokładniejsze. Ale jeśli chodzi o szybkość, wszystko jest w porządku, a tłumaczenia są tak dobre, jak każde inne.

Ale jesteśmy teraz na ścieżce i tego rodzaju rzeczy będą się tylko poprawiać.

Zalecana: