AI może teraz zrozumieć Twoje filmy, oglądając je

👤 Autor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:57.
🖍 Ostatnio zmodyfikowany 2025-06-01 07:17.

Kluczowe dania na wynos

Naukowcy twierdzą, że mogą nauczyć sztuczną inteligencję oznaczania filmów poprzez oglądanie i słuchanie.
System AI uczy się reprezentować dane, aby przechwytywać koncepcje wspólne dla danych wizualnych i dźwiękowych.
Jest to część wysiłków, aby nauczyć sztuczną inteligencję rozumienia pojęć, które ludzie nie mają problemów z nauką, ale komputery są trudne do zrozumienia.

Nowy system sztucznej inteligencji (AI) może oglądać i słuchać Twoich filmów i oznaczać to, co się dzieje.

Naukowcy z MIT opracowali technikę, która uczy sztuczną inteligencję przechwytywania działań dzielonych między wideo i audio. Na przykład ich metoda pozwala zrozumieć, że płacz dziecka w filmie jest powiązany z wypowiadanym słowem „płacz” w klipie dźwiękowym. Jest to część wysiłków, aby nauczyć sztuczną inteligencję rozumienia pojęć, których ludzie nie mają problemów z nauką, ale które komputery są trudne do zrozumienia.

„Popularny paradygmat uczenia się, nadzorowane uczenie się, działa dobrze, gdy masz dobrze opisane i kompletne zestawy danych” - powiedział Lifewire ekspert AI Phil Winder w rozmowie e-mailowej. „Niestety zbiory danych rzadko są kompletne, ponieważ w prawdziwym świecie występuje zły nawyk prezentowania nowych sytuacji”.

Inteligentniejsza sztuczna inteligencja

Komputery mają trudności z ustaleniem codziennych scenariuszy, ponieważ muszą przetwarzać dane, a nie dźwięk i obrazy jak ludzie. Kiedy maszyna „widzi” zdjęcie, musi je zakodować w dane, których może użyć do wykonania zadania, takiego jak klasyfikacja obrazu. Sztuczna inteligencja może ugrzęznąć, gdy dane wejściowe mają wiele formatów, takich jak filmy, klipy audio i obrazy.

"Głównym wyzwaniem jest to, jak maszyna może dostosować te różne modalności? Jako ludziom jest to dla nas łatwe" - powiedział Alexander Liu, badacz z MIT i pierwszy autor artykułu na ten temat. Informacja prasowa. "Widzimy samochód, a potem słyszymy dźwięk przejeżdżającego samochodu i wiemy, że to to samo. Ale w przypadku uczenia maszynowego nie jest to takie proste."

Zespół Liu opracował technikę sztucznej inteligencji, która, jak mówią, uczy się reprezentować dane, aby przechwytywać koncepcje wspólne dla danych wizualnych i dźwiękowych. Korzystając z tej wiedzy, ich model uczenia maszynowego może określić, gdzie w filmie ma miejsce konkretna akcja i oznaczyć ją etykietą.

Nowy model pobiera surowe dane, takie jak filmy i odpowiadające im podpisy tekstowe, i koduje je, wyodrębniając cechy lub obserwacje dotyczące obiektów i czynności w filmie. Następnie mapuje te punkty danych w siatce, zwanej przestrzenią osadzania. Model grupuje podobne dane jako pojedyncze punkty w siatce; każdy z tych punktów danych lub wektorów jest reprezentowany przez indywidualne słowo.

Na przykład klip wideo przedstawiający osobę żonglującą może zostać zmapowany do wektora oznaczonego jako „żonglowanie”.

Naukowcy zaprojektowali model tak, aby mógł używać tylko 1000 słów do etykietowania wektorów. Model może zdecydować, które działania lub koncepcje chce zakodować w pojedynczy wektor, ale może używać tylko 1000 wektorów. Model wybiera słowa, które jego zdaniem najlepiej reprezentują dane.

Jeżeli jest film o świniach, model może przypisać słowo „świnia” do jednego z 1000 wektorów. Następnie, jeśli modelka usłyszy, jak ktoś wypowiada słowo „świnia” w klipie audio, powinien nadal używać tego samego wektora do kodowania” - wyjaśnił Liu.

Twoje filmy, zdekodowane

Lepsze systemy etykietowania, takie jak ten opracowany przez MIT, mogą pomóc w zmniejszeniu błędów w sztucznej inteligencji, powiedział w rozmowie e-mailowej dla Lifewire Marian Beszedes, szef działu badań i rozwoju w firmie biometrycznej Innovatrics. Beszedes zasugerował, że branża danych może spojrzeć na systemy AI z perspektywy procesu produkcyjnego.

„Systemy akceptują surowe dane jako dane wejściowe (surowce), wstępnie je przetwarzają, przyjmują, podejmują decyzje lub prognozy i analizy wyjściowe (gotowe produkty)” - powiedział Beszedes. „Ten przepływ procesu nazywamy „fabryką danych” i podobnie jak inne procesy produkcyjne, powinien on podlegać kontroli jakości. Branża danych musi traktować stronniczość AI jako problem z jakością.

„Z perspektywy konsumenta błędnie oznakowane dane utrudniają np. wyszukiwanie w Internecie określonych zdjęć/filmów” - dodał Beszedes. „Dzięki prawidłowo opracowanej sztucznej inteligencji możesz wykonywać etykietowanie automatycznie, znacznie szybciej i bardziej neutralnie niż w przypadku etykietowania ręcznego”.

Ale model MIT nadal ma pewne ograniczenia. Po pierwsze, ich badania koncentrowały się na danych z dwóch źródeł jednocześnie, ale w prawdziwym świecie ludzie spotykają się z wieloma rodzajami informacji jednocześnie, powiedział Liu

„Wiemy, że 1000 słów działa na tego rodzaju zbiorze danych, ale nie wiemy, czy można go uogólnić na problem w świecie rzeczywistym” - dodał Liu.

Naukowcy z MIT twierdzą, że ich nowa technika przewyższa wiele podobnych modeli. Jeśli sztuczną inteligencję można wyszkolić w rozumieniu filmów, być może w końcu będziesz w stanie pominąć oglądanie filmów z wakacji znajomego i zamiast tego otrzymać raport generowany komputerowo.

Zalecana:

AI może teraz zrozumieć Twoje filmy, oglądając je

Spisu treści:

Kluczowe dania na wynos

Inteligentniejsza sztuczna inteligencja

Twoje filmy, zdekodowane

Zalecana:

OtterBox będzie teraz ładować Twoje urządzenia, aby zapewnić im bezpieczeństwo

Jak dowiedzieć się, kto ogląda Twoje filmy na YouTube

AI może pomóc ci zrozumieć mowę zwierząt

Twoje ulubione rozszerzenie przeglądarki może kraść Twoje hasła

Nowa technologia może pozwolić gadżetom zrozumieć Twoje rozmowy

Jak nowa technologia może pozwolić Ci pisać w VR

Jak korzystać z Collab, aplikacji do teledysków Facebooka

Jak oprogramowanie może pomóc w uniknięciu połączeń z zoomem

Dlaczego wkrótce zobaczysz więcej aplikacji na Androida

Edytuj muzykę, dźwięk lub inne ustawienia audio w programie PowerPoint

CAB plik (co to jest & jak go otworzyć)

Co to jest przełącznik napięcia zasilania?

Jak zablokować numer w telefonach Samsung Galaxy

Szybkie łączenie plików Dokumentów Google ze zdarzeniami Kalendarza Google

Jak korzystać ze stacji dokującej iPada w iOS 12 i nowszych

Jak edytować filmy z YouTube

Jak używać sterowania głosowego na iPhonie i iPodzie Touch

Jak robić lepsze zdjęcia o zachodzie słońca za pomocą iPhone'a

Co to jest kabel lub złącze PATA?

ABR Plik (co to jest i jak go otworzyć)