Kluczowe dania na wynos
- Naukowcy twierdzą, że mogą nauczyć sztuczną inteligencję oznaczania filmów poprzez oglądanie i słuchanie.
- System AI uczy się reprezentować dane, aby przechwytywać koncepcje wspólne dla danych wizualnych i dźwiękowych.
-
Jest to część wysiłków, aby nauczyć sztuczną inteligencję rozumienia pojęć, które ludzie nie mają problemów z nauką, ale komputery są trudne do zrozumienia.
Nowy system sztucznej inteligencji (AI) może oglądać i słuchać Twoich filmów i oznaczać to, co się dzieje.
Naukowcy z MIT opracowali technikę, która uczy sztuczną inteligencję przechwytywania działań dzielonych między wideo i audio. Na przykład ich metoda pozwala zrozumieć, że płacz dziecka w filmie jest powiązany z wypowiadanym słowem „płacz” w klipie dźwiękowym. Jest to część wysiłków, aby nauczyć sztuczną inteligencję rozumienia pojęć, których ludzie nie mają problemów z nauką, ale które komputery są trudne do zrozumienia.
„Popularny paradygmat uczenia się, nadzorowane uczenie się, działa dobrze, gdy masz dobrze opisane i kompletne zestawy danych” – powiedział Lifewire ekspert AI Phil Winder w rozmowie e-mailowej. „Niestety zbiory danych rzadko są kompletne, ponieważ w prawdziwym świecie występuje zły nawyk prezentowania nowych sytuacji”.
Inteligentniejsza sztuczna inteligencja
Komputery mają trudności z ustaleniem codziennych scenariuszy, ponieważ muszą przetwarzać dane, a nie dźwięk i obrazy jak ludzie. Kiedy maszyna „widzi” zdjęcie, musi je zakodować w dane, których może użyć do wykonania zadania, takiego jak klasyfikacja obrazu. Sztuczna inteligencja może ugrzęznąć, gdy dane wejściowe mają wiele formatów, takich jak filmy, klipy audio i obrazy.
"Głównym wyzwaniem jest to, jak maszyna może dostosować te różne modalności? Jako ludziom jest to dla nas łatwe" - powiedział Alexander Liu, badacz z MIT i pierwszy autor artykułu na ten temat. Informacja prasowa. "Widzimy samochód, a potem słyszymy dźwięk przejeżdżającego samochodu i wiemy, że to to samo. Ale w przypadku uczenia maszynowego nie jest to takie proste."
Zespół Liu opracował technikę sztucznej inteligencji, która, jak mówią, uczy się reprezentować dane, aby przechwytywać koncepcje wspólne dla danych wizualnych i dźwiękowych. Korzystając z tej wiedzy, ich model uczenia maszynowego może określić, gdzie w filmie ma miejsce konkretna akcja i oznaczyć ją etykietą.
Nowy model pobiera surowe dane, takie jak filmy i odpowiadające im podpisy tekstowe, i koduje je, wyodrębniając cechy lub obserwacje dotyczące obiektów i czynności w filmie. Następnie mapuje te punkty danych w siatce, zwanej przestrzenią osadzania. Model grupuje podobne dane jako pojedyncze punkty w siatce; każdy z tych punktów danych lub wektorów jest reprezentowany przez indywidualne słowo.
Na przykład klip wideo przedstawiający osobę żonglującą może zostać zmapowany do wektora oznaczonego jako „żonglowanie”.
Naukowcy zaprojektowali model tak, aby mógł używać tylko 1000 słów do etykietowania wektorów. Model może zdecydować, które działania lub koncepcje chce zakodować w pojedynczy wektor, ale może używać tylko 1000 wektorów. Model wybiera słowa, które jego zdaniem najlepiej reprezentują dane.
Jeżeli jest film o świniach, model może przypisać słowo „świnia” do jednego z 1000 wektorów. Następnie, jeśli modelka usłyszy, jak ktoś wypowiada słowo „świnia” w klipie audio, powinien nadal używać tego samego wektora do kodowania” – wyjaśnił Liu.
Twoje filmy, zdekodowane
Lepsze systemy etykietowania, takie jak ten opracowany przez MIT, mogą pomóc w zmniejszeniu błędów w sztucznej inteligencji, powiedział w rozmowie e-mailowej dla Lifewire Marian Beszedes, szef działu badań i rozwoju w firmie biometrycznej Innovatrics. Beszedes zasugerował, że branża danych może spojrzeć na systemy AI z perspektywy procesu produkcyjnego.
„Systemy akceptują surowe dane jako dane wejściowe (surowce), wstępnie je przetwarzają, przyjmują, podejmują decyzje lub prognozy i analizy wyjściowe (gotowe produkty)” – powiedział Beszedes. „Ten przepływ procesu nazywamy „fabryką danych” i podobnie jak inne procesy produkcyjne, powinien on podlegać kontroli jakości. Branża danych musi traktować stronniczość AI jako problem z jakością.
„Z perspektywy konsumenta błędnie oznakowane dane utrudniają np. wyszukiwanie w Internecie określonych zdjęć/filmów” – dodał Beszedes. „Dzięki prawidłowo opracowanej sztucznej inteligencji możesz wykonywać etykietowanie automatycznie, znacznie szybciej i bardziej neutralnie niż w przypadku etykietowania ręcznego”.
Ale model MIT nadal ma pewne ograniczenia. Po pierwsze, ich badania koncentrowały się na danych z dwóch źródeł jednocześnie, ale w prawdziwym świecie ludzie spotykają się z wieloma rodzajami informacji jednocześnie, powiedział Liu
„Wiemy, że 1000 słów działa na tego rodzaju zbiorze danych, ale nie wiemy, czy można go uogólnić na problem w świecie rzeczywistym” – dodał Liu.
Naukowcy z MIT twierdzą, że ich nowa technika przewyższa wiele podobnych modeli. Jeśli sztuczną inteligencję można wyszkolić w rozumieniu filmów, być może w końcu będziesz w stanie pominąć oglądanie filmów z wakacji znajomego i zamiast tego otrzymać raport generowany komputerowo.