W jaki sposób Watson, sztuczna inteligencja IBM, napędza interaktywne środowiska VR / AR.
     IBM stawia na interaktywność audio opartą na sztucznej inteligencji jako przyszłość XR.
Ponieważ VR i AR stają się coraz bardziej popularne, rosną również oczekiwania użytkowników. Ostatnim wielkim przełomem, jaki widzieliśmy w łatwej w użyciu interaktywności, było wprowadzenie funkcji śledzenia dłoni i rozpoznawania gestów na urządzeniach VAR dla przedsiębiorstw i konsumentów.
     IBM przewiduje, że sztuczna inteligencja odblokuje kolejną generację interaktywności dla doświadczeń XR, opisując w raporcie Unity Technology Trends Report z 2021 r., Że dojrzałość sztucznej inteligencji będzie odgrywać kluczową rolę poza śledzeniem ręki i w świecie głosu.
Obejmuje to interakcje głosowe oparte na zapytaniach dla nowego poziomu agencji cyfrowej, a nawet możliwość interakcji i kontrolowania środowisk cyfrowych poprzez rozmowę.

Wywiad z Joe Pavittem głównym wynalazcą i specjalistą ds. Nowych technologii w IBM Research Europe.

Przetwarzanie języka naturalnego to rodzaj uczenia maszynowego, który napędza realistyczną rozmowę między ludźmi a maszynami. Kluczową technologią IBM w tej dziedzinie jest Watson, ich asystent AI.
Pavitt opisuje, w jaki sposób Watson używa klasyfikatorów do rozpoznawania różnych składników mowy. Ułatwia to interpretowanie różnych danych wejściowych lub zapytań, a także ułatwia programistom tworzenie interfejsów mowy w środowisku.
Kiedy programujesz (mowę) w grze, możesz mieć 10 intencji, z którymi będziesz musiał sobie poradzić, ale swoboda używania własnego głosu jako użytkownika sprawia, że czujesz, że masz nieskończone rzeczy, o które możesz zapytać. Nawet jeśli zapytasz o coś zupełnie niejasnego, nadal możesz sklasyfikować to w taki sposób, aby było zintegrowane z historią i przepływem tego, czego oczekujesz”- mówi Pavitt.
Podaje przykład Star Trek Bridge Crew, gry VR, która powstała we współpracy z Ubisoft. Możesz grać z „robotami załogowymi”, które za pomocą funkcji rozpoznawania głosu opartego na technologii Watson - będą słuchać i wykonywać polecenia.
Jeśli chodzi o rozpoznawanie głosu, wyjaśnia, jak działa przetwarzanie języka naturalnego w tym kontekście. „Musisz „zwiększyć moc silnika do 70% ”. To jest klasyfikowane jako „moc silnika”. Znamy zamiar tego, co chcą zrobić. Można również powiedzieć „zwiększ ciąg silnika do 70%”. Można by powiedzieć „zwiększ ciąg” bez słowa „silnik” i nadal będzie to klasyfikowane jako „moc silnika”. Więc funkcjonalnie, tak to działa”- mówi Pavitt.
Kiedy pytam Pavitta, w jaki sposób interaktywność audio oparta na sztucznej inteligencji uczyni gry VR bardziej atrakcyjnymi, ma kilka uwag do przekazania.
„Wiele z tego, co robimy w dziedzinie sztucznej inteligencji, z interfejsami konwersacyjnymi, zapewnia elastyczność języka. Nie musisz wybierać jednej z trzech opcji”- mówi.
Opowiada o Mass Effect, grze z otwartym światem, która była naprawdę przełomowa, kiedy pojawiła się po raz pierwszy w 2007 roku. Podstawową mechaniką były wybory gracza w trakcie rozmowy, mające wpływ na ogólny zarys historii. Chociaż w tamtym czasie były to rozmowy oparte na menu, twórca gry, firma BioWare, poczyniła niesamowity postęp w wydaniu Mass Effect 3, który został wydany w 2012 roku.
Dzięki interaktywności audio Pavitt podkreśla, jak gry nowej generacji staną się znacznie bardziej spersonalizowane dzięki wprowadzeniu języka opartego na konwersacjach.
Oprócz wzbogaconej interaktywności dźwięku z postaciami i narracjami, Pavitt wyjaśnia, w jaki sposób Watson zwiększy interaktywność ze środowiskiem.
„Nie chodzi tylko o rozmowy z postaciami, ale także o możliwość przeszukiwania świata i gry. Odpowiedź na Twoje pytania tylko poprawi komfort użytkowania” - mówi Pavitt.
Podaje przykład zbudowanego przez siebie dema International Space Station (ISS) VR, które pozwala latać po ISS i wchodzić w interakcje z otoczeniem za pomocą zapytań głosowych.
„Możesz wykonać instrukcje instruktażowe, na przykład powiedzieć” otwórz właz ”lub„ otwórz drzwi komory kapsuły ”. Możesz powiedzieć „zabierz mnie do tego kawałka” lub „teleportuj mnie na zewnątrz”, a to po prostu teleportuje cię na zewnątrz - mówi.
„Ponieważ Watson potrafi czytać i rozumieć język, możesz przekazać mu dokumentację dotyczącą Międzynarodowej Stacji Kosmicznej, a następnie zadać mu pytania. Co to za rzecz, co to robi? Jak astronauci ćwiczą w kosmosie? Po prostu odczyta posiadane informacje”- mówi Pavitt.
„Jest to więc naprawdę dobre z edukacyjnego punktu widzenia, a także interakcji opartych na instrukcjach” - mówi.
Inną cechą Watsona, która naprawdę mnie interesuje, jest jego zdolność do przeprowadzania analizy sentymentów, procesu zwanego rozumieniem języka naturalnego.
„Z perspektywy osobowości, jeśli zaczniesz szkolić agentów, będą oni próbowali zrozumieć nie tylko to, co się mówi, ale także to, jak się to mówi” - mówi Pavitt.
Na bardzo podstawowym poziomie Watson zidentyfikuje, czy mówi się o czymś w pozytywnym czy negatywnym świetle.
„To dodaje bohaterom osobowości. Zatem to, jak jedna postać może postrzegać określony stan, może bardzo różnić się od tego, jak postrzega go inna postać”- mówi.
Takie podejście do analizy uczuć rzuca dużo światła na to, czy fotorealizm lub karykatury są bardziej skuteczne jako istoty, z którymi można się powiązać. Sprowadza się do umiejętności emotikonów. Na przykład postacie z anime są znane z tego, że są niesamowicie emocjonalne, ale oznacza to, że nie można pomylić się z tym, jak się „czują”.
Istoty mniej emocjonalne, nawet fotorealistyczne, mają tendencję do upadku jako boty, czasami nawet bardziej, gdy celem jest realizm. Dzieje się tak, ponieważ jesteśmy teraz wprowadzani w niesamowitą dolinę - związek między stopniem podobieństwa obiektu do człowieka a naszą emocjonalną reakcją na to.
„Technologia jest zdecydowanie obecna i wystarczająco cenna, aby zapewnić bezproblemowe doświadczenie, o którym rozmawiamy” - mówi Pavitt.
Aby nadać trochę kontekstu, asystenci głosowi istnieją od ponad 60 lat, ale dopiero niedawno zaczęli popularnie korzystać z inteligentnych urządzeń domowych, takich jak Google Home i Amazon Echo.
„To zupełnie inny sposób interakcji ludzi z technologią i danymi. I to zdecydowanie coś, co widzieliśmy. Kilka lat temu wykonaliśmy kawał pracy z drużyną piłkarską w Wielkiej Brytanii. Pamiętam, jak przedstawiłem im koncepcję interfejsów konwersacji i była to zupełnie inna zmiana w ich sposobie myślenia”- mówi Pavitt.
Opisuje, jak piłkarze byli zaskoczeni tym, jak bardzo na początku zmagali się z interfejsem konwersacyjnym, nieustannie zwracając się do swoich kolegów z pytaniem, zamiast bezpośrednio angażować się w interfejs.
„To było ćwiczenie zaufania. Właśnie w tym miejscu widzimy teraz wiele bardzo interesujących rzeczy, bardziej związanych z zaufaniem technologii, jeśli chodzi o sposób interakcji z tym cyfrowym agentem, a nie z kompetencjami lub funkcjonalnością technologii”- mówi.
„Ci, którzy są odpowiedzialni za wprowadzanie (interaktywności audio) do doświadczeń dla użytkowników końcowych, wciąż odczuwają wahania co do głosu i polubień” - mówi Pavitt.
Kiedy pytam go, co zobaczymy w ciągu najbliższych pięciu do dziesięciu lat, wskazuje na sprzęt, zwłaszcza ulepszenia mikrofonów, które przede wszystkim pozwolą na lepszą jakość dźwięku. Powtarza również, że chociaż omawiana przez nas technologia już tu jest, minie trochę czasu, zanim stanie się ona częścią naszego codziennego życia.
Istnieją już wyraźne przykłady tego, jak interaktywność oparta na dźwięku rozwija techniki szkolenia i edukacji, w zastosowaniach korporacyjnych, grach i projektowaniu narracji, a także jako asystenci w naszych domach.
Chociaż zaufanie jest ogromnym czynnikiem, VR i AR normalizują organicznie rozmowy w środowiskach cyfrowych, zarówno w świecie rzeczywistym, jak iw środowiskach w pełni generowanych komputerowo.
W podcastu Kent Bye nr 968 rozmawia z dyrektorem Vket Global Team LilBagel, który omawia, w jaki sposób niektórzy użytkownicy będą mimować tylko w światach takich jak VRChat lub używać gestów dłoni do komunikowania się, zanim poczują się na tyle komfortowo, aby komunikować się głosem w świecie.
W związku z tym socjalizacja w wirtualnych światach szybko zwiększa nasz komfort dzięki konwersacjom opartym na dźwięku w wciągających środowiskach, ale nadal jest to niszowe doświadczenie.
Jednak gry - zarówno 2D, AR, jak i VR - stanowią nieodparty przypadek zastosowania interaktywności audio, ponieważ gracze są już przyzwyczajeni do wirtualnych istot i asystentów, którzy odgrywają kluczową rolę jako towarzysze lub asystenci.
Niektóre z najbardziej udanych gier narracyjnych pozwalają odegrać centralną rolę w historii. Należą do nich The Elder Scrolls, Warcraft, Fallout, The Witcher i Half-Life, żeby wymienić tylko kilka. Możliwość komunikowania się werbalnie z postaciami, które odpowiednio zareagują, rozwinie znaczące ewolucje rozgrywki w tych gatunkach.
Podobieństwo w e-sporcie, komunikacja z zespołem za pośrednictwem czatu lub głosu jest kluczowa. Ten typ rozgrywki również się zmieni, ponieważ dźwięk odgrywa większą rolę w sterowaniu grą.
Wreszcie, przypadki użycia w przedsiębiorstwach, w których inżynierowie muszą używać rąk i nie mogą używać sterowania opartego na gestach, to kolejny podstawowy przypadek użycia, w którego rozwoju firma Watson bierze udział.
     (Pakiet Watson Unity SDK typu open source można znaleźć w witrynie GitHub.)
Spodziewam się, że interaktywne gry audio i rozwiązania dla przedsiębiorstw staną się bardziej popularne, ponieważ tego typu interakcje są znormalizowane za pomocą VR i AR.
     Ciekawostka: sam Watson powstał dopiero w 2004 roku jako część projektu IBMs DeepQA, mającego na celu konkurowanie w Jeopardy, i ostatecznie pojawił się w Jeopardy! w 2011 roku pokonując mistrzów i zdobywając nagrodę w wysokości 1 mln USD.

17.02.2021, Źródło: vrscout