Universitetet i Agder

Fremskritt i sikker dyp forsterkningslæring for sanntidsstrategispill og industriapplikasjoner

Avhandlingen presenterer fire algoritmer for modellbasert forsterkningslæring, hvor to av algoritmene fokuserer på å forbedre sikkerheten under læring i oppdragskritiske systemer. Avhandlingen går mot å løse noen av kjerneutfordringene ved forsterkende læring, nemlig sikkerhet og lærings-effektivitet.

Per-Arne Andersen

Ph.d.-kandidat

Disputasen foregår på campus og digitalt. Se nederst på siden hvordan publikum kan overvære disputasen digitalt (online).

Per-Arne Andersen fra Fakultet for teknologi og realfag ved UiA disputerer for ph.d.-graden med avhandlingen «Advances in Safe Deep Reinforcement Learning for Real-Time Strategy Games and Industry Applications» fredag 29. april 2022.

Han har fulgt doktorgradsprogrammet ved Fakultet for teknologi og realfag ved UiA, med med spesialisering i IKT, forskningsområde kunstig intelligens.

Slik oppsummerer Per-Arne Andersen selv avhandlingen:

Fremskritt i sikker dyp forsterkningslæring for sanntids strategispill og industriapplikasjoner

Avhandlingen fremmer banebrytende algoritmer innen kunstig intelligens-baserte beslutningssystemer. Disse algoritmene er testet i sanntids strategispill som StarCraft II og i oppdragskritiske industrielle systemer.

Forskningsområdet er dyp forsterkende læring (deep reinforcement learning), en kombinasjon av dyp læring og forsterkende læring.

Det overordnede målet med forskningsarbeidet er å gjøre datasystemer i stand til å nå optimale beslutningssekvenser uten å gjøre feil.

Spill-simuleringer

Spill brukes ofte til å teste effektiviteten til forsterkningslæringssystemer. For eksempel kan spill gi simuleringer av virkelige industriapplikasjoner som reduserer eksperimentkostnadene og forbedrer reproduserbarheten.

Forsterkende læring kan eliminere manuelt eller risikabelt arbeid i industrielle omgivelser. Ekspertsystemer dominerer automasjon av industrielle miljøer i dag, hvor det kan være vanskelig å definere optimale regelsett for komplekse problemer.

Tradisjonelle forsterkende læringssystemer lærer ved prøving og feiling. Som et resultat risikerer forsterkende læringsagenter å skade mennesker eller utstyr mens de lærer. Derfor kan bruk av spill for å lære forsterkende læringsmidler å operere trygt eliminere disse risikoene. Nøkkeleffekten av å løse disse bekymringene er å muliggjøre svært effektive og sikre autonome systemer som eksisterer i ulike former i samfunnets daglige rutine.

Kompleksiteten til sanntidsstrategispill er interessant for forskning på kunstig intelligens.

Oppgaver som krever samtidige operasjoner, ufullkommen informasjon og systemtilfeldighet er elementer i sanntids strategispill. Med den siste utviklingen lærer forsterkningslæringsalgoritmer å oppnå overmenneskelig ytelse i spill som StarCraft II.

Ulempen er at disse algoritmene er dyre og vanskelige å trene, noe som gjør dem vanskelige å bruke i industrielle applikasjoner.

Research Gap

Reinforcement learning er en prosess der maskinen søker å maksimere et tilbakemeldingssignal gjennom prøving og feiling. Nåværende banebrytende forsterkende læringsalgoritmer har vesentlige begrensninger fordi de krever mye utforskning for å lære gode beslutningssekvenser. Denne utforskende tilnærmingen kan føre til uønskede utfall i virkelige systemer.

Generelt følger forsterkende læring en risikonøytral læringsstrategi, der fatale beslutninger står sentralt i læringsmålet. Slike feil kan ikke tolereres i oppdragskritiske systemer og krever sikkerhet for å forhindre skade på menneskelig og virkelig utstyr. Som et resultat er det behov for å utvikle nye opplæringsalgoritmer for å bevare sikkerheten under læring.

Til slutt bruker banebrytende forskning datakraftskrevende spill, som StarCraft II. Dette krever dyre datasystemer som ikke er allment tilgjengelige for alle forskningsinstitusjoner. Det finnes andre alternativer, men de mangler fleksibiliteten til å justere ønsket vanskelighetsgrad og datakraftskrevende kompleksitet.

Det er betydelige utfordringer å ta tak i i denne oppgaven. Oppsummert har forsterkende læring lav effektivitet, fokuserer mest på risikonøytral trening, og har begrenset tilgang til variable kontekster og testmiljø for eksperimentering. Dette etterlater ulike hull der det er betydelig rom for forbedring.

For å tette disse hullene mot bedre beslutningstaking i industrilignende miljøer deler vi forskningen inn i tre separate emner:

Emne 1: Spillmiljøer for forsterkende læringsforskning med fleksible oppgaver

Emne 2: Modellbasert forsterkningslæring for mer effektiv forsterkningslæring i sanntids strategispill

Emne 3: Sikker forsterkningslæring for industrilignende systemer

Emne 1: Spillmiljøer

Dette forskningsarbeidet tar for seg hullet i eksperimentelle miljøer ved å foreslå seks nye spillmiljøer for å evaluere forsterkningslæringsalgoritmer.

Deep Line Wars og Deep RTS er to nye sanntids strategispill for å teste algoritmer i planlegging og læring ved mangelfull informasjon.

Deep Maze er et fleksibelt labyrintspill for å lære forsterkende læringsalgoritmer å navigere i labyrinter fra hukommelse.

Deep Warehouse er et spesiallaget spill for å evaluere sikkerheten til forsterkningslæringsalgoritmer i Automated Storage and Retrieval Systems (ASRS), som er det eksklusive fokuset i dette forskningsarbeidet for industrilignende miljø.

Et ASRS har autonome kjøretøy som søker å maksimere varegjennomstrømning i et tredimensjonalt rutenett.

Alle spill gir parametere som justerer problemkompleksiteten og en fleksibel scenariomotor som kan utfordre algoritmer i ulike problemer, som minne og kontroll.

Vi viser empirisk at disse spillene er betydelig mer datakraftseffektive enn spill med lignende kompleksitet. Mangfoldet av foreslåtte spill bidrar til å fylle kompleksitetsgapet i den vitenskapelige litteraturen.

Avsluttningsvis introduserer vi Center for Artificial Intelligence and Reinforcement Learning (CaiRL) for forskning på høyytelses forsterkende læring, som samler alle miljøbidrag i et enkelt forskningsverktøy.

Emne 2: Modellbasert forsterkningslæring

Dette forskningsarbeidet foreslår modellbaserte forsterkningslæringsteknikker som fokuserer på effektivitet og sikkerhet i beslutningsprøver.

Avhandlingen presenterer Dreaming Variational Autoencoder (DVAE) som lærer å etterligne hvordan spillmotordynamikken fungerer. Læringen skjer gjennom læring ved demonstrasjoner.

Etter at læringsfasen er ferdig, kan tradisjonelle, ineffektive forsterkningslæringsalgoritmer trygt trene ved å bruke spilltilnærmingen ved akselererte hastigheter.

Videre presenterer avhandlingen Observation Reward Action Cost Learning Ensemble (ORACLE) som på samme måte lærer hvordan spillmotoren fungerer, men som kan lære mer kompleks spilldynamikk. Derfor er ORACLE mer egnet for spill med avansert grafikk som StarCraft II, men trenger å balansere treningstid og nøyaktighet.

Emne 3: Sikker forsterkningslæring

Det finnes flere metoder for å trene forsterkningslæringsalgoritmer på en sikrere måte i virkelige miljøer som krever sikkerhet. Dette eksperimentelle arbeidet viser at det er mulig å redusere feilraten under trening uten å legge urealistiske begrensninger eller forutsetninger på læringsmålene.

Konkret presenterer arbeidet et rammeverk for å lære en atferdsmodell av et system. Denne modellen brukes deretter til å utføre forsterkende læringsutforskning i et fullstendig isolert læringsmiljø.

Hovedresultat:

Avhandlingen bidrar med fire åpen kildekode-spill for å berike mangfoldet av tilgjengelige spill for forsterkende læringsforskning. Følgelig er det nå mer tilgjengelig for utdanningsinstitusjoner å justere problemkompleksiteten basert på tilgjengelig finansiering og beregningsressurser.

Alle bidragene er samlet inn i CaiRL-forskningsverktøysettet som fokuserer på å redusere kostnadene på eksperimenter, og går i retning mer effektive spill for forskning.

Avhandlingen presenterer fire algoritmer for modellbasert forsterkningslæring, hvor to av algoritmene fokuserer på å forbedre sikkerheten under læring i oppdragskritiske systemer.

Avhandlingen går mot å løse noen av kjerneutfordringene ved forsterkende læring, nemlig sikkerhet og lærings-effektivitet.

Vi tror at spillmiljøene, forsterkningslæringsmetodene og studiene som presenteres i avhandlingen bidrar til å flytte forskningen fremover innenfor de studerte temaene, og bidrar positivt til løsninger for å muliggjøre generell bruk av forsterkende læring i spill og kritiske industrielle applikasjoner.

Disputasfakta:

Prøveforelesning og disputas finner sted i Auditorium C2 040, Campus Grimstad og digitalt i konferanseprogrammet Zoom (lenke under).

Disputasen blir ledet av professor Christian Omlin, Fakultet for teknologi og realfag, Universitetet i Agder.

Prøveforelesning fredag 29. april kl 10:15

Disputas fredag 29. april kl 12:15

Oppgitt emne for prøveforelesning: «Multi-Agent Learning Meets Industry Applications»

Tittel på avhandling: «Advances in Safe Deep Reinforcement Learning for Real-Time Strategy Games and Industry Applications»

Søk etter avhandlingen i AURA - Agder University Research Archive, som er et digitalt arkiv for vitenskapelige artikler, avhandlinger og masteroppgaver fra ansatte og studenter ved Universitetet i Agder. AURA blir jevnlig oppdatert.

Avhandlingen er tilgjengelig her:

PhD Thesis Per-Arne-Andersen-Dissertation

Kandidaten: Per-Arne Andersen (1992, Karmøy) Bachelorgrad, UiA (2015) og mastergrad i IKT, UiA (2017). Masteroppgave: “Deep Reinforcement Learning using Capsules in Advanced Game Environments” Arbeider nå som universitetslektor ved Institutt for informasjons- og kommunikasjonsteknologi (IKT), Universitetet i Agder.

Opponenter:

Førsteopponent: Professor Ailo Bongo, UiT Norges Arktiske Universitet

Annenopponent: Lecturer (universitetslektor) Yali Du, PhD, King’s College London, UK

Bedømmelseskomitéen er ledet av professor Frank Reichert, Universitetet i Agder

Veiledere i doktorgradsarbeidet var professor Morten Goodwin (hovedveileder), Universitetet i Agder og professor Ole-Christoffer Granmo, Universitetet i Agder (medveileder)

Slik gjør du som publikum:

Disputasen er åpen for alle, men for å følge prøveforelesning og disputas digitalt må du melde deg som publikummer på denne lenken:

https://uiano.zoom.us/meeting/register/u5Mvde2srzMuH9bdy4J6YHLLVJtk5wEvWmeM

Du får en Zoom-lenke i retur. (Her er framgangsmåten for å bruke Zoom: support.zoom.us om du ikke kommer inn ved å klikke på lenken.)

Vi ber det digitale publikum om å ankomme digitalt tidligst ti minutter før oppgitt tid - det vil si til prøveforelesningen 10:05 og disputasen tidligst 12:05. Etter disse klokkeslettene kan du når som helst forlate og komme inn igjen i disputasen. Videre ber vi om at publikum slår av mikrofon og kamera, og har dette avslått under hele arrangementet. Det gjør du nederst til venstre i bildet når du er i Zoom. Vi anbefaler å velge «Speaker view». Dette velger du oppe til høyre i bildet når du er i Zoom.

Opponent ex auditorio:

Disputasleder inviterer til spørsmål ex auditorio i innledningen i disputasen, med tidsfrister. Det er en forutsetning at opponenten har lest avhandlingen. Disputasleders e-post er tilgjengelig i chat-funksjonen under disputasen. Spørsmål om ex auditorio kan sendes til disputasleder hristian Omlin på e-post christian.omlin@uia.no