Bearbeiding av innsamlede data

Forskningsprosjektet ESIT (Elevspråk i transitt), under ledelse av Kristine Hasund ved Institutt for fremmedspråk og oversetting, er kort fortalt et prosjekt som ser på norske elevers skriftlige språkutvikling i engelsk, spansk, tysk, og fransk.

I et tidligere blogginnlegg har vi skrevet mer om ESIT og hvordan det var for oss studentassistenter å være med i oppstarten av dette forskningsprosjektet. Gjennom den omfattende startprosessen med å samle inn og håndtere data lærte vi å hente, lagre og håndtere tekster, spørreskjemaer og samtykkeskjemaer. Vi snakket også mye om taushetsplikt og viktigheten av å ivareta hver enkelt elev sin anonymitet.

Ettersom vi etter hvert lyktes med å samle inn nok data og prosjektet gikk sin gang, stod nye utfordringer for tur. All data vi hadde samlet inn skulle nå bearbeides og klargjøres for datasystemet Vespa som tilslutt skal gi oss et korpus, en stor samling tekster. For at korpuset skal kunne brukes av for eksempel forskere som ønsker å undersøke hvordan ungdom utvikler språkferdigheter over tid, må bearbeidingen skje feilfritt. På samme måte som vi ble kurset i å samle inn data, fikk vi også en god innføring i bearbeidingen som består av anonymisering, digitalisering av håndskrevne tekster og lagring.

Etter første kursrunde sitter viktigheten av å ivareta hver enkelt elev sin anonymitet i ryggmargen vår, og vi begynner alltid bearbeidingen med å anonymisere alle tekstene. I tillegg til å fjerne alle personlige opplysninger, må vi erstatte alt som muligens kan spores tilbake til eleven som har skrevet teksten. Vi erstatter for eksempel navn og nummer med koder slik som NAME_PERSON1_F eller NUMBER_PHONE og NUMBER_DATE. Hvis teksten er skrevet via programvare i for eksempel Word, må vi også fjerne spor etter dette. Vi tar oppgaven på alvor, og ofte leser vi tekstene flere ganger for å sørge for at det ikke er noe i teksten som kan identifisere eleven som har skrevet den.

På lavere nivåer skriver elevene ofte tekster for hånd. Noen lærere vil selv kopiere disse og sende dem til oss; i andre tilfeller reiser vi ut til skolen for å gjøre denne jobben. Deretter må vi skrive inn hver elevtekst elektronisk. Teksten skal skrives akkurat slik som eleven har gjort det, selv om den skulle inneholde stavefeil, tegnsettingsfeil eller grammatikkfeil. For oss som gjerne har studert språket vi digitaliserer i flere år, kan det være en utfordring ikke å rette opp i elevenes feil når vi skriver inn tekstene elektronisk. Vi må alltid se over flere ganger og huske på å slå av automatiske retteprogrammer slik at ikke Word retter på ting som skal være feil. Noen ganger kan det også være vanskelig å tyde elevenes håndskrift, men da har vi klare retningslinjer som alle studentassistenter forholder seg til. Hvis det for eksempel er steder der vi ikke kan tolke hva eleven har skrevet setter vi ordet vi tror det kan være i klammeparentes. Det kan for eksempel være vanskelig å se forskjell på «u» og «a» hos en elev, og vi lurer på om han har skrevet «cup» eller har feilstavet ordet som «cap». Da transkriberer vi som følger: He was playing in the [cup]. Deretter må vi også ta for oss papirkopien og ved hjelp av en svart tusj anonymisere, før vi skanner den anonymiserte teksten slik at de som ønsker alltid kan finne tilbake til originalen.

For at ingen data skal gå tapt, må vi hele tiden ha oversikt over hvilke tekster vi jobber med, hva som er anonymisert, hvilke format de forskjellige filene er lagret i og hvor langt vi har kommet i prosessen med én bestemt tekstbunke, elevgruppe eller skole. Derfor må vi lage system av elektroniske mapper og undermapper til å lagre elektroniske utgaver av tekstene i, slik at vi enkelt kan holde styr på hva som kommer fra elever fra de ulike skolene og klassene. Vi bruker samme system som i vårt sikre lagringsområde på Filr, der alle de ferdig bearbeidede tekstene skal lastes opp til slutt, nemlig først skole (navn på skolen) – undermapper for klasser (med navn etter elevnumrene som inngår, for eksempel «P00530–P00567») – undermapper for hvert av trinnene der man har samlet inn tekster fra denne klassen (med klassetrinn som navn) – undermapper for hver oppgave de har svart på (med navn etter oppgavekoden).

Det er, som dere ser, mange brikker som må falle på plass for at korpuset skal bli vellykket. Selv om vi har møtt på mange utfordringer i bearbeidingsprosessen har læringskurven vært bratt. Vi har lært å være tålmodige, grundige, nysgjerrige og pirkete. Vi har lært at vi må prøve og feile, og sammen med andre studentassistenter og ledere av prosjektet har vi klart å finne løsninger på utfordringene vi har møtt på. Nå gleder vi oss til fortsettelsen hvor vi skal lære å kode tekstene vi har bearbeidet, og ikke minst til å se resultatet når korpuset begynner å ta form!