Categories
2020

Natural Language Processing får sin rette plads

Af Claus Ladefoged
Digital Udviklingschef for TV2 Regionerne

Hold dig opdateret på Mediernes Fremtid:




Med fuld bevidsthed om at gentage 2016, 2017, 2018 og 2019 forudsigelser, og med en klar risiko for at jeg ser naiv ud i 2021, så tror og håber jeg på at 2020 bliver året hvor Natural Language Processing får sin rette plads i det danske medielandskab.

For en god ordens skyld, så er Natural Language Processing (NLP) kort sagt systematisering af tekst, således at programmering kan forstå indholdet af eksempelvis artikler. Dette kan anvendes i mange sammenhænge, og for vores vedkommende hos TV2 Regionerne ønsker vi at anvende det til personificering af indhold, hvilket vi næppe er de eneste som overvejer.

Min intention ved at skrive denne artikel, er for at give et opråb om at vi (næsten) er teknologisk moden til NLP i Danmark, og om ikke vi skal samarbejde på tværs af medievirksomheder om at udvikle dansk NLP – vi har jo stort set samme behov ved netop
dette område.

I min ydmyge optik, og jeg kan meget vel tage fejl og have overset større barrierer, er der følgende som tidligere har holdt NLP tilbage fra større anvendelse i de danske medier, og som jeg bilder mig selv ind er ved at være overkommet, hvorfor jeg tror på fremdriften i 2020.

I min ydmyge optik, og jeg kan meget vel tage fejl og have overset større barrierer, er der
følgende som tidligere har holdt NLP tilbage fra større anvendelse i de danske medier, og
som jeg bilder mig selv ind er ved at være overkommet, hvorfor jeg tror på fremdriften i
2020.

I min ydmyge optik, og jeg kan meget vel tage fejl og have overset større barrierer, er der følgende som tidligere har holdt NLP tilbage fra større anvendelse i de danske medier, og som jeg bilder mig selv ind er ved at være overkommet, hvorfor jeg tror på fremdriften i 2020.

Frygt

NLP er machine learning, og derfor må det jo være kompliceret? Og er det kompliceret kræver det stort tilløb, og formentlig også en stor pengepung? Det tror jeg dog de fleste efterhånden via eksperimentering har fundet ud af langt fra er tilfældet. Der findes en lang række open source moduler som kan strikkes sammen og anvendes efter behov, det største arbejde er i stedet i manuel tilpasning af modulernes forståelse af det anvendte sprog. Har man ikke allerede eksperimenteret, så gør det, man kan blive bidt af det.

Infrastruktur

Man skal være gearet til det. Eksempelvis skal vi hos TV2 Regionerne have samlet vores artikler, og tilbyde et sted hvor NLP-modulerne kan stikke snablen ned og returnere noget brugbart, samt tage dette i anvendelse. Hos de fleste medievirksomheder vil
infrastrukturen formentlig skulle optimeres, eller måske er der andre udviklingsprojekter som overskygger NLP udvikling, men forhåbentlig er vejen ved at være banet.

Synlighed

Lad os være ærlige, mange beslutningstagere vælger udviklingsprojekter som viser tydelig fremdrift, og nedprioritere egentlig vigtige projekter fordi udviklingen ikke er synlig. Man kan godt lancere velfungerende NLP-teknologi uden nogen bider mærke i det, mens et nyt funklende videounivers giver masser af kredit og opmærksomhed. Gudskelov kan vi skelne til udenlandske medier som anvender NLP, og som kan bevise synlig forskel i KPI-arket.

Prioritering af indhold

Der er en klar fare for at machine learning kan tage overhånd, og der skal absolut være en redaktion som fremhæver indhold uden om det automatiserede anbefalede indhold. Der er gudskelov stort fokus på at holde en klar redaktionel linje, og nogle har allerede brændt sig og delt deres lektioner.

Kvalitet

Arbejder man med NLP vil man kunne finde frem til hvor korrekt ens NLP-modul er. Eksempelvis kan en sentiment analyse af modulet være 87% korrekt eller 91% korrekt,og misforstå det resterende. Det lyder godt at sige at modulet i 91% af tilfældene er spot-on, men vi kan vel godt acceptere 4% færre træffere, og så iterativt arbejde os op, det tror jeg på vi er blevet agile nok til acceptere.

Dansk korpus

Den helt store barriere for NLP i Danmark er vores kryptiske nordgermanske sprog, som jo egentlig forståeligt nok, især for en midtjyde som undertegnede, er svært for en computer at forstå. Men her sker der for alvor noget lige nu:

Ønsker man at anvende NLP til eksempelvis engelske tekster er man godt stillet, her findes der moduler som er optrænet og forstår engelsk, og så er det blot at koble NLP-moduler på, og så har man et NLP setup. Det er også forsøgt at lave korpusser som forstår dansk, og det kan være jeg tager fejl, men uden kontekst nok til at modulet kunne oplæres tilstrækkeligt til at forstå sproget i en brugbar form. Det er fundamentalt nødvendigt at systemet forstår dansk for at vi kan anvende alle de sexede NLP-moduler, som er frit til rådighed på markedet.

Gudskelov for os i mediebranchen har ITU, og bestemt også andre, smøget ærmerne op og taget sagen i egen hånd, og er i gang med at udvikle et brugbart dansk korpus. Hos ITU går projektet under navnet Gigaword, og jeg er stolt over at kunne sige at TV2 Regionerne er en del af projektet.

Korpuset har som intention at indeholde minimum 1 milliard danske ord i kontekst, som skal danne et netværk af det danske sprog, som korpuset dermed kan forstå. Det er tidligere anvendt at danne et netværk af ord baseret på Wikipedia, lovtekster osv., men hos TV2 Regionerne har vi et stort arkiv af lokalt forankrede nyheder som i den grad kan berige korpusets forståelse af dansk.

Det er sådanne projekter der i al beskeden skal til for at Danmark kan følge med andre lande omkring NLP – selv Island er mere fremme i skoene i dag end Danmark, no offence Island, men så alligevel.

Lad os samarbejde

Hvorfor opfordrer og håber jeg så på samarbejde omkring NLP på tværs af medier i Danmark i 2020?

Først og fremmest forsøger vi at opnå det samme mange steder, så hvorfor ikke hjælpes ad, frem for at bruge virksomhedens eller skatteydernes penge på det? Og mon ikke slutresultatet bliver bedre hvis vi arbejder mange kompetencer sammen om det, hvilket i sidste ende er til gavn for den kære læser?

Dertil er det for en sjælden gang skyld et teknisk område som er let at arbejde sammen om. Normal vis er teknik ikke let at samarbejde om på tværs af medier da vores setup ikke er identisk, men NLP fungere i selvstændige moduler, som herefter blot kan tweakes efter eget behov.

Personligt har jeg selv arbejdet i Jupyter Notebook hvori man simpelt kan udvikle diverse NLP-moduler skrevet i eksempelvis Python. Skriv koden til NLP-modulet deri, og del din notebook med andre, og lad dem berige modulet. Jeg synes det er oplagt.

NLP er udbredt i danske e-commerce forretninger som arbejder med engelsktalendekunder. Jeg har personligt selv været med til at udvikle et NLP-modul som analyserede brugeres holdning omkring produkter baseret på deres kommentarer, hvilket blot tog tre måneder at udvikle for to (meget dygtige) udviklere, og som i den grad gavnede virksomheden. Nu synes jeg tiden er kommet til den danske mediebranche også.

Jeg er fuldt ud klar over at der er mange andre ambitiøse initiativer kørende omkring NLP i Danmark end de enkeltstående tilfælde jeg har nævnt her, eksempelvis danlp.alexandra.dk, jeg håber blot min opfordring er klar, og det er at vi hos TV2 Regionerne er klar til samarbejde – tøv ikke med at kontakte mig hvis vi skal tage en
uforpligtende sort kop kaffe, og gøre NLP til en brugbar størrelse i 2020(/21).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *