Banebrydende forskning om, hvad det er, hun sagde

Den overraskende effektivitet og levetid for den nu legendariske det var det hun sagde joke, for nylig populær igen ved hjælp af Kontoret , har gjort mere end at give millioner et knæspids svar på afslappet samtale. Det har nu nået et nyt niveau af social betydning ved at inspirere seriøs sproglig forskning. Det kommer i form af et forskningsoplæg kaldet Det er hvad hun sagde: Identifikation af dobbelt entender , forfattet af to datalogstuderende, Chloe kiddon og Yuriy Brun .

I deres papir skitserer parret deres oprettelse af Dobbelt entender via navneoverførsel eller DEviaNT tilgang, der automatisk identificerer, det er, hvad hun sagde (TWSS) vittigheder. De kalder deres tilgang metaforisk analyse, der bærer en dobbeltbetydning helt egen, og er baseret på at veje bestemte ord som mere sexede end andre. Holdet vejede flere sexede substantiver og verb, og kørte derefter deres algoritme.

I deres forskning afslørede parret også nogle interessante regler for TWSS-vittigheder. For eksempel risikoen for at påberåbe sig en TWSS-joke forkert. Fra deres undersøgelse:

For eksempel i sociale omgivelser er omkostningerne ved at sige, at det er, hvad hun sagde uhensigtsmæssigt høje, mens omkostningerne ved ikke at sige det, når det måske har været passende, er ubetydelige.

For at løse dette og for at producere bedre resultater anvendte holdet en læringsalgoritme. Blandt andet satte dette skabelsen af ​​falske positive 100 gange højere end falske negativer.

Efter at have kørt DEviaNT gennem en række præidentificerede TWSS joke-materiale og tilfældigt tilbud. I deres test brugte de 1,5 erotiske sætninger og 57.000 ikke-erotiske sætninger. Holdet siger, at de opnåede en succesrate på over 71,4%. Selvom det måske ikke virker som meget, siger holdet, at de med et større datasæt ville forvente resultater tættere på 99,5%. Derudover returnerede DEviaNT nogle interessante resultater. Igen fra undersøgelsen:

DEviaNT returnerede 28 sådanne sætninger (alt sammen bundet til sandsynligvis en TWSS), hvoraf 20 er sande positive. Imidlertid er 2 af de 8 falske positive faktisk TWSS'er (på trods af at de kommer fra de negative testdata): Ja, giv mig al cremen, og han er væk. og ja, men hans hul lugter virkelig nogle gange.

Nogle kan forringe denne forskning og kalde det simpelthen en lærke og af ringe værdi. Dette ville være et lavt slagangreb, da selv forskerne beskriver deres arbejde som et hårdt naturligt sprogforståelsesproblem. (Det var det hun sagde.)

( Ny videnskabsmand via Escapisten )