Met een computer literaire kwaliteit onderzoeken is niet zo gek als het lijkt

Deze post begin ik met een citaat. Lees het even rustig.

“Stilletjes en dreigend komen ze op me af (net Pinkerton-detectives) en gaan aan weerszijden van me staan – Depressie links van me, Eenzaamheid rechts. Ze hoeven me niet hun insignes te laten zien. Ik ken ze al langer dan vandaag , deze mannen. We spelen al jaren kat en muis. Al geef ik toe dat het me verbaast hen hier in de schemering in deze prachtig aangelegde Italiaanse tuin tegen te komen. Dit is niet bepaald hun natuurlijke omgeving.
Ik zeg tegen hen: ‘Hoe hebben jullie me hier gevonden? Van wie hebben jullie gehoord dat ik in Rome zat?’
Depressie, nogal een bijdehand type, zegt: ‘Wat, ben je niet blij om ons te zien?’
‘Ga weg,’ zeg ik tegen hem.
Eenzaamheid, een agent van het iets gevoeliger type, zegt: ‘Het spijt me, mevrouw, maar misschien moet ik u wel uw hele reis lang in de gaten blijven houden. Dat is nu eenmaal mijn opdracht.’
‘Daar ben ik niet zo blij mee,’ zeg ik.
Hij haalt bijna verontschuldigend zijn schouders op, maar komt alleen maar dichter bij me staan. Dan fouilleren ze me. Ze halen alle vreugde die ik bij me had uit mijn zakken.”

Best een mooie tekst? Misschien wel literair? Literaire kwaliteit is een van de onderwerpen waar ik me mee bezig houd. Wat vinden lezers literair en wat vinden ze mooi? En waarom vinden ze dat? En kun je (deels) aan de tekst zien waarom deze slechter beoordeeld wordt? Dat laatste is het lastigste, maar ik zal laten zien met deze post waarom ik denk dat dat wel kan. Ik doe dat – eerst als promovendus, nu als postdoc – in het project The Riddle of Literary Quality.

Om erachter te komen wat lezers literair vinden, zette The Riddle in 2013 het Nationale Lezersonderzoek uit, waarin we alle lezers van fictie opriepen om ons te vertellen wat zij nu verstaan onder ‘literaire kwaliteit’. We boden een lijst van 401 romans aan en vroegen: welke heeft u gelezen en hoe zou u deze beoordelen op een schaal van literaire kwaliteit? Eén is helemaal niet literair, zeven is zeer literair. Daar kwam veel bijzonders uit. Onverwachte resultaten, bijvoorbeeld dat romans door vrouwen veel slechter scoren dan die door mannen. (Dat is de reden dat ik uiteindelijk mijn proefschrift over de relatie tussen auteursgender en literaire kwaliteit ging schrijven.) Maar ook verwachte uitkomsten: Vijftig Tinten Grijs scoorde het slechtst. Deze blogpost gaat echter over een andere roman die het niet zo best deed, namelijk Elizabeth Gilberts Eat, Pray, Love; in het Nederlands vertaald als Eten, bidden, beminnen. Het citaat hierboven komt uit dat boek. De casus van deze roman laat namelijk goed zien dat je best zinnige dingen kunt zeggen over de relatie tussen tekst en beoordeelde literaire kwaliteit.

 

De literaire beoordeling

Eten, bidden, beminnen kreeg in ons onderzoek een gemiddelde score van 3,5 op een schaal van 1-7. Dat lijkt misschien niet zo slecht, maar mensen gaven over het algemeen niet zulke lage scores. Dus belandde het daarmee in het onderste kwart van de boeken. Haantjes van Kluun en Bella Italia van Suzanne Vermeer kregen dezelfde gemiddelde score. Julian Barnes’ Alsof het voorbij is had het hoogste gemiddelde, een 6,6. Vijftig tinten grijs van E.L. James was de laagste met een 2,1.

Maar waarom kreeg het een relatief lage score? Gelukkig hebben we daar wat inzicht in. De mensen die meededen aan het onderzoek, mochten namelijk ook van één roman motiveren waarom ze een bepaalde score gaven. Ze mochten de beoordeelde roman niet zelf kiezen, die werd toegewezen. Dus in dit geval was de vraag ongeveer: waarom vind je Eten, bidden, beminnen zo (weinig) literair? De eerste respondent vindt zowel de inhoud als de stijl niets bijzonders:

“Het is niets meer en niets minder dan de belevenissen van een vrouw op zoek naar zichzelf. Geen bijzondere woordkeus, uitgesproken sfeer of diepere lagen. Het is gewoon wat het is.”

Dan iemand die het woord ‘vrouwenboek’ in de mond neemt; het boek is namelijk niet moeilijk genoeg, je hoeft er niet bij na te denken, dus een vrouwenboek:

“Ik vind het boek meer een tussendoortje, een echt vrouwenboek, niet geschikt voor alle mensen die van literatuur houden. Bij literatuur denk ik meer aan Harry Mulisch: moeilijke woorden, dikke boeken waar je bij na moet denken en dat vind ik van dit boek niet. Hoewel ik het een leuk boek vond!”

Iemand die vooral de stijl niet waardeert:

“Ik ben niet ver gekomen, want vond het verschrikkelijk. Niets aan dit boek sprak me aan. Vooral niet hoe het was geschreven. Geen mooie zin te bekennen.”

Ik vond het opmerkelijk dat er soms agressie uit de reacties leek te spreken, of in elk geval een sterke emotie, zoals bij het laatste voorbeeld, van een respondent die het een wel heel vervelende roman lijkt te vinden:

“Dit boek is niet meer dan een klaagzang van een vrouw in haar midlife crisis. Wat een zeikwijf is die Elizabeth zeg.”

Motivaties die veelvuldig voorkomen bij lage scores van deze roman zijn: geen diepgang, geen lagen, een egodocument, niet verrassend, geen bijzonder taalgebruik. Omdat de reacties vaak vrij uitgesproken zijn, vroeg ik me af in hoeverre de tekst zelf er iets mee te maken heeft en in hoeverre het gaat om vooroordelen (ik schreef al eerder over de inhoudsloosheid van het woord ‘vrouwenboek’). Nu kan ik dit uiteraard niet precies vaststellen, maar ik kan er wel elementen van onderzoeken. Dus dat heb ik gedaan.

 

Eerste test(je): fragment beoordelen

Eerst deed ik dat informeel. Tijdens een digital humanities-bijeenkomst deden collega Andreas van Cranenburgh en ik een klein onderzoekje. Wij vroegen mensen of ze een paar citaten wilden lezen. We zeiden er niet bij uit welke romans ze geselecteerd waren. Dan lieten we ze raden of dat citaat uit een hoog- of laagbeoordeelde roman kwam — gebaseerd op de resultaten van ons onderzoek. De deelnemers aan ons testje waren het niet heel erg eens over de meeste citaten, maar het citaat van Gilbert, een iets langere versie van het citaat hierboven, werd unaniem geacht uit een hoog beoordeelde roman te komen. Geen ‘objectief’ bewijs, want er deden maar zeven mensen mee, maar wel interessant; het is een aanwijzing dat de stijl an sich mogelijk niet de oorzaak is voor de lage score.

 

Tweede test: computervoorspelling van de score

De tweede stap volgde. Andreas schreef zijn proefschrift Rich Statistical Parsing and Literary Language (pdf) over de relatie tussen de teksten van de romans en de gemiddelde beoordelingen. Zijn conclusie is dat er een correlatie is tussen de tekstkenmerken van de romans en de beoordeling van die romans. De computer kan namelijk op basis van de tekst met redelijk hoge zekerheid voorspellen wat de gemiddelde score voor de roman ongeveer was. Daar kun je geen oorzakelijk verband mee bewijzen, maar het is zeker goed aannemelijk te maken dat tekstkenmerken mede de oordelen beïnvloeden. De analyses beslaan zowel woordkeus als zinsbouw; één voorbeeld is zinslengte. Langere zinnen correleren met hogere scores. Een tweede voorbeeld is het voorkomen van bepaalde woordparen (pdf): ‘mobiele telefoon’ is meer typisch voor romans met een lage score, ‘de oorlog’ voor romans met een hoge score. Los doen deze elementen niet altijd veel, maar opgeteld kunnen ze aardig de gemiddelde scoren voorspellen. Hoewel je lang niet alle kenmerken van een roman kunt vangen met dergelijke analyses, zijn de scores dus niet random; en de computer doet het zeer aardig.

Toch zijn er afwijkers, romans die veel hoger of lager voorspeld worden door de computer dan de gemiddelde score daadwerkelijk was. Barnes’ roman – die het jaar ervoor de prestigieuze Man Booker Prize had gewonnen – had volgens de computer ongeveer een 5,4 moeten hebben, niet een 6,6. En Gilberts roman leek volgens de computer meer op een 4,7 en niet op een 3,5. Met andere woorden: op basis van eenvoudige tekstkenmerken berekende de computer dat de roman eigenlijk hoger had moeten scoren. Maar wat betekent dat?

 

Derde test: computeranalyse van de stijl

Om dat te onderzoeken heb ik vervolgens de tekst van de roman vergeleken met die van andere romans uit de lijst (‘het corpus’). Dat deed ik met een beproefde techniek uit de stylometrie, heel grofweg een complexe vorm van woorden tellen. De techniek wordt met name gebruikt voor auteursherkenning en is daar meermaals succesvol toegepast. Met deze methode is Elena Ferrante pas nogmaals ontmaskerd door collega Jan Rybicki. De computer telt de vaakst voorkomende woorden in een tekst. Dat zijn natuurlijk functiewoorden, zoals ‘de’, ‘een’, ‘in’, ‘op’, etc. Op basis van de aanwezigheid van alleen deze woorden berekent de computer de waarschijnlijkheid dat persoon A de auteur van tekst B is. De gedachte erachter is dat auteurs dergelijke woorden minder bewust manipuleren dan inhoudswoorden zoals zelfstandige naamwoorden. Daarom laten ze met het gebruik van functiewoorden een duidelijke vingerafdruk achter, een eigen stijl. De techniek is intussen ook meermaals succesvol gebruikt voor genreherkenning. Stilistische verwantschap is dus te traceren met deze methode.

Dus welke verwantschap heeft Gilberts roman? Ik maakte een selectie van de hoogst scorende romans binnen het ‘literaire’ genre van ons corpus, 12 door vrouwelijke en 12 door mannelijke auteurs. Daarnaast selecteerde ik de 12 laagst scorende romans in het genre ‘romantiek’. Dat zijn vooral chicklitromans, de zogenaamde ‘vrouwenboeken’ waar Gilberts roman ook mee vergeleken werd. Voor al deze groepen koos ik 10 romans die vertaald waren uit het Engels en 2 van Nederlandse auteurs. Aan deze 36 romans heb ik Gilberts roman toegevoegd, zodat ik kan zien op welke romans de hare het meest lijkt. Dan krijg je dit:

Graaf van de stilistische verwantschap van romans met zes groepen. Chicklit clustert vaak bij elkaar, en literaire romans ook, maar Gilbert valt onder de literaire romans.
Netwerk van verwantschap van romans. De literaire romans door vrouwen beginnen met LF_, die van mannen met LM_ en de chicklit- of romantische romans met C_. Gilbert valt in het donkergroene cluster linksboven. De dikte van de ljinen geeft de sterkte van de verbinding aan, de kleuren geven aan welke groeperingen de computer heeft berekend op basis van die verbindingen.

 

Je vindt Eten, bidden, beminnen in het donkergroene cluster, samen met drie literaire romans door mannelijke auteurs. Gilberts stilistische verwantschap is dus het sterkste met drie hoog scorende literaire romans door mannelijke auteurs. Het sterkste met Yaloms Het Raadsel Spinoza, dat in het onderzoek een 5,6 gemiddeld kreeg, maar in hetzelfde cluster vind je ook de prijswinnende roman van Julian Barnes (6,6) en In een mens van Irving (5,9). Een zwakkere relatie vind de computer met Fragoso’s Tijger, Tijger, Cleave’s Kleine bij, Stocketts Een keukenmeidenroman en Kinsella’s Shopaholic baby. Barnes heeft overigens ook een zwakke link met onder andere Weisbergers Chanel Chic.

Dat Gilbert tussen de mannelijke literaire auteurs belandt kan natuurlijk met de vertaling te maken hebben; het is mogelijk dat de oorspronkelijke romans onderling meer afwijken. Aan de andere kant: ik doe dit om te kijken wat de relatie tussen tekst en beoordeling in ons onderzoek is. De beoordelaars van de romans uit ons onderzoek hebben mogelijk juist die Nederlandstalige vertalingen gelezen. Hun oordelen kunnen dus op basis van de vertalingen geweest zijn — en dan toch kwamen ze op hele andere scores voor de romans uit. Omdat we niet helemaal zeker weten welke versie de respondenten lazen, de Engelstalige of de Nederlandse, kunnen we dus niet met zekerheid vaststellen wat er aan de hand is. Daarvoor is nog een analyse van de oorspronkelijke teksten nodig. Toch blijft het opmerkelijk dat het gat tussen de gemiddelde scores van de literaire romans door mannelijke auteurs en die van Gilbert zo groot is qua beoordeling, terwijl ze stilitisch, in elk geval in vertaling, op elkaar lijken.

 

Dus?

Op basis van eenvoudige tekstkenmerken en stilistische vingerafdruk is de relatief lage score voor Eten, bidden, beminnen niet goed te verklaren. Wat deze computeranalyses echter niet meenemen, is de plot. In de roman gaat een vrouw na een relatiebreuk op zoek naar meer inzicht in zichzelf en eindigt inderdaad met dergelijke inzichten én een nieuwe relatie. Dat lijkt op de beproefde formule van chicklit en bouquettreeksromans. Hoewel de roman stilistisch dus geen sterke relatie heeft met dergelijke romans, kunnen respondenten dat wel als aanknopingspunt gebruiken om Gilberts roman als ‘vrouwenboek’ neer te zetten. Een van de respondent merkte iets dergelijks op:

“was soepel, niet slecht geschreven, maar verhaal van groter belang dan de schrijfstijl”

Met andere woorden: wat lezers onder literaire kwaliteit verstaan, is niet te vangen in slechts stijl, het heeft ook met het verhaal te maken. Dit betekent echter niet noodzakelijk dat we niet met vooroordelen te maken hebben. Dat juist de schrijfstijl van deze roman door veel respondenten als matig beoordeeld wordt, is vreemd gezien deze resultaten. Haar schrijfstijl is (in de vertaling) immers verwant aan die van auteurs waar respondenten wel hoog van opgeven. Dat kan dus een indicatie zijn dat hier wel degelijk vooroordelen aan het werk zijn.

Aan de andere kant: mogelijk werkt een hoog literair ogende stijl in combinatie met een laag literair aandoende plotlijn juist ergerlijk. Dat is aan de ene kant begrijpelijk, maar dan vraag ik me toch weer af waarom zulke onderwerpen ‘terecht’ als laag literair gezien worden. Want is er inherent iets mis met een identiteitscrisis als onderwerp? Of is dat alleen problematisch als het een vrouw is die die crisis heeft? Of is het het happy end? Is dat onliterair? En waarom dan eigenlijk? Wordt vervolgd dus.

 

Slot: waarom de computer?

Wat is er nu zo bijzonder aan deze analyse? Op basis van het lezen van de roman was je mogelijk tot ongeveer dezelfde conclusie gekomen. En deze analyses zijn nog steeds geen keihard ‘bewijs’ – ik zou veel meer romans moeten onderzoeken om de vergelijking degelijker te maken. Toch was een mogelijke stilistische verwantschap met Yalom en Barnes waarschijnlijk niet als eerste in het oog gesprongen. Ook laat de afwijking van de beoordelingen ten opzichte van de daadwerkelijke tekst zien hoe het kan dat literaire kwaliteit traceren is naar tekstkenmerken, maar tegelijk ook een sociale constructie is. Laat me dat uitleggen. Literaire kwaliteit is gebaseerd op een consensus. We hebben een soort ‘afspraak’ wat literaire kwaliteit inhoudt – ook al is dat tijd- en plaatsgebonden. Dus kan de computer over het algemeen goede voorspellingen maken op basis van de tekst, wat niet zou kunnen als de relatie tussen oordeel en de tekst volledig arbitrair was. Maar bij een geval als Eten, bidden, beminnen werkt het dan weer minder goed – en ik laat met deze analyses zien dat het zeer waarschijnlijk is dat dat door vooroordelen over de literaire kwaliteit van een bepaalde plot komt. Met andere woorden: de computeranalyses, gecombineerd met de uitkomsten van het Nationale Lezersonderzoek, laten niet zien wat literaire kwaliteit is, het geeft ons meer inzicht in wat perceptie van literaire kwaliteit inhoudt.

Leave a Reply

Your email address will not be published. Required fields are marked *