Waarschijnlijk was ik de meest zuidelijke deelnemer: getipt door mijn daar werkende zus nam ik afgelopen donderdag deel aan het lab ‘Tekstanalyse’ van Datafryslân. DataFryslân is een community van 700 Friese dataprofessionals die zich tot doel hebben gesteld om datagedreven werken in Friesland te versterken.
Ik vond het een bijzonder geslaagd lab. Het zat professioneel in elkaar met een instructie op YouTube en overlegmogelijkheden via Slack. Er stond een R-script klaar dat iedereen kon doorlopen en daarna als basis gebruiken om mee verder te gaan. Je las een dataset in met reviews van toeristische accommodaties in Friesland. Deze werd dan eerst bruikbaarder gemaakt (alles naar kleine letters, leestekens en stopwoorden eruitfilteren) en vervolgens werden er analyses op losgelaten.
Verschillende visualisaties (staafdiagram, wordcloud) lieten zien welke woorden het vaakst voorkwamen. Daarna gingen we aan de slag met reeksen woorden (N-grams) en woordcorrelaties, die zich mooi lieten visualiseren in een graaf. Tenslotte werden positieve en negatieve reviews van elkaar gescheiden en werden ze tegen elkaar afgezet.
Erg leuk om hier eens kennis mee te maken. Zoals vaker bij dit soort labs vloog de tijd voorbij en waren we aan het eind nog lang niet uitgespeeld. We gingen uiteen met allerlei ideeën om tekstanalyse in te zetten in ons werk en/of in de hobbysfeer. Veel dank aan Datafryslân voor het organiseren. Nieuwsgierig? Het materiaal staat online.