Opgave 4 Analytics 2019
Opgave 4 Analytics 2019
Naam student: graag hier invullen
Data voor deze opgave: twts.csv (documentatie: twts.txt).
Inleveren
Inleveren UITSLUITEND via Blackboard. Uiterste datum van inlevere
...
Opgave 4 Analytics 2019
Opgave 4 Analytics 2019
Naam student: graag hier invullen
Data voor deze opgave: twts.csv (documentatie: twts.txt).
Inleveren
Inleveren UITSLUITEND via Blackboard. Uiterste datum van inleveren: 24-3-2019. Inleveren UITSLUITEND in formaat .PDF, .DOC of .DOCX.
Als je met RStudio werkt kan je de .Rmd file als basis gebruiken. Anders mag je de resultaten in dit document opnemen. Vergeet niet je naam in het document te zetten.
Inleiding
De opgave gaat over het analyseren van tweets. De vraag is om vast te stellen of een tweet een positieve dan wel een negatieve lading heeft.
Bij deze opgave begin je met ruwe data. In de data staan een aantal variabelen die je waarschijnlijk beter niet kan gebruiken. Het kan zij dat een aantal tweets meerdere malen voorkomt. (Misschien is het beter om deze teksten eerst te ontdubbelen, misschien maakt dat ook niet zo veel uit) Het is aan jou om deze data zodanig te behandelen dat je de analyse goed kan uitvoeren. De afhankelijke variabele is “Sentiment”.
De vraag is om een zo goed mogelijk CART-tree model te maken om uit de tekst van een tweet op te maken of het een positieve of negatieve lading heeft. De methode (text analytics) is uitgelegd op het college en is ook te vinden in de video’s “Turning Tweets into Knowledge”.
Bij deze opgave wordt van je verwacht dat je zelf de juiste stappen zet om tot het gewenste eindresultaat te komen. Probeer zo goed mogelijk uit te leggen WAAROM je bepaalde stappen zet.
Vraag 1
Maak een zo optimaal mogelijk CART-tree model om uit de tekst van een tweet het (positieve/negatieve) sentiment te halen.
Let op: de Sentiment-variabele heeft DRIE verschillende waarden. Maak hiervan eerst een factor met slechts TWEE categorieen (positief/negatief). (Om te zorgen dat het een factor wordt kan je de functie as.factor gebruiken).
Gebruik daarvoor de tekst-analyse methodiek uit het college en/of de video’s. Zorg er ook voor dat je de data splitst in een trainingsset en een testset, zodat je de validatie goed kan uitvoeren.
In je antwoorddocument verwacht ik in elk geval:
- Alle R-commando’s
- Relevant commentaar zodat het duidelijk is wat je doet en waarom je het doet
- Alle relevante R-uitvoer (bijvoorbeeld confusion matrices)
- Alle relevante R-plots
- Niet alleen het opstellen van een model (op basis training data) maar ook validatie van het model (op basis van testdata). Validatie bestaat in elk geval uit confusion matrix + accuracy + sensitivity + specificity en een ROC-curve, plus een argumentatie over hoe goed het model de betreffende data kan voorspellen.
- Een goed onderbouwde conclusie
-2 / 11 -
Opgave 4 Analytics 2019
> setwd("D:/Documents/School/Jaar 2 Periode 3/Analytics")
> getwd function ()
.Internal(getwd())
> tweets <- read.csv("twts.csv", stringsAsFactors=FALSE) stringsAsFactors moet op false, zodat de tekst goed kan worden verwerkt.
> str(tweets)
'data.frame': 498 obs. of 6 variables:
$ Sentiment: int 4 4 4 4 4 4 0 4 4 4 ...
$ ID : int 3 4 5 6 7 8 9 10 11 12 ...
$ Date : chr "Mon May 11 03:17:40 UTC 2009" "Mon May 11 03:18:03 UTC 2009" "Mon May
11 03:18:54 UTC 2009" "Mon May 11 03:19:04 UTC 2009" ...
$ Query : chr "kindle2" "kindle2
[Show More]