NURSING > Summary > Opgave 4 Analytics 2019 (All)

Opgave 4 Analytics 2019

Document Content and Description Below

Opgave 4 Analytics 2019 Opgave 4 Analytics 2019 Naam student: graag hier invullen Data voor deze opgave: twts.csv (documentatie: twts.txt). Inleveren Inleveren UITSLUITEND via Blackboard. Uiterste datum van inleveren: 24-3-2019. Inleveren UITSLUITEND in formaat .PDF, .DOC of .DOCX. Als je met RStudio werkt kan je de .Rmd file als basis gebruiken. Anders mag je de resultaten in dit document opnemen. Vergeet niet je naam in het document te zetten. Inleiding De opgave gaat over het analyseren van tweets. De vraag is om vast te stellen of een tweet een positieve dan wel een negatieve lading heeft. Bij deze opgave begin je met ruwe data. In de data staan een aantal variabelen die je waarschijnlijk beter niet kan gebruiken. Het kan zij dat een aantal tweets meerdere malen voorkomt. (Misschien is het beter om deze teksten eerst te ontdubbelen, misschien maakt dat ook niet zo veel uit) Het is aan jou om deze data zodanig te behandelen dat je de analyse goed kan uitvoeren. De afhankelijke variabele is “Sentiment”. De vraag is om een zo goed mogelijk CART-tree model te maken om uit de tekst van een tweet op te maken of het een positieve of negatieve lading heeft. De methode (text analytics) is uitgelegd op het college en is ook te vinden in de video’s “Turning Tweets into Knowledge”. Bij deze opgave wordt van je verwacht dat je zelf de juiste stappen zet om tot het gewenste eindresultaat te komen. Probeer zo goed mogelijk uit te leggen WAAROM je bepaalde stappen zet. Vraag 1 Maak een zo optimaal mogelijk CART-tree model om uit de tekst van een tweet het (positieve/negatieve) sentiment te halen. Let op: de Sentiment-variabele heeft DRIE verschillende waarden. Maak hiervan eerst een factor met slechts TWEE categorieen (positief/negatief). (Om te zorgen dat het een factor wordt kan je de functie as.factor gebruiken). Gebruik daarvoor de tekst-analyse methodiek uit het college en/of de video’s. Zorg er ook voor dat je de data splitst in een trainingsset en een testset, zodat je de validatie goed kan uitvoeren. In je antwoorddocument verwacht ik in elk geval: - Alle R-commando’s - Relevant commentaar zodat het duidelijk is wat je doet en waarom je het doet - Alle relevante R-uitvoer (bijvoorbeeld confusion matrices) - Alle relevante R-plots - Niet alleen het opstellen van een model (op basis training data) maar ook validatie van het model (op basis van testdata). Validatie bestaat in elk geval uit confusion matrix + accuracy + sensitivity + specificity en een ROC-curve, plus een argumentatie over hoe goed het model de betreffende data kan voorspellen. - Een goed onderbouwde conclusie -2 / 11 - Opgave 4 Analytics 2019 > setwd("D:/Documents/School/Jaar 2 Periode 3/Analytics") > getwd function () .Internal(getwd()) > tweets <- read.csv("twts.csv", stringsAsFactors=FALSE) stringsAsFactors moet op false, zodat de tekst goed kan worden verwerkt. > str(tweets) 'data.frame': 498 obs. of 6 variables: $ Sentiment: int 4 4 4 4 4 4 0 4 4 4 ... $ ID : int 3 4 5 6 7 8 9 10 11 12 ... $ Date : chr "Mon May 11 03:17:40 UTC 2009" "Mon May 11 03:18:03 UTC 2009" "Mon May 11 03:18:54 UTC 2009" "Mon May 11 03:19:04 UTC 2009" ... $ Query : chr "kindle2" "kindle2

[Show More]

Last updated: 3 years ago

Preview 1 out of 11 pages

Buy Now

Instant download