Venneapplikationer - Data Mining

Data mining er en proces, hvor man ved at analysere data eller databaser forsøger at finde nye mønstre, der viser ukendte sammenhænge eller muligheder for brug af data på nye måder. Man leder altså efter relationer, der ikke blev gennemskuet eller beskrevet, da man modellerede databasen. Data mining har fået stor opmærksomhed de senere år, hvor det er blevet klart, at der kan hentes mange nye oplysninger i brugerdabataser der tilmed kan være yderst værdifulde.

I venneapplikationer, vil der eksempelvis kunne afdækkes mange informationer brugeren ikke har anført direkte, - helt fra hvilket politisk parti denne sandsynligvis stemmer på, og til personens yndlingshjemmeside. Disse data kan igen kombineres til viden om, hvilke vælgertyper man kan nå på hvilke hjemmesider.

Data mining foregår via udtræk og sammenligning af data i store databaser, men selv i mindre logfiler eller i de oplysninger der er gemt i computerens browser kan man finde frem til overraskende mange ting om en bruger. Processen består i at komme på idéer til, hvad man kan lede efter. Dernæst skal man beskrive en algoritme for, hvordan man kan lede efter det, og implementere det i script. Endelig skal resultatet vurderes og fortolkes.

facebook-netvaerksbillede-jsb.jpg
Visualisering af facebooknetvæk via myfnetwork

Seks teknikker til data mining

Anomali-analyse: Afdækning af anderledes data, som kan være: hidtil ukendt brug; nye sammenhænge; fejl, der skal rettes. - Brugere uden venner er f. eks. en markant anomali i en venneapplikation, men kan skyldes, at kun bruger den til at følge et band som f.eks. Phlake - en brug som kunne udbygges.

Associationsanalyse: Afdækning af ukendte sammenhænge i databasen. Der kunne f.eks. vise sig en sammenhæng mellem brugere, Phlake og et bestemt tøjmærke

Gruppe-analyse: Afdækning af grupper af ens data i databasen, som ellers ikke har forbindelse med hinanden. Gruppen af Phlake-fans kunne have flere fællestræk end Phlake & tøj

Regression: Præcisering af de observerede sammenhænge , så beskrivelsen dækker bedst muligt. F.eks. en afgrænsning og præcisering af, hvad der er ens for en Phlake-gruppen: alder, uddannelse…

Klassifikation: Brug af kendte sammenhænge fra forrige analyser til at beskrive ny data. Her tilknyttes Phlake-gruppen nye brugere med samme alder, uddannelse og tøjsmag.

Summering: Opsamling og beskrivelse af resultater i f.eks. rapporter, diagrammer m.m.

Opgave: Kategorisering via Facebook-likes

Læs Ingeniørens artikel Ny algoritme sætter dig i bås efter dine Facebook-likes. Brug kategorierne ovenfor til at svare på spørgsmålene:
1) Er alle teknikker brugt?
2) Hvordan bruges de enkelte teknikker?
3) Er der gjort brug af nye teknikker, som ikke står i listen?

Øvelse: Analyse af social profil via Tagcrowd

Tagcrowd viser de hyppgist forekommende ord, men først skal tags m.m. fjernes:

  1. Kopier hele væg (CTRL + A, CTRL + P) og paste den i feltet (CTRL +V)
  2. Vælg dansk; maximum 200 ord; show frequencies
  3. Kopier resultatet og sæt det ned i "Dont show this Words"
  4. Slet de ord du gerne vil se: efternavne, stedord, mærker…
  5. Gentag indtil der kun er relevante ord

Analyser resultat

  • hvad fremgår af resultatet
  • fremgår din ynglingsven, -sted, -sportshold, -musik?
  • er der indirekte oplysninger gemt i resultatet: fritidsinteresse, parti, religion…?

Dataminer

  • Skriv en pseudokode der kan tælle bedste ven (se sidens kildekode!)
  • Lav en pseudokode der eks. finder frem til andre oplysninger
Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-NonCommercial 3.0 License