Venneapplikationer - Data Mining

Data mining er en proces, hvor man ved at analysere data eller databaser forsøger at finde nye mønstre, der viser ukendte sammenhænge eller muligheder for brug af data på nye måder. Man leder altså efter relationer, der ikke blev gennemskuet eller beskrevet, da man modellerede databasen. Data mining har fået stor opmærksomhed de senere år, hvor det er blevet klart, at der kan hentes mange nye oplysninger i brugerdabataser der tilmed kan være yderst værdifulde.

I venneapplikationer, vil der eksempelvis kunne afdækkes mange informationer brugeren ikke har anført direkte, - helt fra hvilket politisk parti denne sandsynligvis stemmer på, og til personens yndlingshjemmeside. Disse data kan igen kombineres til viden om, hvilke vælgertyper man kan nå på hvilke hjemmesider.

Data mining foregår via udtræk og sammenligning af data i store databaser, men selv i mindre logfiler eller i de oplysninger der er gemt i computerens browser kan man finde frem til overraskende mange ting om en bruger. Processen består i at komme på idéer til, hvad man kan lede efter. Dernæst skal man beskrive en algoritme for, hvordan man kan lede efter det, og implementere det i script. Endelig skal resultatet vurderes og fortolkes.

facebook-netvaerksbillede-jsb.jpg
Visualisering af facebooknetvæk via myfnetwork

Analyse af social profil via Tagcrowd

Tagcrowd viser de hyppgist forekommende ord, men først skal tags m.m. fjernes:

  1. Kopier hele væg (CTRL + A, CTRL + P) og paste den i feltet (CTRL +V)
  2. Vælg dansk; maximum 200 ord; show frequencies
  3. Kopier resultatet og sæt det ned i "Dont show this Words"
  4. Slet de ord du gerne vil se: efternavne, stedord, mærker…
  5. Gentag indtil der kun er relevante ord

Analyser resultat

  • hvad fremgår af resultatet
  • fremgår din ynglingsven, -sted, -sportshold, -musik?
  • er der indirekte oplysninger gemt i resultatet: fritidsinteresse, parti, religion…?

Dataminer

  • Skriv en pseudokode der kan tælle bedste ven (se sidens kildekode!)
  • Lav en pseudokode der eks. finder frem til andre oplysninger

Seks teknikker til data mining

Anomali-analyse: Afdækning af anderledes data, som kan være: hidtil ukendt brug; nye sammenhænge; fejl, der skal rettes. Brugere uden venner er f. eks. en markant anomali i en venneapplikation, men det kan skyldes, at de bare følger et band som f.eks. MEW - en brug som kunne udbygges.

Associationsanalyse: Afdækning af sammenhænge i databasen, der ikke før er beskrevet i f.eks. E/R-modellen. Der kunne f.eks. vise sig en sammenhæng mellem brugere, MEW og et bestemt tøjmærke

Gruppe-analyse: Afdækning af grupper af ens data i databasen, som ellers ikke har forbindelse med hinanden. Gruppen af MEW-fans kunne have flere fællestræk end MEW & tøj

Regression: Præcisering af de observerede sammenhænge , så beskrivelsen dækker bedst muligt. F.eks. en afgrænsning og præcisering af, hvad der er ens for en MEW-gruppen: alder, uddannelse…

Klassifikation: Brug af kendte sammenhænge fra forrige analyser til at beskrive ny data. Her tilknyttes Mew-gruppen nye brugere med samme alder, uddannelse og tøjsmag.

Summering: Opsamling og beskrivelse af resultater i f.eks. rapporter, diagrammer m.m.

Kategorisering via Facebook-likes

Læs Ingeniørens artikel Ny algoritme sætter dig i bås efter dine Facebook-likes. Brug kategorierne ovenfor til at svare på spørgsmålene:
1) Er alle teknikker brugt?
2) Hvordan bruges de enkelte teknikker?
3) Er der gjort brug af nye teknikker, som ikke står i listen?

Medmindre andet er angivet, er indholdet af denne side licenseret under Creative Commons Attribution-NonCommercial 3.0 License