Vad är Data Mining?

January 9

Data mining använder en relativt stor mängd datorkraft som arbetar på en stor mängd data för att fastställa regelbundenheter och kopplingar mellan datapunkter. Algoritmer som använder tekniker från statistiken, är maskininlärning och mönsterigenkänning används för att söka stora databaser automatiskt. Data mining är också känd som kunskaps Discovery i databaser (KDD).

Liksom begreppet artificiell intelligens, är data mining ett paraplybegrepp som kan tillämpas på ett antal olika aktiviteter. I företagsvärlden, är data mining används oftast för att bestämma riktningen av trender och förutsäga framtiden. Det används för att bygga modeller och beslutsstödssystem som ger människor information de kan använda. Data mining tar en frontlinjen roll i kampen mot terrorismen. Det var förmodligen används för att bestämma ledare 9/11 attackerna.

Data gruvarbetare är statistiker som använder tekniker med namn som nästan granne modeller, k-betyder klustring, holdout metod, k-faldig korsvalidering, ledigheten-ett-ut-metoden, och så vidare. Regression tekniker används för att subtrahera irrelevanta mönster, vilket innebär att endast användbar information. Termen Bayesiansk ses ofta på fältet, med hänvisning till en klass av slutledningsmetoder som förutsäger sannolikheten för framtida händelser genom att kombinera tidigare sannolikheter och sannolikheter baserade på villkorade händelser. Filtrering av skräppost är utan tvekan en form av data mining, som automatiskt ger relevanta meddelanden till ytan från en kaotisk hav av nätfiskeförsök och Viagra platser.

Beslutsfattande träd används för att filtrera berg av data. I ett beslutsträd, passerar alla data via en ingång nod, där den står inför ett filter som separerar data till strömmar beroende på dess egenskaper. Till exempel är det troligt att filtreras på basis av demografiska faktorer data om konsumentbeteendet. Data mining är inte i första hand om tjusiga grafer och visualiseringstekniker, men det gör anställa dem för att visa vad man har hittat. Det är känt att vi kan absorbera mer statistisk information visuellt än verbalt och detta format för presentation kan vara mycket övertygande och kraftfull om de används i rätt sammanhang.

Som vår civilisation blir alltmer data mättade och sensorer distribueras en masse i våra lokala miljöer, kommer vi oavsiktligt upptäcka saker som kan missas på första passet över. Data mining kommer att låta oss korrigera dessa misstag och upptäcka nya insikter baserade på tidigare data, vilket ger oss mer valuta för våra datalagring buck.

  • Filtrering av skräppost kan betraktas som en form av data mining.
  • Den information som samlas in data mining ofta presenteras som tabeller eller grafer.