Vad är Data Mining Process?

December 6

Den data mining processen är ett verktyg för att avslöja statistiskt signifikanta mönster i en stor mängd data. Det innebär vanligtvis fem huvudsteg, som inkluderar förberedelser, uppgifter prospektering, modellbygge, driftsättning och översyn. Varje steg i processen innefattar en annan uppsättning av tekniker, men de flesta använder någon form av statistisk analys.

Innan data mining processen kan börja, forskarna normalt inställd forskningsmål. Denna beredning steg bestämmer oftast vilka typer av data behöver studeras, vilka data mining bör användas, och vilken form resultaten kommer att ta. Detta första steg i processen kan vara avgörande för att samla användbar information.

Nästa steg i data mining processen är prospektering. Detta steg innebär vanligtvis samla nödvändiga data från en informationslager eller uppsamlings enhet. Sedan gruvexperter förbereda vanligtvis rådatauppsättningar för analys. Detta steg består vanligen av insamling, städning, organisera och kontrollera alla data för fel.

Denna förberedda data, som normalt aktiverar sedan det tredje steget i data mining processen, modellbygge. För att åstadkomma detta, forskare tar vanligtvis små prover av uppgifter och tillämpa en mängd olika data mining till dem. Modellersteget används ofta för att bestämma den bästa metoden för statistisk analys som krävs för att uppnå de önskade resultaten.

Det finns fyra huvudsakliga tekniker som kan tillämpas i data mining processen. Den första är klassificeringen, som arrangerar data i fördefinierade grupper eller kategorier. I den andra tekniken, som kallas klustring, forskare låta datorn att organisera data i grupper, som det vill. En tredje data mining-teknik söker samband mellan variabler. Den fjärde vanligtvis ser för sekventiella mönster i data som kan användas för att förutsäga framtida trender.

Det sista steget i data mining processen är driftsättning. För att göra detta, är de tekniker som valts i modellen tillämpas på större datamängden, och resultaten analyseras. Rapporten som kommer från detta steg visar oftast de mönster som finns i hela processen, inklusive eventuella klassifikationer, kluster, föreningar eller sekventiella mönster finns inom datamängden.

Recensioner är ofta en viktig sista steget. Denna fas i processen inbegriper oftast upprepa gruv modeller med en ny datamängd för att se till att huvud uppsättningen var representativ för hela befolkningen av data. Resultaten kan inte förutsäga trender i större befolkning om provet uppgifterna inte exakt representera den.

  • Data mining är användningen av mönsterigenkänning logik identitetsutvecklingen inom ett prov datamängd och extrapolera denna information mot större uppgifter poolen, medan datalagring är processen att utvinna och lagra data för att möjliggöra enklare rapportering.