כדי שכל קבוצת נתונים תהפוך למשמעותית יש לנתח, להסביר, לפרש ולהציג. הדיסציפלינה המתמטית העוסקת בכך מכונה סטטיסטיקה והמערכת הרחבה של הטכניקות המיושמות בתחום לימוד זה מכונה באופן קולקטיבי ניתוח סטטיסטי. זה לא מעשי לבחון את מערך הנתונים הכולל או את מה שמכונה אוכלוסייה לניתוח. אוכלוסייה כמו למשל "כל גרגיר חול על רצועת חוף" היא ענקית מדי. תת קבוצה של האוכלוסייה הנקראת מדגם היא הכרחית. המדגם הוא שהופך למושא הניתוח. מסקנות אפשריות הנגזרות מהמדגם ניתן להרחיב את האוכלוסייה כל עוד המדגם מייצג כראוי את האוכלוסייה אליה הוא שייך. ניתוח סטטיסטי משמש להשגת שתי מטרות כלליות. האחד הוא לתאר את הנתונים והשני הוא להסיק לגבי הנתונים.
סטטיסטיקה היא כלי המשמש בתחומים מגוונים מהנדסה לפסיכולוגיה. פותחו שיטות שונות לניתוח סטטיסטי. לא כולם גובשו בקפדנות על ידי מתמטיקאים או סטטיסטיקאים טהורים. יש תחומים שמוצאים שיטות מסוימות רלוונטיות יותר מאחרות ומשתמשים בה באופן עקבי יותר. שלוש מהשיטות הנפוצות יותר הן ניתוח רגרסיה, ניתוח גורמים וניתוח רב משתני.
משתנים בלתי תלויים נשארים קבועים
ניתוח רגרסיה נוגע לכל אחת מכמה טכניקות המשמשות להבנת הקשר של משתנה תלוי ומשתנה עצמאי אחד או יותר. המטרה היא להבין כיצד מושפע מערכו של משתנה תלוי כאשר משתנה משתנה אחד בלתי תלוי בעוד שכל שאר המשתנים הבלתי תלויים נשארים קבועים. שיטה זו היא אפוא שימושית ביותר לחיזוי או תחזיות.
ניתוח גורמים הוא שיטת ניתוח סטטיסטית המשמשת לחשיפה והסבר של משתנים נסתרים העומדים בבסיס משתנים נצפים. ניתן לגלות שתלות הדדית קיימת בין שניים או יותר משתנים שאינם קשורים לכאורה. משתנים מוסתרים או בסיסיים אלה נקראים גורמים והבאתם לאור מפחיתה את מספר המשתנים ומפשטת את מערך הנתונים הנחקר.
שיטת הניתוח הרב - משתני מתייחסת לטכניקות המשמשות לחקר נתונים המגיעים ביותר ממשתנה אחד. בעיות מציאותיות כמעט ולא כוללות משתנים בודדים. על מנת לקבל תמונה ברורה של מצב עליכם לקחת בחשבון את כל הגורמים הרלוונטיים. ניתוח רב-משתני עוסק בערכות נתונים ענקיות ובכך לעתים קרובות משתמשים במאגרי מידע כדי לארגן נתונים אלה. משם, ניתוח יכול להוביל לקבלת החלטות מושכלות ונבונות יותר.
משלב כלים לניתוח נתונים הנקראים
מכיוון שהמחשבים הפכו לאחד הכלים העיקריים במחקרים מסוגים שונים החל ממדעי הפיסיקה ועד מדעי החברה, כך פותחו מערכות תוכנה המסייעות לניתוח סטטיסטי. יישומים מסוימים תוכננו במיוחד לעבודה סטטיסטית, בעוד שאחרים תוכננו בעיקר עבור פעולות בסיס נתונים או מתמטיות, אך באופן טבעי הם מסוגלים לבצע סוגים מסוימים של ניתוח סטטיסטי. אחת הדוגמאות הבולטות לתוכנת סטטיסטיקה היא מערכת ה- SAS. SAS היא למעשה חבילה של יישומים שונים, כל אחד עם מיקוד משלו. SAS / STAT הוא המוצר העיקרי לניתוח סטטיסטי וניתן להשתמש בו בשילוב עם SAS / GRAPH שהוא מוצר אחר בחבילה המיועד לתיאורים גרפיים של נתונים. MATLAB היא דוגמה לתוכנת מתמטיקה המסוגלת לבצע גם ניתוח סטטיסטי, אך מערכת הפונקציות שלה כמובן חורגת מעבר לסטטיסטיקה. אם כן, Microsoft Excel הוא יישום גיליון אלקטרוני אך הוא משלב כלים לניתוח נתונים המכונים ניתוח כלי ניתוח באמצעותו משתמשים יכולים לבצע מספר שיטות לניתוח סטטיסטי.