Week 4 - Descriptive Statistics
Descriptive Statistics
Measures of Central Tendency
Mean (Average):
- The mean is a key concept in statistics, representing the average of a set of numbers. It is calculated by adding up all the numbers in a dataset and then dividing this total by the number of data points.
- The mean is particularly useful in datasets that are symmetrical and have no outliers, as it can give a good sense of the 'center' of the data.
- However, the mean is sensitive to extreme values (outliers), which can skew the average, making it unrepresentative of the data as a whole.
Median:
- The median is the middle value in a list of numbers sorted in ascending or descending order.
- If the dataset has an odd number of observations, the median is the middle number. If the dataset has an even number of observations, the median is the average of the two middle numbers.
- Unlike the mean, the median is not affected by extremely large or small values, making it a better measure of central tendency for skewed distributions.
Mode:
- The mode is the most frequently occurring value in a dataset.
- A dataset can have one mode (unimodal), two modes (bimodal), or more modes (multimodal).
- The mode is particularly useful for categorical data, where we wish to know which is the most common category.
Measures of Variability
Variance:
- Variance measures how spread out the numbers in a data set are.
- It is calculated by taking the average of the squared differences from the Mean.
- A high variance indicates that the numbers in the set are far from the mean and each other, while a low variance indicates the opposite.
Standard Deviation:
- The standard deviation is the square root of the variance.
- It provides a measure of the average distance from the mean.
- A large standard deviation indicates that the data points are spread out over a wider range of values, while a small standard deviation indicates that they are clustered closely around the mean.
- ***
Merkezi Eğilim Ölçüleri
Ortalama:
- Ortalama, istatistikteki temel kavramlardan biridir ve bir sayı kümesinin ortalama değerini temsil eder. Toplam sayıların toplamının, veri noktalarının sayısına bölünmesiyle hesaplanır.
- Ortalama, simetrik veri setleri ve aykırı değer içermeyen durumlar için faydalıdır, çünkü veri setinin 'merkezi' hakkında iyi bir fikir verebilir.
- Ancak, ortalama, aşırı değerlerden (aykırı değerler) etkilenmeye hassastır ve bu değerler ortalamanın, tüm veri setini temsil etme yeteneğini çarpıtabilir.
Medyan:
- Medyan, artan veya azalan sırada dizilmiş sayılar listesindeki orta değerdir.
- Veri seti tek sayıda gözleme sahipse, medyan ortadaki sayıdır. Çift sayıda gözleme sahipse, medyan iki orta sayının ortalamasıdır.
- Ortalama'nın aksine, medyan, çok büyük veya çok küçük değerlerden etkilenmez, bu da onu çarpık dağılımlar için merkezi eğilim ölçüsü olarak daha iyi bir seçenek yapar.
Mod:
- Mod, bir veri setinde en sık rastlanan değerdir.
- Bir veri seti tek modlu (unimodal), iki modlu (bimodal) veya çok modlu (multimodal) olabilir.
- Mod, hangi kategorinin en yaygın olduğunu bilmek istediğimiz kategorik veriler için özellikle faydalıdır.
Değişkenlik Ölçüleri
Varyans:
- Varyans, bir veri setindeki sayıların ne kadar yayıldığını ölçer.
- Ortalama'dan kare farklarının ortalaması alınarak hesaplanır.
- Yüksek bir varyans, setteki sayıların ortalama ve birbirinden uzak olduğunu gösterirken, düşük bir varyans tam tersini gösterir.
Standart Sapma:
- Standart sapma, varyansın kareköküdür.
- Ortalamadan ortalama mesafeyi ölçen bir araçtır.
- Büyük bir standart sapma, veri noktalarının daha geniş bir değer aralığında yayıldığını gösterirken, küçük bir standart sapma, bunların ortalama etrafında sıkı bir şekilde toplandığını gösterir.
Yorumlar
Yorum Gönder