Aykırı değerleri hesapla

Yazar: Charles Brown
Yaratılış Tarihi: 8 Şubat 2021
Güncelleme Tarihi: 1 Temmuz 2024
Anonim
Veri Kümesinde Aykırı Değerleri Yorumlama (Matematik) (İstatistik ve Olasılık)
Video: Veri Kümesinde Aykırı Değerleri Yorumlama (Matematik) (İstatistik ve Olasılık)

İçerik

Bir aykırı veya aykırı İstatistikte, bir örnekteki diğer veri noktalarından önemli ölçüde farklı olan bir veri noktasıdır. Çoğunlukla, aykırı değerler istatistikçiler için ölçümlerdeki tutarsızlıklara veya hatalara işaret eder, daha sonra aykırı değeri veri setinden çıkarabilirler. Aykırı değerleri gerçekten veri setinden çıkarmayı seçerlerse, çalışmadan çıkarılan sonuçlarda önemli değişiklikler üretebilir. Bu nedenle, istatistiksel verileri doğru şekilde yorumlamak istiyorsanız aykırı değerleri hesaplamak ve belirlemek önemlidir.

Adım atmak

  1. Olası aykırı değerleri nasıl belirleyeceğinizi öğrenin. Anormal değerleri belirli bir veri kümesinden kaldırıp kaldırmamaya karar vermeden önce, elbette ilk önce veri kümesindeki olası aykırı değerleri belirlemeliyiz. Genel olarak, aykırı değerler, kümedeki diğer değerleri oluşturan eğilimden önemli ölçüde sapan veri noktalarıdır. ateş etmek diğer değerlerin. Bunu genellikle tablolarda ve (özellikle) grafiklerde tanımak kolaydır. Veri seti görsel olarak grafiğe dökülürse, aykırı değerler diğer değerlerden "uzakta" olacaktır. Örneğin, bir veri kümesindeki çoğu nokta düz bir çizgi oluşturuyorsa, aykırı değerler bu çizgiye uymayacaktır.
    • Bir odadaki 12 farklı nesnenin sıcaklıklarını gösteren bir veri setine bakalım. 11 nesnenin sıcaklığı en fazla 21 ° C civarında birkaç derece dalgalanıyorsa, bir nesnenin, yani bir nesnenin sıcaklığı 150 ° C ise, fırının muhtemelen bir aykırı değer olduğunu bir bakışta görebilirsiniz.
  2. Tüm veri noktalarını en düşükten en yükseğe doğru sıralayın. Aykırı değerleri hesaplamanın ilk adımı, veri setinin medyan değerini (veya orta değeri) bulmaktır. Kümedeki değerler en düşükten en yükseğe doğru sıralanırsa bu görev çok daha kolay hale gelir. Devam etmeden önce, veri kümenizdeki değerleri şu şekilde sıralayın.
    • Yukarıdaki örneğe devam edelim. Bir odadaki farklı nesnelerin sıcaklıklarını Fahrenheit cinsinden gösteren veri setimiz: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Kümedeki değerleri en düşükten en yükseğe doğru sıralarsak, bu bizim yeni kümemiz olur: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Veri kümesinin medyanını hesaplayın. Bir veri kümesinin medyanı, verilerin yarısının üzerinde, yarısının da altında olduğu veri noktasıdır - gerçekte, veri kümesinin "merkezidir". Veri seti tek sayıda nokta içeriyorsa, medyanı bulmak kolaydır - medyan, aşağıda olduğu gibi yukarıda birçok noktaya sahip noktadır. Tek bir merkez olmadığı için çift sayıda nokta varsa, medyanı bulmak için iki merkez noktasının ortalamasını almanız gerekir. Aykırı değerleri hesaplarken, medyan genellikle Q2 değişkeni ile anılır - çünkü birinci ve üçüncü çeyrekler olan Q1 ve Q3 arasında yer alır. Bu değişkenleri daha sonra belirleyeceğiz.
    • Çift sayıda noktaya sahip veri kümeleriyle karıştırılmayın - iki orta noktanın ortalaması genellikle veri kümesinde bulunmayan bir sayıdır - sorun değil. Bununla birlikte, iki orta nokta aynıysa, ortalama da elbette bu sayı olacaktır - bu da Tamam.
    • Örneğimizde 12 puanımız var. Ortadaki iki terim sırasıyla 6. ve 7. noktalar - 70 ve 71. Yani veri setimizin medyanı bu iki noktanın ortalamasıdır: ((70 + 71) / 2) =70,5.
  4. İlk çeyreği hesaplayın. Q1 değişkeni ile ifade ettiğimiz bu nokta, gözlemlerin yüzde 25'inin (veya dörtte birinin) altında kaldığı veri noktasıdır. Başka bir deyişle, bu, veri kümenizdeki tüm noktaların merkezidir altında medyan. Medyanın altında çift sayıda değer varsa, medyanı kendiniz belirlemek için yapmış olabileceğiniz gibi, Q1'i bulmak için iki orta değerin ortalamasını tekrar almanız gerekir.
    • Örneğimizde, altı nokta medyanın üstünde ve altı nokta altındadır. Dolayısıyla, ilk çeyreği bulmak için alttaki altı puandaki iki orta noktanın ortalamasını almalıyız. En alttaki altı noktadan 3. ve 4. noktaların ikisi de 70, yani ortalamaları ((70 + 70) / 2) =70. Yani Q1 için değerimiz 70.
  5. Üçüncü çeyreği hesaplayın. Q3 değişkeni ile ifade ettiğimiz bu nokta, verilerin yüzde 25'inin üzerinde yer aldığı veri noktasıdır. Q3'ü bulmak pratikte Q1'i bulmakla aynıdır, ancak bu vakadaki noktalara bakıyoruz. yukarıda medyan.
    • Yukarıdaki örneğe devam edersek, medyanın üzerindeki altı noktanın iki orta noktasının 71 ve 72 olduğunu görüyoruz. Bu iki noktanın ortalaması ((71 + 72) / 2) =71,5. Yani Q3 için değerimiz 71,5.
  6. Çeyrekler arası aralığı bulun. Artık Q1 ve Q3'ü belirlediğimize göre, bu iki değişken arasındaki mesafeyi hesaplamamız gerekiyor. Q1 ile Q3 arasındaki mesafeyi Q3'ten Q1'i çıkararak bulabilirsiniz. Çeyrekler arası aralık için aldığınız değer, veri kümenizdeki sapmayan noktaların sınırlarını belirlemede çok önemlidir.
    • Örneğimizde, Q1 ve Q3 değerleri sırasıyla 70 ve 71,5'tir. Çeyrekler arası aralığı bulmak için Q3 - Q1'i hesaplıyoruz: 71.5 - 70 =1,5.
    • Bu, Q1, Q3 veya her iki sayı da negatif olsa bile çalışır. Örneğin, Q1 için değerimiz -70 olsaydı, çeyrekler arası aralık 71,5 - (-70) = 141,5 olurdu, bu doğrudur.
  7. Veri kümesinin "İç Sınırlarını" bulun. Aykırı değerleri, bir dizi sayısal sınıra girip girmediklerini belirleyerek tanıyabilirsiniz; sözde "iç sınırlar" ve "dış sınırlar". Veri kümesinin iç sınırlarının dışında kalan bir nokta tek olarak sınıflandırılır hafif aykırıve dış sınırların dışındaki bir nokta tek olarak sınıflandırılır aşırı uç değer. Veri kümenizin iç sınırlarını bulmak için önce çeyrekler arası aralığı 1,5 ile çarpın. Sonucu Q3'e ekleyin ve Q1'den çıkarın. İki sonuç, veri kümenizin iç sınırlarıdır.
    • Örneğimizde, çeyrekler arası aralık (71,5 - 70) veya 1,5'tir. 2.25 elde etmek için bunu 1.5 ile çarpın. Bu sayıyı Q3'e ekliyoruz ve aşağıdaki gibi iç sınırları bulmak için Q1'den çıkarıyoruz:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Yani iç sınırlar 67,75 ve 73,75.
    • Veri setimizde sadece fırın sıcaklığı - 300 derece Fahrenheit - bu aralığın dışındadır. Yani bu hafif bir aykırı değer olabilir. Bununla birlikte, bu sıcaklığın aşırı uç değer olup olmadığını henüz belirlemedik, bu yüzden henüz sonuçlara atlamayalım.
  8. Veri kümesinin "dış sınırlarını" bulun. Bunu, çeyrekler arası mesafeyi 1,5 yerine 3 ile çarptığınız tek farkla, iç sınırlarla aynı şekilde yaparsınız. Ardından sonucu Q3'e eklersiniz ve dış sınır değerlerini bulmak için S1'den çıkarırsınız.
    • Örneğimizde, çeyrekler arası mesafeyi 3 ile çarparak (1.5 * 3) veya 4.5 elde ederiz. Artık dış sınırları, iç sınırlarla aynı şekilde bulabiliriz:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Yani dış sınırlar 65.5 ve 76.
    • Dış sınırların dışında kalan veri noktaları aşırı uç değerler olarak kabul edilir. Örneğimizde, 300 derece Fahrenheit olan fırın sıcaklığı, dış sınırların çok ötesindedir. Yani fırın sıcaklığı kesinlikle aşırı bir aykırı değer.
  9. Aykırı değerleri "atmanız" gerekip gerekmediğini belirlemek için nitel bir değerlendirme kullanın. Yukarıdaki yöntemle, belirli noktaların hafif aykırı değerler mi, aşırı uç değerler mi yoksa hiç uç değerler mi olmadığını belirleyebilirsiniz. Ama hata yapmayın - bir noktayı aykırı değer olarak kabul etmek onu sadece bir nokta yapar aday hemen kaldırılacak bir nokta değil, veri kümesinden kaldırılacak zorunlu dönüşmek. The sebep Aykırı değerin kümedeki diğer noktalardan neden farklı olduğu, aykırı değerin kaldırılması gerekip gerekmediğini belirlemede çok önemlidir. Genel olarak, bazı hataların neden olduğu aykırı değerler - örneğin ölçümlerdeki, kayıtlardaki veya deneysel tasarımdaki bir hata - kaldırılır. Aksine, hatalardan kaynaklanmayan ve yeni, öngörülemeyen bilgileri veya eğilimleri ortaya çıkaran aykırı değerler genellikle değil silindi.
    • Dikkate alınması gereken diğer bir kriter, aykırı değerlerin bir veri kümesinin ortalamasını çarpık veya yanıltıcı bir şekilde etkileyip etkilemediğidir. Veri kümenizin ortalamasından sonuç çıkarmayı planlıyorsanız, bu özellikle önemlidir.
    • Örneğimizi değerlendirelim. Beri en yüksek Öngörülemeyen doğa gücünden dolayı fırının 300 ° F sıcaklığa ulaşması pek olası değildir, örneğimizde fırının yanlışlıkla açıldığına ve anormal derecede yüksek bir sıcaklık okumasına neden olduğundan neredeyse% 100 kesinlikle sonuca varabiliriz. Ek olarak, aykırı değeri kaldırmazsak, veri setimizin ortalaması (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° F, ortalama iken olmadan aykırı değer (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F'ye çıkar.
      • Aykırı değere insan hatası neden olduğu için ve ortalama oda sıcaklığının 32 ° C'ye yakın olduğunu söylemek yanlış olduğu için, aykırı değerimizi kullanmayı seçmeliyiz. Kaldır.
  10. Aykırı değerleri (bazen) tutmanın önemini anlayın. Bazı aykırı değerler, hataların sonucu oldukları veya sonuçları yanıltıcı bir şekilde çarpıttıkları için veri kümesinden çıkarılmaları gerekirken, diğer uç değerler korunmalıdır. Örneğin, bir aykırı değer doğru bir şekilde elde edilmişse (ve dolayısıyla bir hatanın sonucu değilse) ve / veya aykırı değer, ölçülecek olguya yeni bir bakış açısı sunuyorsa, bu hemen kaldırılmamalıdır. Bilimsel deneyler, aykırı değerlerle başa çıkma söz konusu olduğunda özellikle hassas durumlardır - bir aykırı yanlışlıkla kaldırmak, yeni bir trend veya keşif hakkındaki önemli bilgileri atmak anlamına gelebilir.
    • Örneğin, bir balık çiftliğindeki balıkları büyütmek için yeni bir ilaç tasarladığımızı hayal edin. Eski veri kümemizi ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) kullanalım, aradaki fark her noktanın artık bir balığın kütlesini (gram cinsinden) temsil etmesidir. ) doğumdan itibaren başka bir deneysel ilaçla tedaviden sonra. Başka bir deyişle, ilk ilaç bir balığa 71 gramlık bir kütle verirken, ikincisi başka bir balığa 70 gramlık bir kütle verdi ve bu böyle devam etti. Bu durumda, 300 hala büyük bir aykırı değer, ancak şimdi kaldırmamalıyız. Çünkü aykırı değerin bir hatanın sonucu olmadığını varsayarsak, deneyimizde büyük bir başarıyı temsil eder. 300 gramlık bir balık üreten ilaç, diğer tüm ilaçlardan daha iyi sonuç verdi. çoğu setimizdeki önemli veri noktası yerine en az önemli veri noktası.

İpuçları

  • Aykırı değerleri bulursanız, bunları veri kümesinden çıkarmadan önce açıklamaya çalışın; dağılımdaki ölçüm hatalarını veya sapmaları gösterebilir.

Gereklilikler

  • Hesap makinesi