Top 45 중앙값 25331 People Liked This Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 중앙값 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://toplist.maxfit.vn team, along with other related topics such as: 중앙값 중앙값 구하기 공식, 중앙값 계산기, 중앙값 평균 차이, 중앙값 단점, 중위값 중앙값, 중앙값 뜻, 짝수 중앙값, 중앙값 엑셀

중앙값(中央-, 영어: median) 또는 중위수(中位數)는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 2가 중앙값이다.


중3-2 통계1강_ 대표값(평균,중앙값,최빈값)
중3-2 통계1강_ 대표값(평균,중앙값,최빈값)


중앙값 – 위키백과, 우리 모두의 백과사전

  • Article author: ko.wikipedia.org
  • Reviews from users: 44788 ⭐ Ratings
  • Top rated: 4.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 중앙값 – 위키백과, 우리 모두의 백과사전 Updating …
  • Most searched keywords: Whether you are looking for 중앙값 – 위키백과, 우리 모두의 백과사전 Updating
  • Table of Contents:

확률 분포[편집]

중앙값과 평균[편집]

같이 보기[편집]

참고[편집]

중앙값 - 위키백과, 우리 모두의 백과사전
중앙값 – 위키백과, 우리 모두의 백과사전

Read More

평균, 중앙값, 최빈값 복습 (개념 이해하기) | 양적 자료내 집중경향값 구하기 | Khan Academy

  • Article author: ko.khanacademy.org
  • Reviews from users: 28689 ⭐ Ratings
  • Top rated: 3.0 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 평균, 중앙값, 최빈값 복습 (개념 이해하기) | 양적 자료내 집중경향값 구하기 | Khan Academy 중앙값은 데이터의 중간점입니다. 데이터의 반은 중앙값보다 작고, 나머지 반은 중앙값보다 큽니다. 중앙값을 찾는 방법. 데이터를 … …
  • Most searched keywords: Whether you are looking for 평균, 중앙값, 최빈값 복습 (개념 이해하기) | 양적 자료내 집중경향값 구하기 | Khan Academy 중앙값은 데이터의 중간점입니다. 데이터의 반은 중앙값보다 작고, 나머지 반은 중앙값보다 큽니다. 중앙값을 찾는 방법. 데이터를 …
  • Table of Contents:

양적 자료내 집중경향값 구하기

양적 자료내 집중경향값 구하기

사이트 탐색

평균, 중앙값, 최빈값 복습 (개념 이해하기) | 양적 자료내 집중경향값 구하기 | Khan Academy
평균, 중앙값, 최빈값 복습 (개념 이해하기) | 양적 자료내 집중경향값 구하기 | Khan Academy

Read More

대푯값과 평균, 중앙값, 최빈값 – 수학방

  • Article author: mathbang.net
  • Reviews from users: 31187 ⭐ Ratings
  • Top rated: 4.7 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 대푯값과 평균, 중앙값, 최빈값 – 수학방 중앙값은 이름 그대로 가운데 있는 값이에요. 영어로는 median이라고 하죠. 중앙값을 구하기 전에는 변량들을 작은 값부터 크기 순서대로 나열해야 해요. …
  • Most searched keywords: Whether you are looking for 대푯값과 평균, 중앙값, 최빈값 – 수학방 중앙값은 이름 그대로 가운데 있는 값이에요. 영어로는 median이라고 하죠. 중앙값을 구하기 전에는 변량들을 작은 값부터 크기 순서대로 나열해야 해요. UN 알죠? 국제연합이라는 기구에요. 여기에는 여러 나라가 가입되어 있어요. UN에서 회의하는데 전 세계에 있는 사람들이 모두 모일 수는 없죠? 그래서 나라마다 1명씩만 나와서 회의를 합니다. 우리나라에서도..
  • Table of Contents:

대푯값과 평균 중앙값 최빈값

댓글(17개) 펼치기닫기

대푯값과 평균, 중앙값, 최빈값 – 수학방
대푯값과 평균, 중앙값, 최빈값 – 수학방

Read More

평균, 중앙값, 최빈값 제대로 이해하기

  • Article author: brunch.co.kr
  • Reviews from users: 30661 ⭐ Ratings
  • Top rated: 3.9 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 평균, 중앙값, 최빈값 제대로 이해하기 5. 중앙값이란 데이터를 작은 순서(또는 큰 순서)로 나열했을 때 ‘가장 가운데’ 위치에 있는 수치를 말합니다. 따라서 극단적 … …
  • Most searched keywords: Whether you are looking for 평균, 중앙값, 최빈값 제대로 이해하기 5. 중앙값이란 데이터를 작은 순서(또는 큰 순서)로 나열했을 때 ‘가장 가운데’ 위치에 있는 수치를 말합니다. 따라서 극단적 … 이렇게 쉬운 통계학에서 뽑은 125개의 핵심 파트 (2) | 책에 나오는 통계 지식을 바로 실무에 활용하기는 어려울 수 있다. 평균, 중앙값, 분산값은 흔히 쓰지만, 정규분포만 해도 실무에 도움이 되는 방식으로 활용하기 어려울 수 있다. 특히 데이터 관련 직군이 아니면 더 그렇다. 그럼에도 데이터 직군 외 마케터, 기획자 등이 이러한 통계 지식을 알아놓으면 좋은 이유는 특정한 개념을 알고 업무를 하는 것과, 그렇지
  • Table of Contents:

평균과 분산 이해하기

정규분포 체감하기

표본을 이용하여 모집단의 특징 추정하기

가설을 세우고 올바른 가설인지 확률로 판단하기

평균, 중앙값, 최빈값 제대로 이해하기
평균, 중앙값, 최빈값 제대로 이해하기

Read More

평균, 중앙값, 최빈값 구하는 방법: 7 단계 (이미지 포함) – wikiHow

  • Article author: ko.wikihow.com
  • Reviews from users: 17916 ⭐ Ratings
  • Top rated: 4.2 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 평균, 중앙값, 최빈값 구하는 방법: 7 단계 (이미지 포함) – wikiHow Updating …
  • Most searched keywords: Whether you are looking for 평균, 중앙값, 최빈값 구하는 방법: 7 단계 (이미지 포함) – wikiHow Updating 평균, 중앙값, 최빈값 구하는 방법. 평균, 중앙값, 최빈값은 기초 통계학과 일상적인 산수에서 많이 쓰인다. 평균, 중앙값, 최빈값은 쉽게 구할 수 있지만 많이 헷갈린다. 이 글을 통해 평균, 중앙값, 최빈값을 구하는 방법을 알아보자. 자료 전체의 합 구하기. 예를 들어 2, 3, 4가 주어졌다고 하자. 세 숫자를 모두 더하면 2 + 3 + 4 = 9이다.
  • Table of Contents:

단계

관련 위키하우

출처

이 위키하우에 대하여

이 글이 도움이 되었나요

평균, 중앙값, 최빈값 구하는 방법: 7 단계 (이미지 포함) - wikiHow
평균, 중앙값, 최빈값 구하는 방법: 7 단계 (이미지 포함) – wikiHow

Read More

중앙값 계산기 : 온라인 및 무료 중앙값 계산!

  • Article author: mediancalculator.com
  • Reviews from users: 48067 ⭐ Ratings
  • Top rated: 4.6 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 중앙값 계산기 : 온라인 및 무료 중앙값 계산! 숫자 데이터 집합에 대한 중앙값을 찾습니다. 중앙값 계산기는 중앙값을 찾고 단계별 설명을 볼 수 있도록 도와줍니다. …
  • Most searched keywords: Whether you are looking for 중앙값 계산기 : 온라인 및 무료 중앙값 계산! 숫자 데이터 집합에 대한 중앙값을 찾습니다. 중앙값 계산기는 중앙값을 찾고 단계별 설명을 볼 수 있도록 도와줍니다. 숫자 데이터 집합에 대한 중앙값을 찾습니다. 중앙값 계산기는 중앙값을 찾고 단계별 설명을 볼 수 있도록 도와줍니다.중앙값, 계산기, 계산, 찾기, 해결, 값, 숫자, 설정, 솔루션, 수학, 문제
  • Table of Contents:

숫자 집합의 중앙값을 계산하는 방법을 찾고 있다면 중앙값 계산기가 정확히 필요한 것입니다 공식을 알 필요가 없습니다 두 단계 만 거치면 몇 초 만에 정확한 결과를 얻을 수 있습니다 완전 무료 온라인 수학 솔루션 평균 모드 및 범위 계산기를 사용할 수도 있습니다

중앙값 계산

중앙값 계산 방법

수학의 중앙값은 무엇입니까

중앙값 계산 예

중앙값을 계산해야하는 이유

중앙값 계산기 : 온라인 및 무료 중앙값 계산!
중앙값 계산기 : 온라인 및 무료 중앙값 계산!

Read More

중앙값 – 해시넷

  • Article author: wiki.hash.kr
  • Reviews from users: 37122 ⭐ Ratings
  • Top rated: 4.9 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 중앙값 – 해시넷 중앙값(median)이란 여러 개의 데이터를 크기 순서대로 늘어놓았을 때 한가운데 있는 값을 의미한다. 이것은 평균(average)과는 차이가 있다. …
  • Most searched keywords: Whether you are looking for 중앙값 – 해시넷 중앙값(median)이란 여러 개의 데이터를 크기 순서대로 늘어놓았을 때 한가운데 있는 값을 의미한다. 이것은 평균(average)과는 차이가 있다.
  • Table of Contents:

위키

같이 보기[편집]

중앙값 - 해시넷
중앙값 – 해시넷

Read More


See more articles in the same category here: https://toplist.maxfit.vn/blog/.

위키백과, 우리 모두의 백과사전

중앙값(中央-, 영어: median) 또는 중위수(中位數)는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 2가 중앙값이다.

값이 짝수개일 때에는 중앙값이 유일하지 않고 두 개가 될 수도 있다. 이 경우 그 두 값의 평균을 취한다. 예를 들어 1, 10, 90, 200 네 수의 중앙값은 10과 90의 평균인 50이 된다.[1]

중앙값(median)은 중심경향치(center tendency)의 하나로 전체 데이터 중 가운데에 있는 수치 값이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4851만 원이다. 이처럼 극단적인 값이 있다면 중앙값이 평균값보다 유용하다.

확률 분포 [ 편집 ]

확률 분포에서, 실수 m {\displaystyle m} 이 다음 식을 만족할 경우 그 값을 확률분포 P {\displaystyle \operatorname {P} } 의 중앙값이라고 정의한다.

P ⁡ ( X ≤ m ) ≥ 1 2 ∧ P ⁡ ( X ≥ m ) ≥ 1 2 {\displaystyle \operatorname {P} (X\leq m)\geq {\frac {1}{2}}\quad \land \quad \operatorname {P} (X\geq m)\geq {\frac {1}{2}}}

중앙값과 평균 [ 편집 ]

산술평균의 경우 모든 관측치의 값을 다 반영하므로 지나치게 작거나 큰 값들의 영향을 많이 받게 된다. 중앙값은 그 값보다 크거나 작은 관측치는 전혀 고려하지 않으므로, 지나치게 크거나 작은 값들의 영향을 받지 않는다.[2]

같이 보기 [ 편집 ]

대푯값과 평균, 중앙값, 최빈값

UN 알죠? 국제연합이라는 기구에요. 여기에는 여러 나라가 가입되어 있어요. UN에서 회의하는데 전 세계에 있는 사람들이 모두 모일 수는 없죠? 그래서 나라마다 1명씩만 나와서 회의를 합니다. 우리나라에서도 한 명이 가겠죠?

이때 우리나라에서 가는 그 한 명을 대한민국 대표라고 하지요? 대표는 어떤 집단의 특징을 잘 나타내야 해요. 우리나라 대표로 가는데 일본사람이나 중국사람이 가면 안 되잖아요.

여러 개의 자료가 있을 때, 자료 전체의 특징을 대표적으로 나타내는 걸 뭐라고 하는 지, 그 종류에는 어떤 게 있는지, 어떻게 구하는지 알아보죠.

대푯값

대푯값은 위에서 설명한 것처럼 전체의 특징을 대표적으로 나타내는 값이에요. 1학년 때 도수분포표, 변량, 계급, 계급값, 도수에서 공부했던 계급값은 그 계급을 대표하는 대푯값이에요.

계급값 말고도 잘 아는 게 바로 평균이에요. 처음으로 듣게 되는 대푯값으로는 중앙값과 최빈값이 있어요.

평균

평균은 변량 전체의 합을 변량의 총 개수로 나눈 값을 말해요. 평균 구하는 법은 이미 알 테고, 도수분포표에서의 평균 구하기에서 했던 내용은 기억이 나지 않을 수도 있으니 미리 한 번 봐두세요. 도수분포표에서 평균 구하는 건 나중에 또 나오니까 꼭 알고 있어야 해요.

평균

중앙값

중앙값은 이름 그대로 가운데 있는 값이에요. 영어로는 median이라고 하죠. 중앙값을 구하기 전에는 변량들을 작은 값부터 크기 순서대로 나열해야 해요. 그런 다음에 가운데 순서에 있는 값을 구하는 거죠.

3, 6, 9, 2, 4, 5, 8이라는 자료가 있어요. 여기에서 중앙값을 구해볼까요?

중앙값을 구하기 전에는 자료들을 순서대로 나열해야 해요. 2, 3, 4, 5, 6, 8, 9로 나열할 수 있어요. 자료의 개수가 7개고, 순서상으로 한가운데 있는 값은 네 번째 있는 5네요. 그래서 중앙값은 5예요.

자료의 개수(n)가 홀수개면 번째 값이 중앙값이에요. 위에서는 자료의 개수가 7개니까 (7 + 1) ÷ 2 = 4여서 네 번째 값이 중앙값인 거죠.

자료의 개수(n)가 짝수개면 번째 값의 평균이 중앙값이에요.

10, 30, 40, 20, 60, 70, 90, 80이라는 자료가 있어요. 크기가 작은 순서대로 나열해보면, 10, 20, 30, 40, 60, 70, 80, 90이에요. 총 8개의 자료가 있는데, 한가운데 값은 4, 5번째 수가 되겠죠? 그러면 값이 두 개인데, 이 두 개를 평균 낸 것이 자료의 중앙값이에요. 네 번째 순서에 있는 40과 다섯 번째 순서에 있는 60의 평균인 50이 중앙값입니다.

중앙값

전체 자료의 개수(n)가 홀수일 때 → 째 값

전체 자료의 개수(n)가 짝수일 때 → 째 값들의 평균

최빈값

최빈값은 변량 중에서 도수가 가장 큰 값이에요.

100, 200, 300, 400, 400, 500, 500, 500이라는 자료가 있다고 해보죠. 100, 200, 300은 개수가 하나씩 있죠? 도수가 모두 1이에요. 400은 두 개고, 500은 세 개가 있어요. 400은 도수가 2고, 500은 도수가 3이에요. 여기서는 도수가 3으로 가장 큰 500이 최빈값이에요.

그럼 만약에 100, 100, 200, 200, 300, 300처럼 모든 변량의 도수가 2인 경우에는 어떤 값이 최빈값일까요? 도수가 가장 큰 것도 2고 가장 작은 것도 2잖아요. 이처럼 변량의 도수가 모두 같으면 최빈값은 없어요.

또 100, 200, 200, 300, 300에서는 200과 300이 도수가 2로 같아요. 100은 도수가 1이니까 위처럼 모든 변량의 도수가 같은 경우는 아니지요. 그런데 이렇게 도수가 같은 변량이 여러 개 있을 때는 모두가 다 최빈값이라고 할 수 있어요. 따라서 이 경우의 최빈값은 200과 300입니다.

최빈값: 변량 중에서 도수가 가장 큰 값

변량의 도수가 모두 같으면 최빈값은 없다.

변량의 도수가 가장 큰 값이 여러 개이면 최빈값은 2개 이상일 수도 있다.

평균, 중앙값, 최빈값의 장단점

대푯값에서 평균과 중앙값, 최빈값을 알아봤는데, 각각이 어떤 장단점이 있는지 알아야겠죠? 어떤 자료들의 특징을 대표할 때 어떤 값을 사용하는 것이 대표성을 가장 잘 나타내는지 말이에요.

평균은 모든 자료의 값을 다 이용한다는 장점이 있어요.

중앙값은 1, 1, 1, 2, 2, 2, 100처럼 자료의 값 중 어느 하나가 너무 크거나 너무 작을 때 자료의 특징을 잘 대표할 수 있어요.

최빈값은 가장 많이 발생하는 값을 구할 때 유용하고, 특히 자료가 숫자가 아니어도 사용할 수 있지요. 대신 최빈값은 없을 수도 있고, 2개 이상일 수도 있다는 단점이 있어요.

다음 자료의 평균, 중앙값, 최빈값을 구하여라.

19, 20, 21, 19, 26

평균 = (19 + 20 + 21 + 19 + 26) ÷ 5 = 21

중앙값을 구하기 위해서 작은 거부터 순서대로 써보죠. 19, 19, 20, 21, 26이네요. 전체 자료의 수가 5로 홀수 개니까 (n + 1) ÷ 2 = 3번째 값인 20이 중앙값입니다.

최빈값은 도수가 가장 높은 값이에요. 19의 도수는 2, 나머지 20, 21, 26의 도수는 1이니까 도수가 2인 19가 모두 최빈값이라고 할 수 있겠네요.

함께 보면 좋은 글

산포도와 편차

분산과 표준편차

도수분포표에서의 분산과 표준편차

[중등수학/중1 수학] – 도수분포표, 변량, 계급, 계급값, 도수

[중등수학/중1 수학] – 도수분포표에서의 평균구하기

[중등수학/중1 수학] – 도수분포표 만드는 법

정리해볼까요 대푯값: 자료 전체의 특징을 대표적으로 나타내는 값 평균 = (변량의 총합) ÷ (변량의 개수)

= {(계급값) × (도수)}의 총합 ÷ (도수의 총합)

= {(계급값) × (도수)}의 총합 ÷ (도수의 총합) 중앙값: 변량을 크기순으로 나열할 때, 중앙에 오는 값

도수분포표에서는 중앙값이 속한 계급의 계급값

자료의 수(n)가 홀수일 때 → (n + 1)/2번째 값

자료의 수(n)가 짝수일 때 → {n/2와 (n/2 + 1)}번째 값의 평균

도수분포표에서는 중앙값이 속한 계급의 계급값 자료의 수(n)가 홀수일 때 → (n + 1)/2번째 값 자료의 수(n)가 짝수일 때 → {n/2와 (n/2 + 1)}번째 값의 평균 최빈값: 각 변량 중에서 도수가 가장 큰 값

0개 또는 2개 이상일 수도 있다.

도수분포표에서는 도수가 가장 큰 계급의 계급값

그리드형(광고전용)

평균, 중앙값, 최빈값 제대로 이해하기

책에 나오는 통계 지식을 바로 실무에 활용하기는 어려울 수 있다. 평균, 중앙값, 분산값은 흔히 쓰지만, 정규분포만 해도 실무에 도움이 되는 방식으로 활용하기 어려울 수 있다. 특히 데이터 관련 직군이 아니면 더 그렇다.

그럼에도 데이터 직군 외 마케터, 기획자 등이 이러한 통계 지식을 알아놓으면 좋은 이유는 특정한 개념을 알고 업무를 하는 것과, 그렇지 않은 것은 정말 천지차이 이기 때문이다. 특정한 개념을 알면, 스스로에게 ‘내가 정확한 데이터를 보고 있나?’ ‘내가 올바르게 해석하고 있나?’를 질문할 수 있기 때문이다. 그리고 이러한 질문을 반복하고, 이에 대한 답을 찾아나감으로써 더 수준 높은 업무를 차차 해 나갈 수 있다.

* 직접 구매해서 읽고 쓰는 내돈내산 후기입니다. 🙂

평균과 분산 이해하기

평균은 대푯값의 대표?

1. 대푯값은 ‘전체의 중앙’, 즉, ‘보통 값’에 해당하는 데이터로 통계학에서는 평균(average), 중앙값(median), 최빈값(mode) 3가지를 대푯값으로 이용합니다.

2. 평균은 대푯값 중에서도 대표적인 요소입니다. 평균에도 단순평균(산술평균), 가중평균, 조화평균, 기하평균 등 여러 종류가 있습니다만, 별도의 조건이 없다면 평균은 단순평균(산술평균)을 뜻합니다

3. 평균 계산의 의미는 ‘평균이란 데이터 전체의 중심에 위치한다.’라는 것입니다.

4. 평균은 특잇값에 약하다는 것을 알 수 있습니다. 이는 ‘평균이 전체의 중심(큰 수의 영향을 받음)’이기 때문입니다.

특이값에 강한 ‘중앙값’

5. 중앙값이란 데이터를 작은 순서(또는 큰 순서)로 나열했을 때 ‘가장 가운데’ 위치에 있는 수치를 말합니다. 따라서 극단적으로 큰 수치(혹은 작은 수치), 즉 ‘특잇값’이 있더라도 평균과 같이 크게 흔들리는 일이 없습니다. 이런 의미에서 중앙값을 강건한(robust) 대푯값이라 합니다.

6. 데이터의 수가 홀수일 때는 ‘한가운데 데이터’가 1개뿐이므로 그것이 중앙값이 됩니다. 그러나 데이터의 수가 짝수일 때는 한가운데 데이터가 2개입니다. 이럴 때는 2개 데이터의 평균을 구하여 ‘중앙값’으로 합니다.

가장 많은 데이터가 ‘최빈값’

7. 최빈값은 데이터를 몇 개의 클래스로 나누었을 때 빈도수가 가장 많은 클래스를 일컫습니다. 단, 일정 개수 이상의 데이터가 없다면 최빈값은 거의 의미가 없습니다.

8. 최빈값은 ‘가장 많은 데이터’라는 의미에서는 간단해 보입니다만, 데이터 수나 클래스를 어떻게 나눌 것인가 등 다루기 어려운 부분이 있습니다.

평균, 중앙값, 최빈값의 위치 관계는?

9. 데이터가 균형을 이룬 깔끔한 상태의 (정규분포 등) 분포 그래프일 때 평균과 중앙값, 최빈값은 거의 같은 위치에 있습니다. 이때는 평균을 대푯값으로 사용하는 것이 일반적입니다. 평균을 대푯값으로 사용하는 것이 편리한 이유는 ‘분산’과의 궁합이 아주 좋기 때문입니다.

10. 평균과 중앙값, 최빈값이 거의 일치하는 경우는 좌우 균형을 이루는 그래프일 때뿐이므로 어느 쪽으로든 길게 늘어진 일그러진 형태라면 평균은 특이값의 영향을 많이 받습니다.

산포도를 나타내는 ‘사분위수, 상자수염그림’

11. 통계학에서는 최댓값부터 최솟값까지의 넓이를 범위(range)라 합니다.

12. 데이터를 4등분 해보겠습니다. 이를 사분위수라 부릅니다. 우선 데이터의 최솟값에서부터 4분의 1위치(25%에 있는 데이터가 제 1사분위수, 아래에서 4분의 2 위치 데이터가 제2 사분위수(중앙값), 아래에서 4분의 3 위치에 있는 데이터가 제3 사분위수입니다.

13. 제1 사분위수부터 제3 사분위수까지의 넓이를 사분위범위라 부릅니다.

평균에서 ‘분산’으로

14. 평균과 각 데이터의 차이를 편차라 합니다. 이는 각각의 데이터가 평균과 어느 정도 떨어져 있는지, 한쪽으로 얼마나 치우쳐 있는지를 가리킵니다.

15. 편차 = (각) 데이터 – 평균

16. 평균과의 차이가 마이너스가 되는 것에 대해 절댓값 기호로 플러스로 변환한 다음 계산합니다. 이렇게 하면 데이터의 산포도를 측정할 수 있는 좋은 지표가 될 것입니다. 이를 평균편차(mean deviation)라 합니다.

17. 이 평균편차를 이용하면 0이 되지는 않습니다. 계산도 편하고 사고방식도 직관적입니다. 무엇보다도 ‘평균과의 차이’의 평균이므로 평균과의 멀어짐 정도(거리)를 나타냅니다.

18. 편차를 일단 제곱한 다음, 이를 모두 더하여 데이터 수로 나누면 되지 않을까라는 것입니다. 이렇게 하면 플러스 마이너스로 서로 상쇄되는 일은 없습니다. 이를 데이터 수로 나눈 것을 분산이라 부르기로 합니다. 데이터의 산포도를 나타내는 지표로 사용합니다. 분산 = (편차의 제곱)의 합계 / 데이터 수

‘분산’에서 ‘표준편차’로

단점 1/ 너무 큰 ‘분산’

19. 원래 분산은 ‘산포도를 수치화하여 살펴보는’ 것이 목적. 그러나 분산은 ‘(각) 데이터 – 평균’, 즉 편차를 제곱하므로 아주 큰 수치가 된다는 점은 이미 앞 절에서도 살펴본 대로입니다. 즉, 첫 번째 분산의 문제점은 편차에 비해 아주 큰 수치가 된다는 점입니다.

단점 2/ 단위가 변하는 ‘분산’

20. 분산은 계산 과정에서 제곱이 되므로, 원래의 의미와 달라짐. 표준편차 = √분산

표준편차 계산하기

21. 표준편차 계산하기

– 1/ 평균 구하기: 평균이란 데이터가 균형을 이루는 곳, 즉 중심 위치이다.

– 2/ 편차 구하기: 편차는 각 데이터와 평균과의 차이입니다.

– 3/ 분산, 표준편차 구하기: 각 편차(각 데이터- 평균)를 제곱하고 그 합을 구하여 개수로 나누면 이것이 분산입니다. 분산은 편차를 제곱한 것이므로 표준편차를 계산하려면 분산의 제곱근(루트)을 취합니다.

정규분포 체감하기

데이터로 도수분포표 만들기

22. 정규분포로의 첫걸음은 ‘히스토그램 만들기’입니다. 데이터 수집 -> 도수분포표 만들기 -> 히스토그램 만들기.

– 1/ 데이터: 이미 처리된 2차 데이터보다 1차 데이터 사용을 권장

– 2/ 도수분포표: 원시 데이터를 이용하여 최댓값, 최솟값(범위) / 그래프 폭(계급)과 빈도 등을 통해 도수분포표 완성

– 3/ 히스토그램: 도수분포표를 이용하여 히스토그램 생성. 분포 상황을 한눈에 파악.

23. 데이터를 그래프화하여 히스토그램을 만들려면 우선 도수분포표를 만들어야 합니다. 도수분포표에 구간이 나누어진 것을 알 수 있습니다. 이를 계급이라 부릅니다. 다만, 데이터양이 적을 때 너무 많은 계급으로 구분하면 각각의 범위에 포함되는 데이터 양이 적어지므로 보기 불편해집니다.

24. 계급을 나누어보겠습니다. 순서는 다음과 같습니다.

– 1/ 데이터의 최댓값, 최솟값 조사

– 2/ 해당 범위(최댓값 – 최솟값)와 데이터 개수에 따라 6~10개로 구분

25. ‘계급값’이란 해당 계급의 한가운데 값입니다.

히스토그램에서 쌍봉형을 발견했다면?

26. 히스토그램 유형 3가지

– 1/산형(종형): 몸무게나 키와 같은 다수의 ‘연속량 데이터’에서 볼 수 있는 패턴. 산(봉)이 하나이므로 ‘단봉형’이라고도 함.

– 2/ 지수형: 이런 그래프 패턴은 제품별 판매 순위, 신제품 고장(불만)의 시간적 경위 등에서 자주 발견됨.

– 3/ 쌍봉형: 산(봉)이 2개인 쌍봉형 패턴. 이러한 쌍봉형이 나타날 경우 원래 데이터를 재확인할지 검토해야 함.

히스토그램에서 분포곡선으로

27. 정규분포곡선은 가운데 ‘평균’이 있고, 그 부근에 많은 수의 데이터가 모이며, 평균에서 멀어질수록 계측한 데이터양도 줄어드는 분포입니다.

28. 정규분포에는 무수한 패턴이 있습니다. 단, 그러한 패턴도 ‘평균’과 ‘분산(표준편차)’의 2가지 수치만으로 정해집니다.

29. 실제로 정규분포에서는 ‘평균에서 얼마나 떨어져 있는가?’로 해당 범위에 포함되는 데이터의 비율(확률)이 정해집니다. 그리고 그 거리 단위로 표준편차를 사용합니다.

정규분포 움직이기 1: 평균 변경

30. 정규분포는 좌우 대칭을 이루는 보기 좋은 그래프입니다. 형태는 무수히 많으며 배치도 조금씩 어긋납니다. 평균은 이러한 정규분포의 딱 중간에 위치하므로 평균이 달라지면(표준편차는 그대로) 정규분포의 중심축도 달라집니다. 즉, 평균이 변하면 ‘정규분포는 좌우로 움직이는’ 것입니다. 덧붙여 평균=0, 표준편차=1인 정규분포를 표준정규분포라고 합니다.

정규분포 움직이기 2: 표준편차 변경

31. 표준편차(혹은 분산) 값이 클 때는 납작한 정규분포곡선이 그려집니다. 반대로 표준편차가 작아지면 작아질수록 정규분포곡선은 점점 뾰족해집니다. 다만 평균은 그대로이므로 중심은 움직이지 않습니다.

32. 이렇게까지 형태가 바뀌어버리면 마치 전혀 다른 분포도인 듯 보이지만, 실제로는 단순히 옆으로 늘어났거나 아래위로 늘어났을 뿐 기본적으로는 같다고 할 수 있습니다.

정규분포로 확률 보기

33. 정규분포에서는 평균(평균)을 중심으로 좌우로 줄어드는 곡선을 그립니다. 이때 -1 시그마(시그마는 표준편차) 단위부터 1 시그마까지의 거리에 속하는 면적 (±1 시그마)은 68.26%가 된다고 설명했습니다. 이는 어떤 형태의 정규분포곡선에서도 마찬가지입니다.

34. 결국, 정규분포곡선에서 ‘평균±표준편차(혹은 분산)’까지의 범위는 특정 데이터가 해당 범위에 포함될 확률을 나타냅니다.

35. ±1 시그마(표준편차)의 위치는 수학에서 ‘변곡점’이라 불리는 특별한 위치임. 곡선 위에서 가장 ‘기울기가 큰’ 지점으로, 이 지점을 경계로 양쪽의 기울기가 작아짐.

여러 곳에서 사용할 수 있는 표준정규분포

36. 표준점수를 계산하여 표준화했을 때 이를 나타내는 분포는 ‘평균 = 0, 표준편차 = 1인 정규분포’가 됩니다. 무수히 많은 정규분포 중에서도 이러한 특별한 정규분포를 가리켜 표준정규분포(standard normal distribution)라 부릅니다.

표본을 이용하여 모집단의 특징 추정하기

무엇을 ‘추정’할까?

37. 현대 통계학의 주류는 추측 통계학입니다. 그런 의미에서 추측 통계학을 다루는 ‘(통계학적) 추정’과 ‘가설검정’이 추측 통계학이 중심 역할이라 할 수 있습니다.

– 기술 통계학: 모든 데이터를 다루는 것이 기본

– 추측 통계학: 표본에서 원래 집단의 특징 등을 추정

38. 표본 데이터를 이용하여 원래 집단의 성질, 특징 등을 추정할 때는 도대체 무엇을 ‘추정’하는 것일까요? 이때의 추정이란 ‘원래 집단’의 평균, 분산 또는 비율 등을 일컫습니다.

39. 평균과 분산이 중요한 이유는 이 두 가지만 알면 원래 집단에 대해 어느 정도 추측할 수 있기 때문입니다.

40. 표본 데이터에서 원래 집단의 평균을 추정하는 방법에는 어림짐작이 아닌 이를 떠받치는 사고방식, 즉 이론이 필요합니다. 이것을 중심극한정리(central limit theorem)라 부릅니다. 이는 원래 집단의 평균을 추정하는 추측 통계학의 근거가 되는 중요한 정리입니다.

통계학 용어 정리

41. 여러분이 표본(샘플)의 평균을 염두에 두고 있어도 상대가 다른 것을 떠올릴 가능성이 있다면 어느 쪽의 의미로 사용하는지를 확인하면서 이야기를 진행하는 것이 좋습니다. 이를 위해서도 정확한 통계학 용어나 개념을 구분 지어 사용하며 상대와 의사소통해야 합니다.

42. 모집단에서 샘플을 통해 수집한 데이터를 표본이라 부릅니다. 모집단에는 해당 데이터의 평균, 분산, 표준편차가 있습니다. 여기에 각각 ‘모’를 붙여 모평균, 모분산, 모표준편차로 부릅니다. 아무런 설명 없이 ‘평균, 분산, 표준편차’라 한다면 이는 ‘모집단의 평균, 분산, 표준 편차’를 가리킵니다.

43. 그리고 표본에도 ‘표본’이라는 접두사를 붙여 ‘표본평균, 표본분산, 불편분산, 표본표준편차’라 하여 모집단과 구별합니다. 덧붙여 이처럼 표본을 이용하여 계산한 표본평균, 표본분산, 불편분산, 표본평균편차를 통계량이라 부릅니다. 통계량이라는 용어는 자주 사용합니다만, 모집단의 값은 통계량이라 부르지 않습니다.

44. 불편분산의 경우에는 마지막을 ‘데이터 개수’로 나누는 대신 ‘데이터 개수-1’로 나누는 거야. 이것이 불편분산이지. 표본분산은 보통의 분산(모분산)과 마찬가지로 ‘데이터 개수’로 나누어.

45. ‘표본분산'(데이터 개수 n으로 나눔)을 이용하여 모분산을 추정하면 ‘조금 작은 값’이 나온다는 것을 알고 있었지. 하지만 ‘데이터 개수-1’인 불편분산을 사용하여 추정하면 모분산과 일치한다는 거야. 불편분산이 모분산과 일치한다는 것은 수학적으로 증명은 되지만 무척 어려운 내용이야.

46. 모집단의 특징을 추정하기 위한 표본 데이터를 ‘추정값’이라 불러. 이런 의미에서 표본평균이나 불편분산은 추정값이 되지만, 표본분산은 추정값이라 할 수 없어.

‘점추정’은 맞을 수도 있다?

47. 간단한 추정 방법을 점추정이라 부릅니다. 단, 모집단이 정규분포라는 것을 알고 있다면 점추정에도 그 나름의 설명이 가능합니다만, 모집단의 분포를 전혀 알 수 없다면 점추정은 매우 어렵습니다.

48. 점추정과 달리 일정한 폭과 구간을 추정하는 방법이 있습니다. 이러한 추정 방법을 구간추정이라 부릅니다. 구간추정을 하려면 ‘중심극한정리’ 등의 준비가 필요합니다.

구간으로 나타내는 ‘구간추정’

49. 중심극한정리의 경우 ‘모집단의 분포가 어떠하든~’이라고 했으나, 만약 이 모집단이 정규분포임을 알고 있다면 ‘표본 n의 개수는 상관 없다(즉 표본 수가 적어도 됨)’라는 더 편리한 성질이 있습니다.

99% 신뢰도일 때의 구간 추정

50. 표본 인원 수가 4명, 40명, 400명으로 늘어날수록 같은 95%, 99% 확률이라도 구간은 좁아지고, 이와는 반대로 95%에서 99%로 높아지면 구간은 넓어집니다. 이러한 95%와 99% 확률을 이미 언급한 대로 신뢰도라 하며 이때의 구간은 신뢰구간이라고도 부릅니다.

t 분포, x^2 분포

51. 모평균을 모를 때는 어떻게 할까요? 이때는 ‘모집단이 정규분포’임을 안다면 ‘t분포’라는 정규분포와 많이 닮은 분포를 이용할 수 있습니다. t분포는 데이터 30개까지는 정규분포에 비해 분포도가 조금 평평하며 30개가 넘어가면 정규분포와 거의 같아집니다.

52. 정규분포나 t 분포는 좌우 대칭 분포를 그리지만 x^2 분포는 멱분포와 비슷한 모양을 그립니다.

가설을 세우고 올바른 가설인지 확률로 판단하기

가설검정이란?

53. 가설검정이란 가설 X가 올바르다고 가정했을 때, 확률적으로 일어날 수 없는 아주 희귀한 일이 일어난다면 가설 X 자체가 잘못되었을 가능성이 크다는 것으로, 최초의 가설 X를 부정하고 남은 가설 Y를 채택한다는 원리입니다. (p.243)

– 주장하고 싶은 가설 = 대립가설

– 기각하고 싶은 가설 = 귀무가설(영가설)

54. 중요한 점은 결국 ‘지극히 희귀한, 드문’ 경우의 기준을 구체적인 수치(확률)로 사전에 정해두는 것입니다.

55. 그렇게 결정한 수치(확률) 보다 작은 확률의 일이 발생했을 때 더는 ‘우연’이라 할 수 없고 무언가의 필연적인 의미가 있을 것이라고 선을 그은 기준(확률)을 유의수준(significance level)이라 부릅니다.

56. 그리고 이 유의수준에 포함되면 ‘가설이 옳다고 가정했을 때 부자연스럽게 드문 일이 일어났다.’라고 보고 ‘최초의 가설(귀무가설)’을 버립니다. 이를 통계학에서는 기각이라 부르며, 이 기준선보다 희귀한 방향(지극히 드문 영역)을 기각역이라 합니다.

57. 기각역, 즉 유의수준은 일반적으로 5%로 설정할 때가 흔하며(반대로 말하면 95% 안에 들어가면 ‘드물다고 할 수 없음’이라 판단) 경우에 따라서는 1% 일 때도 있습니다. 그러나 5%든 1%든 잘못을 저지를 위험성이 있으므로 이를 위험률이라고도 부릅니다.

58. 통계학은 수치를 이용한 합리적인 판단 기준을 정하고 있습니다만, 항상 5%(혹은 1%) 비율로 빗나갈 위험도 있음을 명심해야 합니다.

가설검정 순서

59. 1/ 대립가설 설정 -> 2/ 귀무가설 설정 -> 3/ 귀무가설이 올바르다고 가정 -> 4/ 유의수준 설정 -> 5/ 대립가설을 고려한 기각역 설정 -> 6/ 실제 데이터로 판단 -> 7/ 기각역 안쪽: 대립가설 채택 or 기각역 범위 밖: 귀무가설 수용

검정에서 조심해야 할 두 가지 실수

참이지만 틀릴 경우

60. 가설검정은 완전무결한 것이 아니라 ‘항상 빗나갈 위험성을 숨기고 있는’ 것입니다.

61. ‘귀무가설이 옳았음에도 올바르지 않다며 기각’하는, 즉 옳은(진짜) 것임에도 올바르지 않다고 잘못 판단할 경우를 제1종 오류 또는 알파 오류라 부릅니다.

거짓이지만 통과될 경우

62. 귀무가설이 올바르지 않았음에도 기각하지 못한 경우, 즉 거짓인 것을 참이라고 잘못 판단한 것으로 이를 제2종 오류 또는 베타 오류라 합니다.

유의수준 설정의 양면성

63. 통계학 검정에서는 유의수준을 ‘5%, ‘1%’ 등의 형태로 설정하고, 해당 영역에 포함되면 귀무가설을 버리고 대립가설을 채용합니다. 이때 5%의 유의수준에서 버려진 귀무가설은 실은 올바른 것이었을 수도 있습니다.

64. 유의수준 설정은 트레이드오프(trade-off) 관계에 있다는 사실입니다. ‘저쪽을 올리면 이쪽이 내려간다.’라는 것이죠. 2가지 오류를 동시에 줄일 수는 없습니다. 다만 이들의 관계가 트레이드 오프인 이상, 완전한 해결책을 찾기보다는 각각의 상황에 맞는 유의수준을 정하는 방향으로 결정해야 합니다.

So you have finished reading the 중앙값 topic article, if you find this article useful, please share it. Thank you very much. See more: 중앙값 구하기 공식, 중앙값 계산기, 중앙값 평균 차이, 중앙값 단점, 중위값 중앙값, 중앙값 뜻, 짝수 중앙값, 중앙값 엑셀

Leave a Comment