본문 바로가기
KNOU/요약정리

[데이터 정보처리 입문] 통계 정보의 검색 및 활용

by bottlesun 2023. 6. 1.
728x90

중심 위치 측도

데이터 집합의 중심 경향을 나타내는 통계적 측정 값

평균(mean)

모든 자료 값의 합계를 자료개수로 나눈다.

특이 값의 영향을 많이 받는다

절사평균(trimmed mean)

10% 절사평균은 표본에서 가장 작은 값 10%와 가장 큰 값 10% 를 빼고 계산된 평균을 말함.

중앙 값(median, 중위수)

자료 값을 크기 순으로 배열한 후 중앙에 위치하는 값

자료의 수가 n 이면 n+1 분의 2 번째 값

예시) 1,2,3,4,5,6,7,8,9 → median : 5

최빈값(mode)

자료중 가장 빈도가 많은 값

예시 ) 유니폼의 표준 치수

이산형 자료일 경우 도수분포표만 봐도 알 수 있다.

연속형 자료일 경우 자료를 몇개의 계급 구간으로 나누어 가장 도수가 높은 계급의 중간값을 최빈값으로 정함

예시) 13,18,14,16,15,14,13 → mode : 13

산포도 측도(measure of dispersion)

자료의 흩어진 정도를 수치로 측정하는 것 (분산, 표준편차)

편차 : 자료값과 산술 평균간의 차이

표준편차(standard deviation)

(분산의 단위를 원자료와 같은 단위로 하기 위해) 분산에 제곱근을 한 것

변동계수(coefficient of variation) :

자료의 개수나 측정 단위가 다른 두개 이상의 자료에 대한 표준 편차를 비교하는 것은 무의미함.

이러한 경우에 사용하는 측도가 표준편차를 평균으로 나눈 표준화된 표준편차인 변동계수를 사용

범위(range) : 최대값(max) - 최소값(min)

사분위수 범위

p% 백분위수(percentile) 자료를 작은 것부터 큰 것 까지 순서대로 늘어놓았고, p% 번째 자료를 말함

백분위수 이름

백분위수 이름
25% 제1사분위수 Q1
50% 제2사분위수 Q2
75% 제3사분위수 Q3

사분위수 범위(IQR : interquartile range) : IQR = Q3 - Q1

연속형자료 그래프

히스토그램

연속인 자료를 일정한 계급으로 나누어 각 계급에 속한 도수들을 정리한 도수분포표를 이용하는 작성한 그래프

연속인 자료의 분포를 살펴볼 때 이용되는 그래프로서 많은 양의 자료에 적합

줄기 - 잎 그림

분포의 대략적인 형태를 살펴보기 위하여 작성되는 그래프로 군집의 존재여부, 집중도가 높은 구간, 대칭성의 여부, 자료의 범위 및 산포, 특이 값의 존재 여부 등을 파악하는데 이용 된다.

십 | 일
1 | 00458
2 | 1333458889
3 | 0355789
4 | 11133456678
5 | 111222333444566788
6 | 14779
7 | 33478
8 | 29
9 | 09

군집의 존재여부 →

집중도가 높은 구간 → 중복이 제일 많은 수

대칭성의 여부 확인 가능

자료의 범위 → 제일 큰 값 - 제일 작은 값

상자 그림

다섯숫자요약(five-number summary) → 최솟값, 최댓값, 중앙값, 제1사분위수, 제3사분위수)

상자그림(box plot) : 다섯숫자요약을 특이값과 함께 그래프로 표현한 것으로서 분포의 상태, 특이값의 유무, 여러 집단의 수치자료를 비교하고자 할 때 유용하게 이용.

728x90

댓글