중심 위치 측도
데이터 집합의 중심 경향을 나타내는 통계적 측정 값
평균(mean)
모든 자료 값의 합계를 자료개수로 나눈다.
특이 값의 영향을 많이 받는다
절사평균(trimmed mean)
10% 절사평균은 표본에서 가장 작은 값 10%와 가장 큰 값 10% 를 빼고 계산된 평균을 말함.
중앙 값(median, 중위수)
자료 값을 크기 순으로 배열한 후 중앙에 위치하는 값
자료의 수가 n 이면 n+1 분의 2 번째 값
예시) 1,2,3,4,5,6,7,8,9 → median : 5
최빈값(mode)
자료중 가장 빈도가 많은 값
예시 ) 유니폼의 표준 치수
이산형 자료일 경우 도수분포표만 봐도 알 수 있다.
연속형 자료일 경우 자료를 몇개의 계급 구간으로 나누어 가장 도수가 높은 계급의 중간값을 최빈값으로 정함
예시) 13,18,14,16,15,14,13 → mode : 13
산포도 측도(measure of dispersion)
자료의 흩어진 정도를 수치로 측정하는 것 (분산, 표준편차)
편차 : 자료값과 산술 평균간의 차이
표준편차(standard deviation)
(분산의 단위를 원자료와 같은 단위로 하기 위해) 분산에 제곱근을 한 것
변동계수(coefficient of variation) :
자료의 개수나 측정 단위가 다른 두개 이상의 자료에 대한 표준 편차를 비교하는 것은 무의미함.
이러한 경우에 사용하는 측도가 표준편차를 평균으로 나눈 표준화된 표준편차인 변동계수를 사용
범위(range) : 최대값(max) - 최소값(min)
사분위수 범위
p% 백분위수(percentile) 자료를 작은 것부터 큰 것 까지 순서대로 늘어놓았고, p% 번째 자료를 말함
백분위수 이름
백분위수 | 이름 |
25% | 제1사분위수 Q1 |
50% | 제2사분위수 Q2 |
75% | 제3사분위수 Q3 |
사분위수 범위(IQR : interquartile range) : IQR = Q3 - Q1
연속형자료 그래프
히스토그램
연속인 자료를 일정한 계급으로 나누어 각 계급에 속한 도수들을 정리한 도수분포표를 이용하는 작성한 그래프
연속인 자료의 분포를 살펴볼 때 이용되는 그래프로서 많은 양의 자료에 적합
줄기 - 잎 그림
분포의 대략적인 형태를 살펴보기 위하여 작성되는 그래프로 군집의 존재여부, 집중도가 높은 구간, 대칭성의 여부, 자료의 범위 및 산포, 특이 값의 존재 여부 등을 파악하는데 이용 된다.
십 | 일
1 | 00458
2 | 1333458889
3 | 0355789
4 | 11133456678
5 | 111222333444566788
6 | 14779
7 | 33478
8 | 29
9 | 09
군집의 존재여부 →
집중도가 높은 구간 → 중복이 제일 많은 수
대칭성의 여부 확인 가능
자료의 범위 → 제일 큰 값 - 제일 작은 값
상자 그림
다섯숫자요약(five-number summary) → 최솟값, 최댓값, 중앙값, 제1사분위수, 제3사분위수)
상자그림(box plot) : 다섯숫자요약을 특이값과 함께 그래프로 표현한 것으로서 분포의 상태, 특이값의 유무, 여러 집단의 수치자료를 비교하고자 할 때 유용하게 이용.
'KNOU > 요약정리' 카테고리의 다른 글
[HTML5 웹프로그래밍] HTML5 웹 요소 (0) | 2023.06.13 |
---|---|
[데이터 정보처리 입문] 한글, 엑셀, R (0) | 2023.06.01 |
[데이터 정보처리 입문] 데이터의 입력과 점검 (0) | 2023.06.01 |
[python] 파일 (0) | 2023.05.16 |
[python] 모듈 (0) | 2023.05.16 |
댓글