데이터(data)
- 어떤 관심 있는 주제에 대해서 수집된 구조화된 정보
- 일반적인 의미의 데이터는 수치, 문자, 그림 등의 표현양식과 관계없이 어떤 주제에 대한 구조화 된 정보를 뜻함
데이터의 특징
- 어떤 관심 있는 주제에 대하여 얻어진 것
- 분석에 알맞은 일정한 규칙과 형태로 수집되고 정리 된다
- 분석과정을 통해 유용한 정보로 변환
- 조사나 실험을 통해 수집되어 알맞은 형태로 변환
통계적 데이터(statistical data)
수치적 계산과 통계적 분석에 알맞은 데이터
데이터 분석의 목적
- 자연 및 사회 현상에 대한 정확한 현상(집단의 특징) 파악
- 왜 그런 현상이 나타나게 되었는지(인과관계) 규명
- 경제, 사회현상 속에 숨어있는 법칙성 발견
→ 미래 상황 예측으로 합리적인 의사결정 도움
데이터 수집 방법
- 통계 조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정 방법(측정도구, 질문지)으로 측정하여 얻음
- 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업
- 예 : 표본으로 뽑힌 사람들의 몸무게, 지능 혹은 취업상태 등을 관측하여 수치로 나타내는 경우
→ 측정된 전체 자료를 데이터(data) 라고 함
데이터 관련 기본용어
케이스(case , 레코드) :
데이터 세트에서 하나의 조사 단위에 대한 정보의 집합체
변수(variable, 필드) :
각 조사단위로부터 측정된 개별적인 속성
데이터 행렬 표현
이름 | 성별 | 나이 | 학력 |
김남자 | 남자 | 28 | 고졸 |
김여자 | 여자 | 31 | 대졸 |
김아무개 | 남자 | 12 | . |
- 데이터를 행렬 형태로 표시하면 이해하기 쉬움
- 각 행은 케이스(레코드), 각 열은 변수(필드)가 됨
- 김아무개 케이스에서 교육정도의 “.” 은 결측값을 뜻함
측정의 수준
- 측정 수준에 따라 명목척도(nominal scale), 순서척도(ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)로 구분함
- 측정의 척도에 따라서 제공되는 정보의 수준이 달라짐
- 데이터 분석에 이용할 수 있는 분석 방법이 달라짐
명목척도
- 측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여
- 단순히 범주 구분이 목적 → 수치의 대 소 비교, 연산 의미X
예시 ) 남(1), 여(2) 구분 , 운동선수 등번호, 종교 등등..
순서척도
- 어떤 특성을 많고 적음에 따라 수치를 부여함
- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있다.
예시) 제품이나 서비스의 질을 묻는 질문 → 아주 좋음(5) , 좋음(4) , 보통(3) , 나쁨(2) , 아주 나쁨(1)
구간척도
- 측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치 부여
- 연속형 값으로 측정값의 차이는 의미 있지만, 비교는 의미 없다.
- 절대 0을 정의 할 수 없고, 임의로 지정된 0만 있다.
예시) 섭씨온도, IQ, 주가차트 등등..
비율척도
- 구간척도와 유사하지만 축정값의 차이뿐만 아니라 비교가 의미가 있는 경우
- 절대 0을 정의 할 수 있다.
예시) 소득, 체중, 신장, 시간, 방문객 수
데이터의 구분
측정 수준에 따른 구분
- 질적 변수
- 양적 변수 : 연속성 변수
측정되는 변수의 수에 따른 구분
- 일변량 데이터 (변수 한개)
- 다변량 데이터 (변수 여러개)
부호화(coding, 코딩)
수집 된 결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정
- 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력 가능
- 여러 사람이 부호화 작업에 참여할 때는 부호화의 일관성이 유지되도록 부호화 지침서(code book) 을 만들어 사용함
- 텍스트파일
- ASCII 코드 형식으로 저장된 파일.
- 자유형식 과 고정형식으로 구분
자유형식 : 변수와 변수 구분은 공란 으로 구분
고정형식 : 각 변수가 위치 할 열(col) 을 정한 후 입력
728x90
'KNOU > 요약정리' 카테고리의 다른 글
[데이터 정보처리 입문] 한글, 엑셀, R (0) | 2023.06.01 |
---|---|
[데이터 정보처리 입문] 통계 정보의 검색 및 활용 (0) | 2023.06.01 |
[python] 파일 (0) | 2023.05.16 |
[python] 모듈 (0) | 2023.05.16 |
[python] 객체지향 (0) | 2023.05.16 |
댓글