본문 바로가기
KNOU/요약정리

[데이터 정보처리 입문] 데이터의 입력과 점검

by bottlesun 2023. 6. 1.
728x90

데이터(data)

  • 어떤 관심 있는 주제에 대해서 수집된 구조화된 정보
  • 일반적인 의미의 데이터는 수치, 문자, 그림 등의 표현양식과 관계없이 어떤 주제에 대한 구조화 된 정보를 뜻함

데이터의 특징

  • 어떤 관심 있는 주제에 대하여 얻어진 것
  • 분석에 알맞은 일정한 규칙과 형태로 수집되고 정리 된다
  • 분석과정을 통해 유용한 정보로 변환
  • 조사나 실험을 통해 수집되어 알맞은 형태로 변환

통계적 데이터(statistical data)

수치적 계산과 통계적 분석에 알맞은 데이터

데이터 분석의 목적

  • 자연 및 사회 현상에 대한 정확한 현상(집단의 특징) 파악
  • 왜 그런 현상이 나타나게 되었는지(인과관계) 규명
  • 경제, 사회현상 속에 숨어있는 법칙성 발견

→ 미래 상황 예측으로 합리적인 의사결정 도움

데이터 수집 방법

  • 통계 조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로부터 정해진 측정 방법(측정도구, 질문지)으로 측정하여 얻음
  • 측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단위에 수치를 부여하는 작업
  • 예 : 표본으로 뽑힌 사람들의 몸무게, 지능 혹은 취업상태 등을 관측하여 수치로 나타내는 경우

→ 측정된 전체 자료를 데이터(data) 라고 함

데이터 관련 기본용어

케이스(case , 레코드) :

데이터 세트에서 하나의 조사 단위에 대한 정보의 집합체

변수(variable, 필드) :

각 조사단위로부터 측정된 개별적인 속성

데이터 행렬 표현

이름  성별 나이 학력
김남자 남자 28 고졸
김여자 여자 31 대졸
김아무개 남자 12 .
  • 데이터를 행렬 형태로 표시하면 이해하기 쉬움
  • 각 행은 케이스(레코드), 각 열은 변수(필드)가 됨
  • 김아무개 케이스에서 교육정도의 “.” 은 결측값을 뜻함

측정의 수준

  • 측정 수준에 따라 명목척도(nominal scale), 순서척도(ordinal scale), 구간척도(interval scale), 비율척도(ratio scale)로 구분함
  • 측정의 척도에 따라서 제공되는 정보의 수준이 달라짐
  • 데이터 분석에 이용할 수 있는 분석 방법이 달라짐

명목척도

  • 측정대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여
  • 단순히 범주 구분이 목적 → 수치의 대 소 비교, 연산 의미X

예시 ) 남(1), 여(2) 구분 , 운동선수 등번호, 종교 등등..

순서척도

  • 어떤 특성을 많고 적음에 따라 수치를 부여함
  • 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있다.

예시) 제품이나 서비스의 질을 묻는 질문 → 아주 좋음(5) , 좋음(4) , 보통(3) , 나쁨(2) , 아주 나쁨(1)

구간척도

  • 측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치 부여
  • 연속형 값으로 측정값의 차이는 의미 있지만, 비교는 의미 없다.
  • 절대 0을 정의 할 수 없고, 임의로 지정된 0만 있다.

예시) 섭씨온도, IQ, 주가차트 등등..

비율척도

  • 구간척도와 유사하지만 축정값의 차이뿐만 아니라 비교가 의미가 있는 경우
  • 절대 0을 정의 할 수 있다.

예시) 소득, 체중, 신장, 시간, 방문객 수

데이터의 구분

측정 수준에 따른 구분

  • 질적 변수
  • 양적 변수 : 연속성 변수

측정되는 변수의 수에 따른 구분

  • 일변량 데이터 (변수 한개)
  • 다변량 데이터 (변수 여러개)

부호화(coding, 코딩)

수집 된 결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정

  • 연속형 변수는 관측된 값이 숫자이기 때문에 그대로 입력 가능
  • 여러 사람이 부호화 작업에 참여할 때는 부호화의 일관성이 유지되도록 부호화 지침서(code book) 을 만들어 사용함
  1. 텍스트파일
  • ASCII 코드 형식으로 저장된 파일.
  • 자유형식 과 고정형식으로 구분

자유형식 : 변수와 변수 구분은 공란 으로 구분

고정형식 : 각 변수가 위치 할 열(col) 을 정한 후 입력

728x90

'KNOU > 요약정리' 카테고리의 다른 글

[데이터 정보처리 입문] 한글, 엑셀, R  (0) 2023.06.01
[데이터 정보처리 입문] 통계 정보의 검색 및 활용  (0) 2023.06.01
[python] 파일  (0) 2023.05.16
[python] 모듈  (0) 2023.05.16
[python] 객체지향  (0) 2023.05.16

댓글