[코딩에듀벤처스 칼럼]엔트리로 쉽게 하는 데이터 분석 - 데이터 전처리
- Coding Ground
- 2024년 9월 5일
- 2분 분량
안녕하세요😃 코딩그라운드 서울점 강사 김은진 입니다.
오늘은 학생들과 쉽게할 수 있는 데이터 분석 에 대해서 소개해드리려합니다.
요즘은 중고등학생들이 학교 정규 수업에서도 데이터 과학에 대해 배울 만큼,
데이터 과학, 데이터 분석은 중요한 분야로 자리잡고 있습니다.
이번에는 엔트리 블록코딩을 활용해서 중학생과 초등학생까지도 쉽게 따라할 수 있는 데이터 분석 방법에 대해서 소개해드리겠습니다.
데이터 과학의 순서는 다음과 같습니다.
데이터 수집
데이터 전처리
데이터 시각화
데이터 분석
1. 데이터 수집
먼저, 엔트리에 접속 하신 후 “작품 만들기” 를 선택하여 작품 만들기 페이지에 접속하면
[데이터 분석] 이라는 블록 파트가 있는 것을 확인할 수 있습니다.
여기서 테이블 불러오기 버튼을 선택하면, 아래와 같이 다양한 데이터 테이블 들이 있는 것을 확인하실 수 있습니다.
데이터 테이블이란?
데이터를 분석과 처리하기 위한 용도로 여러 데이터 들을 저장하고 있는 “표” 라고 생각하시면 될 것 같습니다.
엔트리에서는 공공 데이터와 네이버 블로그 통계, 코로나19 현황 등 다양한 기본 데이터셋을 제공하고 있습니다.
저는 “시도별 인구” 데이터 테이블을 선택하였습니다.
이를 통해 각 지역별로 연도에 따른 인구수 데이터를 확인할 수 있습니다.
2. 데이터 전처리
데이터 전처리란 ?
데이터테이블을 해석하고 분석하기 용이한 형태로 가공을 해야하는데요. 이 과정을 ‘전처리’ 라고 합니다.
전처리의 과정도 이상치와 결측치를 제거하는 과정, 필요 없는 데이터를 지우는 과정이 있습니다.
위 사진과 같이 직접 테이블에서 원하는 영역을 선택하여 삭제하거나, 필요한 영역을 추가할 수 있어요.
그러나, 이번에는 엔트리의 ‘데이터 분석’ 파트에 있는 블록들을 활용해서 원하는 행 또는 열의 데이터를 삭제하는 방법을 소개해드리려합니다.
1.원하는 행의 데이터를 삭제하기

예를 들어, 1995년에 대한 데이터들을 모두 삭제하고 싶을 수 있습니다.
그럴때는 행번호(5)를 통해 찾아서 삭제하는 방법과, 1995년이라는 데이터를 통해 찾아서 삭제하는 방법이 있습니다.
a.행번호를 통해 삭제

저희는 사전에 본 테이블에서 1995년에 해당 하는 데이터는 5번째 행에 있는 것을 알 수 있었습니다. 그 정보를 바탕으로 위와 같은 블록을 통해 1995년에 해당하는 5번째 행의 데이터를 삭제할 수 있습니다.
그런데 만약, 테이블을 본적이 없는 사용자라면 1995년에 해당하는 데이터가 몇번째 행에 있는지 알지 못할 수도 있습니다. 그러한 경우에는 1995년이라는 데이터를 통해 찾아서 삭제해야합니다.
b.데이터를 통해 찾기

먼저 '행번호' 라는 이름의 변수를 생성해준 후 1로 초기화를 해줘야합니다.

다음으로 반복을 통해서 첫번째 행부터 모든 행들을 살펴보며,
특정행의 '연도' 값이 1995년인 경우 해당 행의 데이터를 삭제하면 됩니다.
첫번째 방법보다 코드는 훨씬 복잡하지만, 사용자의 입장을 고려했을 때는 이 방법이 훨씬 효율적인 방법이랍니다.
2. 원하는 행을 제외한 모든 데이터를 삭제하기

이번엔 반대로 특정 행을 제외한 모든 행을 삭제해보려합니다.
나는 1995년에 해당하는 인구수만 분석하고 싶을 수도 있으니깐요.
이러한 경우에는 '행번호'를 나머지 데이터를 모두 삭제하려면 너무 많은 블록을 사용해야하기 때문에 데이터를 통해 삭제하는 방법만 시도해보겠습니다.
먼저, 위에서 사용했던 '행번호' 변수의 초기값을 2로 변경해주세요. 지역 속성을 삭제해주면 안되니깐요!

위에서 사용했던 블록 코드에서 조금만 수정해주시면 됩니다.
데이터 전처리를 위해 다른 툴을 사용하지 않고,
엔트리의 블록들만 활용하여 필요한 데이터만 남겨두거나, 필요없는 데이터를 삭제하는 프로그래밍을 진행해보았습니다.
데이터 전처리의 과정은 정확하고 효율적인 데이터 분석을 위해 필수적이고, 중요한 과정입니다.
데이터 전처리를 모두 끝마쳤다면, 다음 칼럼을 통해 준비된 데이터를 활용하여 데이터 시각화 프로그램을 만들어보도록 하겠습니다.
Comments