본문 바로가기

반응형

python/빅데이터분석기사

(5)
[초등학생도 이해하는 빅데이터분석기사 실기] 판다스 카테고리형 데이터를 수치형으로 변환하기 (LabelEncoder()) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다.현재 '초등학생도 이해하는 빅데이터분석기사 실기'라는 주제로 판다스(pandas)를 이용한 데이터 마이닝에 대해 포스팅을 진행하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 데이터 마이닝에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 오늘 알아볼 내용은 '판다스 카테고리형 데이터를 수치형으로 변환하기 (LabelEncoder())' 입니다.   위 그림과 같이, 우리가 일반적으로 사용하는 데이터셋은 크게 카테고리형 데이터와 수치형 데이터로 나뉩니다. 카테고리형 데이터는 그림의 빨간색 박스 안의 데이터들처럼 정해진 범주안의 문자형 데이터를 의미합니다. 예를 들어 졸업여부를 나타내는 카테고리인 ..
[초등학생도 이해하는 빅데이터분석기사 실기] 판다스 카테고리별 데이터 종류 및 개수 세기 (unique(), value_counts(), nunique() ) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 현재 '초등학생도 이해하는 빅데이터분석기사 실기'라는 주제로 판다스(pandas)를 이용한 데이터 마이닝에 대해 포스팅을 진행하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 데이터 마이닝에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 오늘 알아볼 내용은 '판다스 카테고리별 데이터 종류 및 개수세기'입니다. 만약 우리가 창고별 판매량 데이터를 가지고 있다고 했을 때 어떻게 하면 이를 효과적으로 다룰 수 있을까요? 여러 가지 방법이 있겠지만, 가장 간단한 방법은 우선 각 창고들이 몇 개 존재하는지를 아는 것입니다. 예를 들이 창고가 A, B, C 이렇게 3개가 있고, 각 창고의 데이터수가 49..
[초등학생도 이해하는 빅데이터분석기사 실기] 판다스 평균, 표준편차, 중앙값, 최대값, 최소값(mean(), std(), median(), max(), min()) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 현재 '초등학생도 이해하는 빅데이터분석기사 실기'라는 주제로 판다스(pandas)를 이용한 데이터 마이닝에 대해 포스팅을 진행하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 데이터 마이닝에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 오늘 알아볼 내용은 '판다스 평균, 표준편차, 중앙값, 최대값, 최소값'입니다. 우리가 데이터를 분석하다 보면, 대부분의 경우 데이터의 평균, 표준편차, 중앙값 등 다양한 값들이 필요합니다. 그중에서 오늘은 가장 중요한 데이터의 평균, 표준편차, 중앙값, 최대값, 최소값에 대해 알아보도록 하겠습니다. 먼저 본론으로 들어가기 전 이 값들의 의미에 대해서 알아보겠..
[초등학생도 이해하는 빅데이터분석기사 실기] 판다스 결측치 확인 및 채우기(isnull(), fillna()) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 현재 '초등학생도 이해하는 빅데이터분석기사 실기'라는 주제로 판다스(pandas)를 이용한 데이터 마이닝에 대해 포스팅을 진행하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 데이터 마이닝에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 오늘 알아볼 내용은 '판다스 결측치 확인 및 채우기'입니다. 결측치 우선 '결측치'에 대해서 간단히 설명을 드리자면 다음과 같습니다. 결측치(missing value) : 데이터셋에서 값이 비어 있는 것을 말합니다. 이는 데이터 수집 과정에서 발생할 수 있는 실수나 오류, 또는 해당 값이 존재하지 않는 경우 등으로 인해 발생할 수 있습니다. 결측치는 데이터 분..
[초등학생도 이해하는 빅데이터분석기사 실기] 판다스 데이터 정렬(sort_values()) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 오늘부터는 '초등학생도 이해하는 빅데이터분석기사 실기'라는 주제로 판다스(pandas)를 이용한 데이터 마이닝에 대해 포스팅하도록 하겠습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 데이터 마이닝에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 오늘 알아볼 내용은 '데이터 정렬'입니다. 1. 판다스 (pandas) 본론으로 들어가기 앞서 '판다스'에 대해 간단히 설명드리겠습니다. 판다스(Pandas) : 파이썬 프로그래밍 언어를 위한 데이터 조작과 분석을 위한 라이브러리입니다. 주로 표 형식의 데이터나 다양한 형식의 데이터를 처리하고 분석하는 데 사용됩니다. 판다스는 특히 데이터 프레임(DataFr..

반응형