본문 바로가기

반응형

전체 글

(74)
파이썬 csv 파일 불러오기 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다.오늘 알아볼 내용은 파이썬에 csv파일을 불러오는 것입니다. 그전에 우선 csv파일에 대해 알아보도록 합시다. csv(comma-separated values) : 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다.  이러한 특성을 갖고 있는 csv파일은 특히 데이터 분석에 많이 이용됩니다. 이러한 csv파일을 만드는 방법은 엑셀 파일을 저장할 때 아래 그림과 같이 파일 형식을 csv로 바꿔주면 됩니다.   그러면 간단한 예시를 통해 파이썬 csv파일을 불러오는 방법을 알아보도록 하겠습니다. 우선 저는 아래와 같이 homeprices라는 csv파일과 파이썬 파일을 같은 폴더에 저장하였습니다.   우선 pa..
나이브 베이즈 분류 알고리즘(Naive Bayes Classifier Algorithm), 스팸메일 예측(Spam Mail) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 나이브 베이즈 분류 알고리즘(Naive Bayes Classifier Algorithm)입니다. 혹시 이전 제 블로그를 보셔서 베이즈 정리에 대한 이론적인 부분을 아시는 분들은 바로 아래 스팸메일 예측 예시로 넘어가 시가 바랍니다. 나이브 베이즈 분류 알고리즘(Naive Bayes Classifier Algorithm) : 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종 베이즈 정리(Bayes’ theorem) :두 확률 변수의 사전 확률과 사후 확률사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전 확률로부터 사후 확률을 구할 수 있다. 위의 베이즈 ..
나이브 베이즈 분류 알고리즘(Naive Bayes Classifier Algorithm), 타이타닉 생존자 예측 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 나이브 베이즈 분류 알고리즘(Naive Bayes Classifier Algorithm)입니다. 나이브 베이즈 분류 알고리즘(Naive Bayes Classifier Algorithm) : 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종 베이즈 정리(Bayes’ theorem) : 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다. 베이즈 확률론 해석에 따르면 베이즈 정리는 사전 확률로부터 사후 확률을 구할 수 있다. 위의 베이즈정리는 인공지능 분야에서 필수인 정리입니다. 이 정리는 사건이 일어나기 전의 확률인 사전 확률과 사건이 일어난 이후 확률인 사후 확률의..
K-평균 알고리즘(K-means clustering algorithm) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 K-평균 알고리즘(K-means clustering algorithm)입니다. K-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. K-평균 알고리즘(K-means clustering algorithm)은 원하는 클러스터의 수를 정해주면 이 숫자만큼 아래 그림과 같이 클러 시터 링을 해줍니다. 이때 클러스터링 하는 기준은 아래 그림처럼 SSE(Sum of S..
Support Vector Machine(SVM) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 Support Vector Machine(SVM)입니다. 서포트 벡터 머신(support vector machine, SVM) : 기계 학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용한다. 위의 그림과 같이 SVM은 데이터에서 그룹을 분류하는 알고리즘 중 하나입니다. 그룹에서 중 상대 그룹과 가장 가까운 데이터끼리의 거리를 Margin이라 하고 이 Margin값이 가장 크도록 그룹을 분류하는 방식입니다. 여기에 대한 수학적 해석은 다음번에 다루도록 하고 오늘은 SVM응용에 대해 알아보도록 하겠습니다. 오늘 다룰 내용은 'iris'즉 붓꽃을 분..
로지스틱 회귀(Logistic Regression) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 로지스틱 회귀(Logistic Regression)입니다. 로지스틱 회귀(Logistic Regression) 로지스틱 회귀(Logistic Regression)는 회귀를 이용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘입니다. 예를들어 나이와 보험유무를 알수 있는 데이터가 있다고 해봅시다. 선형회귀 를 사용하면 아래와 같은 그래프가 그려집니다. 실제 데이터는 y값은 0에서 1인 반면 예측된 모델은 -무한대에서 +무한대 까지인것을 알 수 있습니다. 그럼 로지스틱 회귀를 사용하면 어떨까요? 아래..
학습 데이터와 훈련 데이터(Training Data and Testing Data) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 학습 데이터와 훈련 데이터(Training Data and Testing Data)입니다. 머신러닝을 공부해보신 분들이라면 아마 Training Data와 Testing Data에 대해 들어 보셨을 겁니다. Training Data는 어떠한 모델을 학습시키는데 쓰이는 데이터를, Testing Data는 이렇게 학습된 모델이 잘 작동하는지 테스트하는 데 사용하는 데이터를 의미합니다. 그럼 이렇게 둘을 분리하는 이유는 무엇일까요? 만약 둘을 분리하지 않고 학습을 시키게 되면 성능을 테스트할 때 학습했던 데이터들이 그대로 반영되기 때문에 정확한 성능을 예측하기가 힘듭니다. 이는 학창 시절 시험문제가 교과서 예..
선형 회귀 모델의 수학적 해석(Gradient Descent and Cost Function) 안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Conducter'입니다. 오늘 알아볼 내용은 선형 회귀 모델의 수학적 해석입니다. 선 수학에서 우리가 흔히 알고 있는 선은 변수, 기울기, 절편으로 이루어진 'y = mx + b'꼴입니다. 여기서 m은 기울기로 'slope'을 의미하고, b는 y절편으로 'intercept'을 의미합니다. Cost Function(비용 함수) 흔히 '가성비가 좋다'라는 말은 성능대비 비용이 적을 때 하는 말이죠? 선형 회귀 알고리즘도 마찬가지입니다. 비용이 적을수록 성능이 좋습니다. 이러한 비용을 함수로 나타낸 것을 Cost Function(비용 함수)라고 합니다. MSE(평균 제곱 오차, Mean Squared Error) 위 Cost Function(비용 함수)..

반응형