Data Science 52

[머신러닝] decision tree - 핸즈온 머신러닝 6장

6. Decision Tree¶ 머신러닝 알고리즘 중 1 : 분류, 회귀, 다중출력도 가능 랜덤 포레스트의 기본 구성 요소 6.1 결정 트리 학습과 시각화¶ In [1]: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier #붓꽃 데이터셋 불러오기 iris = load_iris() #길이와 너비 데이터 사용 X = iris.data[:,2:] y=iris.target tree_clf = DecisionTreeClassifier(max_depth = 2) tree_clf.fit(X,y) Out[1]: DecisionTreeClassifier(max_depth=2) In [3]: from sklearn.t..

Data Science/AI 2021.07.31

[머신러닝] 핸즈온 머신러닝 5장 주피터 노트북 파일

서포트 벡터 머신¶(5.1) 선형 SVM 분류¶선형 SVM 분류는 적절하면서도 훈련 샘플에서 가능한 한 멀리 떨어지도록 하는 결정 경계를 고른다.¶LMC large margin classification → **LMC large margin classification** **서포트 벡터** : 결정 경계를 결정하는 샘플 - (5.1.1) 소프트 마진 분류 → 하드 마진 분류 : 모든 샘플이 도로 바깥쪽에 분류된 경우 (-) 반드시 데이터가 선형적이어야 함 (-) 이상치에 민감 → 소프트 마진 분류 : 보다 유연한 모델 : 도로의 폭을 넓게 유지하면, 일반화가 용이하나 margin violation이 증가하고 : 반대의 경우에는 이상치에 민감하게 된다. : 하이퍼파라미터 : 도로의 폭을 넓게 유지한다. 마..

Data Science/AI 2021.07.31

[필기] 머신러닝 프로젝트 End-to-End 진행의 과정 (핸즈온 머신러닝 챕터 2)

Working with real data popular sites 1. UCI Machine Learning Repository 2. Find Open Datasets and Machine Learning Projects | Kaggle 3. Registry of Open Data on AWS 2.2 큰 그림 보기 데이터 : 캘리포니아 인구조사 데이터(인구, 중간소득, 중간주택가격 등)목표 : 구역의 중간 주택 가격 예측하기 2.2.1. 문제 정의Q1. 비즈니스의 목적이 무엇인가? 2.3.데이터 가져오기 jupyter 노트북 사용하기 시작한다.housing.tgz라는 single file을 다운로드 받은 것임.housing.csv로 train tgz를 압축 풀기하기 위해 함수를 하나 만들게 된다.1) d..

Data Science/AI 2021.07.15

[정리] 머신러닝이란 무엇인가? 머신러닝의 종류, 활용법 (핸즈온 머신러닝 챕터 1 : 사이킷런과 텐서플로를 활용한 머신러닝, 딥러닝)

머신러닝 machine learning 머신러닝은 AI artificial intelligence의 한 분야이다. machine이 learn한다는 머신러닝의 의미처럼 머신러닝은 '데이터을 통해 프로그램이 학습하는 컴퓨터 알고리즘'을 연구하는 분야다. 프로그램이 수행하기를 원하는 기능은 'training task' 성능 평가는 'acurracy' 학습을 위해 주어지는 데이터는 'training data', 'training set'이라고 한다. 머신러닝의 예시 머신러닝은 알고리즘이 밝혀지지 않았거나, 경우를 일일이 기술하기에는 너무 복잡한 경우에 유용하게 사용된다. 예를 들면, 추천 서비스 음성 인식 OCR 문자 인식 등이 있다. 머신러닝의 구분 머신러닝은 몇 가지 기준으로 분류될 수 있다. Q1. 데이터..

Data Science/AI 2021.07.15