일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 객체의종류 #리스트 #튜플 #딕셔너리 #집합 #Python #파이썬 #list #tuple #dictionary #set
- 키워드추출 #그래프기반순위알고리즘 #RandomSurferModel #MarcovChain #TextRank #TopicRank #EmbedRank
- 인덱싱 #슬라이싱 #python #파이썬 #수정및삭제 #원소의수정 #객체의함수 #keys#values#items#get#len#append#sort#sorted
- 파이썬 #Python #가상환경 #anaconda #python설치 #python가상환경
- IDE #spyder
- 라쏘회귀 #엘라스틱넷 #조기종료
- 경사하강법 #핸즈온머신러닝 #머신러닝 #ML
- 티스토리블로그 #티스토리 #PDF #블로그PDF저장
- 확률적경사하강법 #경사하강법 #머신러닝 #선형회귀 #ML #Chap4
- Chap4 #핸즈온머신러닝 #머신러닝 #핸즈온머신러닝연습문제
- python #파이썬 #pandas #dataframe #dataframe생성 #valueerror
- Chap4 #ML #배치경사하강법 #경사하강법 #핸즈온머신러닝 #핸즈온
- Chap4 #다항회귀 #PolynomialRegression #ML #머신러닝
- Chap4 #ML #미니배치경사하강법 #경사하강법 #머신러닝 #핸즈온머신러닝
- adp #데이터분석전문가 #데이터분석자격증 #adp후기 #adp필기
- 핸즈온머신러닝 #handson
- ML #핸즈온머신러닝 #학습곡선 #편향분산트레이드오프
- 선형회귀 #정규방정식 #계산복잡도 #LinearRegression #Python #ML
- 티스토리 #수학수식 #수학수식입력 #티스토리블로그 #수식입력
- Chap4
- Chap4 #릿지회귀 #정규방정식 #확률적경사하강법 #SGD #규제가있는선형모델
- python #dataframe #파생변수 #map #lambda #mapping
- Today
- Total
목록DataScience/핸즈온 머신러닝 Hands-on ML (16)
StudyStudyStudyEveryday

8. 차원 축소 8-1. 차원의 저주 8-2. 차원 축소를 위한 접근 방법 8-3. PCA 8-4. 커널 PCA 8-5. LLE 8-6. 다른 차원 축소 기법 4. 커널PCA (kernel PCA, kPCA) 커널 트릭: 샘플을 매우 높은 고차원 특성 공간으로 암묵적으로 매핑하여 SVM의 비선형 분류와 회귀를 가능하게 해주는 수학적 기법 (5장 참고) 같은 기법을 PCA에 적용해 차원 축소를 위한 복잡한 비선형 투영을 할 수 있다. 이 기법은 투영된 후 샘플의 군집을 유지하거나 꼬인 매니폴드에 가까운 데이터셋을 펼칠 때도 유용하다. from sklearn.decomposition import KernelPCA rbf_pca = KernelPCA(n_components=2, kernel="rbf", gam..

8. 차원 축소 8-1. 차원의 저주 8-2. 차원 축소를 위한 접근 방법 8-3. PCA 8-4. 커널 PCA 8-5. LLE 8-6. 다른 차원 축소 기법 1. 차원의 저주 (Curse of Dimesionality) 차원의 저주 : 특성이 많아 훈련을 느리게 할 뿐 아니라 좋은 솔루션을 찾기 어려워지는 문제 우리는 고차원 공간을 직관적으로 상상하기 어렵다. 심지어 고차원 공간은 많은 공간을 가지고 있기 때문에 저차원에 비해 많은 것이 다르게 작동한다. 단위 면적 내 무작위로 선택한 점이 경계선 근처에 위치할 확률이 굉장히 커짐 단위 면적 내 무작위로 선택한 두 점의 거리가 매우 멀리 떨어짐 따라서 고차원 데이터셋의 경우, 예측을 위해 훨씬 많은 외삽 (extrapolation)을 해야하기 때문에 예..

7. 앙상블 학습과 랜덤 포레스트 7-1. 투표 기반 분류기 7-2. 배깅과 페이스팅 7-3. 랜덤 패치와 랜덤 서브스페이스 7-4. 랜덤 포레스트 7-5. 부스팅 7-6. 스태킹 여러 예측기(분류나 회귀 모델)로 부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있을 것이다. 이때 일련의 예측기를 앙상블이라고 부르기 때문에, 이러한 학습을 앙상블 학습 (ensemble learning)이라고 하며 앙상블 학습 알고리즘을 앙상블 방법(ensemble method)이라고 한다. 예를 들어, 결정 트리 앙상블인 랜덤 포레스트가 있다. 훈련 세트에서 무작위로 서로 다른 서브셋을 만들어 결정트리 분류기를 훈련시킬 수 있다. 모든 개별 트리의 예측을 구해 가장 많은 선택을 받은 class를 ..

SVM처럼 결정 트리는 분류외 회귀 작업, 다중출력 작업도 가능한 머신러닝 알고리즘이다. 또한, 최근 자주 사용되는 머신러닝 알고리즘인 랜덤 포레스트의 기본 구성 요소가 되기도 한다. 1. 결정 트리 학습과 시각화 다음은 붓꽃 데이터셋에 DecisionTreeClassifier을 훈련시키는 코드이다. from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:, 2:] # 꽃잎 길이와 너비 y = iris.target tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42) tree_clf.f..

SVM 알고리즘은 선형, 비선형 분류뿐 아니라 선형, 비선형 회귀도 사용할 수 있다. SVM 회귀 (SVR, Support Vector Regression) SVR의 목적 : 제한된 마진 오류 (즉, 도로 밖 샘플) 안에서 도로 안에 가능한 많은 샘플이 들어가도록 학습한다. 도로 폭은 \(\varepsilon \)으로 조절한다. 다음은 사이킷런의 LinearSVR을 이용한 코드 예제이다. # 데이터 생성 np.random.seed(42) m = 50 X = 2 * np.random.rand(m, 1) y = (4 + 3 * X + np.random.randn(m, 1)).ravel() # SVM 회귀 모델 적합 from sklearn.svm import LinearSVR svm_reg = LinearSV..

5.2 비선형 SVM 분류 5.2.1 다항식 커널 5.2.2 유사도 특성 5.2.3 가우시안 RBF 커널 5.2.4 계산 복잡도 (추가) SVC와 SVR의 차이 선형 SVM 분류기가 효율적이고 많은 경우 잘 작동하지만, 선형적으로 분류할 수 없는 데이터셋이 많다. 이 경우, 다항 특성과 같은 특성을 더 추가하여 비선형 데이터 셋을 다룰 수 있다. 예를 들어 위와 같은 그림을 살펴보자. 왼쪽 그래프 : 하나의 특성 \(x_1\) 만을 가짐 / 선형적으로 구분이 안 됨 오른쪽 그래프 : 두 번째 특성 \(x_2 = (x_1)^2\)를 추가하여 2차원 데이터셋을 만듦 / 선형적으로 구분 됨 오른쪽 그래프의 경우 1차원 데이터를 2차원 데이터로 mapping 했다고 생각하면 된다. $$ x \to \left \..

서포트 벡터 머신 (Support Vector Machine, SVM) 서포트 벡터 머신 : 매우 강력하고 선형/비선형/분류/회귀/이상치 탐색 등에 사용할 수 있는 다목적 머신러닝 모델이다. 머신러닝에서 가장 인기있는 모델에 속하며, SVM은 특히 복잡한 분류 문제에 잘 맞으며 작거나 중간 크기의 데이터셋에 적합하다. 선형 SVM 분류 위 그림을 보면 두 클래스가 직선으로 나뉜 것을 볼 수 있다. (선형적으로 구분) 왼쪽 그래프 : 점선으로 나타난 결정 경계를 만든 모델은 클래스를 적절히 분류하지 못하고 있다. 다른 두 모델은 잘 작동하지만, 결정 경계가 샘플에 너무 가까워 새로운 샘플에 대해서는 잘 작동하지 못할 것이다. 오른쪽 그래프 : 실선은 SVM 분류기의 결정 경계로 두 클래스를 잘 나눌 뿐 아..

[목차] 4.6 로지스틱 회귀 4.6.1 확률 추정 4.6.2 훈련과 비용 함수 4.6.3 결정 경계 4.6.4 소프트맥스 회귀 로지스틱 회귀 (= 로짓 회귀) 로지스틱 회귀는 샘플이 특정 클래스에 속할 확률을 추정하는 데 사용된다. 추정 확률 > 50% 이 되면, 모델은 해당 샘플이 해당 클래스에 속한다고 예측한다. (label=1인 양성클래스) 추정 확률 $$ \hat{p} = h_{\theta}(\textbf{x}) = \si..