'DataScience' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록DataScience (19)

StudyStudyStudyEveryday

ChatGPT, Perplexity 비교(특징, 장단점, 라이선스 등)

※ 2025.03 기준 정보이고, 이후 변경되었을 수 있습니다.※ 참고로 저는 perplexity만 유료로 사용중입니다.. (서술하는 정보차이가 있을 수 있다는 점!) 내가 아는 것들을 정리하기 위해 작성한다.각각 홈페이지에서 찾기 너무 힘들고.. 특장점이 너무 자주 바뀌어서 시계열로 기록차 적어본다.물론 나는 사람이기 때문에 실수가 있을 수 있다. (휴먼에러) 그럼 바로 본론시작!# 1. ChatGPT, Perplexity 특징 및 장단점 비교구분ChatGPTPerplexity특징- 공감성 대화 포함 대화가 더 잘 통함- 학습된 데이터를 통해 일반적인 질의에 퀄리티있는 대답을 해줌- 타 생성형AI에 비해 창작을 잘함- 실시간 웹기반 검색- 투명한 출처 제공(ChatGPT도 있지만 Perplexi..

DataScience/GenAI&LLM 2025. 3. 31. 14:36

[파이썬머신러닝] 차원축소2

8. 차원 축소 8-1. 차원의 저주 8-2. 차원 축소를 위한 접근 방법 8-3. PCA 8-4. 커널 PCA 8-5. LLE 8-6. 다른 차원 축소 기법 4. 커널PCA (kernel PCA, kPCA) 커널 트릭: 샘플을 매우 높은 고차원 특성 공간으로 암묵적으로 매핑하여 SVM의 비선형 분류와 회귀를 가능하게 해주는 수학적 기법 (5장 참고) 같은 기법을 PCA에 적용해 차원 축소를 위한 복잡한 비선형 투영을 할 수 있다. 이 기법은 투영된 후 샘플의 군집을 유지하거나 꼬인 매니폴드에 가까운 데이터셋을 펼칠 때도 유용하다. from sklearn.decomposition import KernelPCA rbf_pca = KernelPCA(n_components=2, kernel="rbf", gam..

DataScience/핸즈온 머신러닝 Hands-on ML 2022. 12. 11. 18:41

[파이썬머신러닝] 차원 축소

8. 차원 축소 8-1. 차원의 저주 8-2. 차원 축소를 위한 접근 방법 8-3. PCA 8-4. 커널 PCA 8-5. LLE 8-6. 다른 차원 축소 기법 1. 차원의 저주 (Curse of Dimesionality) 차원의 저주 : 특성이 많아 훈련을 느리게 할 뿐 아니라 좋은 솔루션을 찾기 어려워지는 문제 우리는 고차원 공간을 직관적으로 상상하기 어렵다. 심지어 고차원 공간은 많은 공간을 가지고 있기 때문에 저차원에 비해 많은 것이 다르게 작동한다. 단위 면적 내 무작위로 선택한 점이 경계선 근처에 위치할 확률이 굉장히 커짐 단위 면적 내 무작위로 선택한 두 점의 거리가 매우 멀리 떨어짐 따라서 고차원 데이터셋의 경우, 예측을 위해 훨씬 많은 외삽 (extrapolation)을 해야하기 때문에 예..

DataScience/핸즈온 머신러닝 Hands-on ML 2022. 5. 8. 17:38

[파이썬머신러닝] 앙상블 학습과 랜덤 포레스트

7. 앙상블 학습과 랜덤 포레스트 7-1. 투표 기반 분류기 7-2. 배깅과 페이스팅 7-3. 랜덤 패치와 랜덤 서브스페이스 7-4. 랜덤 포레스트 7-5. 부스팅 7-6. 스태킹 여러 예측기(분류나 회귀 모델)로 부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있을 것이다. 이때 일련의 예측기를 앙상블이라고 부르기 때문에, 이러한 학습을 앙상블 학습 (ensemble learning)이라고 하며 앙상블 학습 알고리즘을 앙상블 방법(ensemble method)이라고 한다. 예를 들어, 결정 트리 앙상블인 랜덤 포레스트가 있다. 훈련 세트에서 무작위로 서로 다른 서브셋을 만들어 결정트리 분류기를 훈련시킬 수 있다. 모든 개별 트리의 예측을 구해 가장 많은 선택을 받은 class를 ..

DataScience/핸즈온 머신러닝 Hands-on ML 2022. 5. 7. 00:36

[파이썬머신러닝] 결정 트리 Decision Tree

SVM처럼 결정 트리는 분류외 회귀 작업, 다중출력 작업도 가능한 머신러닝 알고리즘이다. 또한, 최근 자주 사용되는 머신러닝 알고리즘인 랜덤 포레스트의 기본 구성 요소가 되기도 한다. 1. 결정 트리 학습과 시각화 다음은 붓꽃 데이터셋에 DecisionTreeClassifier을 훈련시키는 코드이다. from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:, 2:] # 꽃잎 길이와 너비 y = iris.target tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42) tree_clf.f..

DataScience/핸즈온 머신러닝 Hands-on ML 2022. 4. 27. 22:26

1-2. 기계학습 간단 정리 - 모형의 평가

2. 모형의 평가 2-1. 훈련데이터, 평가데이터, 시험데이터 2-2. 모형의 복잡도 2-3. 지도학습의 모형평가 방법 2-4. 비지도학습의 모형평가 방법 2-1. 훈련데이터, 평가데이터, 시험데이터 훈련데이터와 모형의 적합 전체 데이터셋으로 모형 학습/평가 동시 수행 시 과적합 발생 모형 적합에 사용된 데이터가 아닌 모형 평가를 위한 데이터 필요 따라서, 전체 데이터셋을 훈련/평가/시험 데이터로 분리한다. training dataset : 모형 학습 validation dataset : 학습된 모형 평가 (적합한 모수 튜닝 및 모형 선택) test dataset : 최종적으로 학습된 모형 성능 확인 여러 가지 적합방법과 모형의 평가 모델 복잡성 (Model Complexity) 과적합 (Overfitt..

DataScience/비정형 데이터 분석 (빅데이터와 통계읽기) 2022. 4. 11. 14:52

[파이썬머신러닝] SVM 회귀

SVM 알고리즘은 선형, 비선형 분류뿐 아니라 선형, 비선형 회귀도 사용할 수 있다. SVM 회귀 (SVR, Support Vector Regression) SVR의 목적 : 제한된 마진 오류 (즉, 도로 밖 샘플) 안에서 도로 안에 가능한 많은 샘플이 들어가도록 학습한다. 도로 폭은 $\varepsilon $으로 조절한다. 다음은 사이킷런의 LinearSVR을 이용한 코드 예제이다. # 데이터 생성 np.random.seed(42) m = 50 X = 2 * np.random.rand(m, 1) y = (4 + 3 * X + np.random.randn(m, 1)).ravel() # SVM 회귀 모델 적합 from sklearn.svm import LinearSVR svm_reg = LinearSV..

DataScience/핸즈온 머신러닝 Hands-on ML 2022. 4. 4. 00:35

[파이썬머신러닝] 비선형 서포트 벡터 머신 (SVM) 분류

5.2 비선형 SVM 분류 5.2.1 다항식 커널 5.2.2 유사도 특성 5.2.3 가우시안 RBF 커널 5.2.4 계산 복잡도 (추가) SVC와 SVR의 차이 선형 SVM 분류기가 효율적이고 많은 경우 잘 작동하지만, 선형적으로 분류할 수 없는 데이터셋이 많다. 이 경우, 다항 특성과 같은 특성을 더 추가하여 비선형 데이터 셋을 다룰 수 있다. 예를 들어 위와 같은 그림을 살펴보자. 왼쪽 그래프 : 하나의 특성 $x_1$ 만을 가짐 / 선형적으로 구분이 안 됨 오른쪽 그래프 : 두 번째 특성 $x_2 = (x_1)^2$를 추가하여 2차원 데이터셋을 만듦 / 선형적으로 구분 됨 오른쪽 그래프의 경우 1차원 데이터를 2차원 데이터로 mapping 했다고 생각하면 된다. $$ x \to \left \..

DataScience/핸즈온 머신러닝 Hands-on ML 2022. 4. 2. 11:34

Prev 1 2 3 Next

목록DataScience (19)

StudyStudyStudyEveryday

티스토리툴바