파이썬 pca 예제

감사합니다 존. 나는 요즘 파이썬의 열렬한 팬입니다. 예를 들어, 두 가지 기능을 포함하는 데이터 집합에서 데이터를 플롯하는 경우, 다음은 주 성분 1(PC1)이 두 피처와 주성분 2(PC2) 사이의 가장 변동이 큰 방향을 나타낸다는 것을 보여 줍니다. 플롯된 두 피처 간의 대부분의 변형입니다. 당사의 영화 데이터 세트에는 8,000개 이상의 기능이 포함되어 있으며 시각화가 어렵기 때문에 고유 생성물을 생성하기 위해 고유 분해를 사용했습니다. 결과는 매우 흥미롭고 이미지가 어떻게 다른지에 대한 통찰력을 제공합니다 : 예를 들어, 처음 몇 개의 고유 얼굴 (왼쪽 상단에서)은 얼굴의 조명 각도와 관련이있는 것처럼 보이며 나중에 주요 벡터는 특정 기능을 선택하는 것처럼 보입니다. 눈, 코, 입술 과 같은. 이러한 구성 요소의 누적 분산을 살펴보고 프로젝션이 보존하는 데이터 정보의 양을 살펴보겠습니다. 먼저 라이브러리 및 데이터 집합을 가져오고, 탐색 데이터 분석 및 전처리를 수행하고, 마지막으로 모델을 학습하고, 예측을 수행하고, 정확도를 평가하는 고전적인 기계 학습 파이프라인을 따를 것입니다. 유일한 추가 단계는 우리가 우리의 모델을 훈련하기 전에 기능의 최적의 수를 찾기 위해 PCA를 수행하는 것입니다. 이러한 단계는 다음과 같이 구현되었습니다: 파이썬의 Scikit-Learn 라이브러리를 사용하여 PCA를 수행하는 코드는 세 줄에 불과합니다. PCA 클래스는 이 목적을 위해 사용됩니다. PCA는 레이블 데이터가 아닌 기능 집합에만 의존합니다.

따라서 PCA는 감독되지 않은 기계 학습 기술로 간주될 수 있습니다. 고차원 데이터의 한 예로, 기능이 픽셀이고 센서 기술이 향상됨에 따라 치수성이 증가하는 고해상도 이미지 데이터입니다. 또 다른 예로는 기능이 영화 등급이 매겨진 사용자 영화 등급과 사용자가 더 많은 요금을 기록함에 따라 차원 수가 증가하는 경우가 있습니다. 내 마지막 튜토리얼은 파이썬을 사용하여 물류 회귀를 통해 갔다. 배운 것 중 하나는 최적화 알고리즘을 변경하여 기계 학습 알고리즘의 피팅 속도를 높일 수 있다는 것입니다.

©2019 DemiJohn

Log in with your credentials

Forgot your details?