Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms.
앙상블 학습법은 여러 학습 알고리즘들을 사용하여서 하나의 알고리즘보다 더 나은, 정확도가 높은 예측 결과를 내기위한 학습법이다.
앙상블이라는 뜻 자체가 전체적인 분위기나 짜임에 맞는 어울림이나 통일이라는 뜻을 지니고 있다.
이 단어의 뜻처럼 앙상블 학습법은 여러 학습 알로리즘을 짜임에 맞게 만들어서 정확도가 높은 예측결과를 나타낸다.
앙상블은 여러학습 알고리즘들을 사용하기 때문에 단일 학습 알고리즘보다 좀더 유연하게 그들의 함수를 표현할수있도록 보여줄수있다.
또한, 앙상블 이론에서의 유연성은 단일 모델보다 over-fitting 된 데이터들을 안정화 시킬수있다.
앙상블 학습법을 하는 알고리즘은 여러가지가 있지만 그중에서 Bootstrap aggregating(Bagging)과 Boosting에 대해 알아보겠다.
Bootstrap aggregating
Bootstrap aggregating, often abbreviated as bagging, involves having each model in the ensemble vote with equal weight. In order to promote model variance, bagging trains each model in the ensemble using a randomly drawn subset of the training set. As an example, the random forest algorithm combines random decision trees with bagging to achieve very high classification accuracy. An interesting application of bagging in unsupervised learning is provided here.
배깅이라고도 불리우는 Bootstrap aggregating은 각각의 모델이 같은 가중치를 가진 투표를 모은것들 포함하고 있다. 모델의 다양성을 상승시키기 위해서, 배깅은 각각의 모델에 트레이닝셋의 부분집합을 무작위로 모아서 사용한다.
예를들어서, 랜덤포레스트 알고리즘은 무작위로 의사결정트리를 모아서 배깅을통해서 분류의 정확성을 높인다.
Boosting (meta-algorithm)
Boosting involves incrementally building an ensemble by training each new model instance to emphasize the training instances that previous models mis-classified. In some cases, boosting has been shown to yield better accuracy than bagging, but it also tends to be more likely to over-fit the training data. By far, the most common implementation of Boosting is Adaboost, although some newer algorithms are reported to achieve better results[citation needed].
부스팅은 이전에 잘못분류된 모델들을 트레이닝을 강조해서 각각의 새로운 모델요소로 만들어 모아서 끊임없이 짓는것을 포함한다.
같은 경우로, 부스팅은 배깅보다 정확성이 높은것을 보여주지만 over-fit 트레이닝 데이터가 더 많은 경향이 있다. 분명 부스팅이 가장 공통적인 요소는 아다부스트임에도 불구하고 다른 새로운 알고리즘들이 더 나은 결과를 내고있다.
'컴퓨터쟁이 > Algorithm' 카테고리의 다른 글
random forest (0) | 2016.01.19 |
---|---|
결정트리 Decision Tree 1 - entropy (0) | 2015.11.30 |