728x90
반응형
또다시 늦게 돌아왔네요. 게을러서 어쩌면 좋을까요 ㅠㅠ
decision tree를 설명하려면 entropy에 대한 개념이 필요해요. 그래서 정의 부분에서 가져왔어요. 오늘은 짧게 설명을 쓸게요.
entropy는 주어진 데이터 집합의 complexity를 의미해요.
즉, 주어진 데이터 집합에 레코드들이 서로 다른 종류(class)들이 많이 섞여있으면 entropy가 높고 <= 데이터들이 복잡하다
같은 종류(class)의 레코드들이 많이 있으면 entropy가 낮아요. <= 데이터들이 단순하다
*여기서 레코드란? [
엔트로피 계산식에서는 엔트로피 값은 0에서 1사이의 값을 가져요.
가장 혼잡도가 높은 상태의 값이 1이며, 하나의 클래스로만 구성된 상태의 값이 0 이에요.
decision tree (ID3 algorithm)에서는 entropy가 높은상태에서 낮은 상태가 되도록 데이터의 특정 조건을 찾아서 분류해 나가요
728x90
반응형
'컴퓨터쟁이 > Definition' 카테고리의 다른 글
프레임은 정의다. (0) | 2020.10.20 |
---|---|
overfitting (0) | 2015.12.18 |
predictive modelling,weak learner, strong leanrner (0) | 2015.11.18 |