큼큼 .......핑계를 대자면 놀아버렸네요. 네. 놀았어요.작심삼일이라는데.... 삼일도 못가는 저에게 좌절도 한번 느꼈습니다.
그래서 오늘은 좀 더 빡세게 정리를 해보려고합니다.
오늘은 알고리즘인 결정트리를 이야기해보려고해요.
그리고 결정트리를 이야기하려면 엔트로피를 알아야하죠.
열역학 제2법칙 엔트로피도 있지만, 여기서 이야기하는 엔트로피는 정보엔트로피, information entropy라고 불리우는 것이죠!
위키피디아에서 검색을 하니까 엄청 알차게 영어로 나오는데요,(한국말보다 알차게 되어있어요) 눈이 팽팽 돌아가는 줄 알았어요.
우선 제가 최대한 이해한만큼 여기 오신분들에게 이해를 시켜드릴 수 있었으면 좋겠다는 생각이 드네요. 열심히 설명을 해보겠습니다.
자 이제 시작해보도록할까요??
===========================================================================================================
일어날 가능성이 없으면 없을수록 event의 중요성은 더 커진다.
사건(event라고 이제부터 통일하겠습니다.)이 났다고 합시다.
event_1은 세계 3차대전!
event_2는 2016년 야구대회(한국시리즈)에서 기아팀이 우승을 했다는 이야기!
두 개의 event중에서 어떤게 더 중요할까요? 분명 일어나기 더 힘든 일은 event_1인 세계 3차 대전일거에요.
이걸 수식으로 표현할 방법은 없을까요?
수식으로 표현을 한다면
[ self-information h that an event e has]
h(e) = -log P(e)
이렇게 쓸 수 있어요! 왜그런지 알아볼까요?
이 그래프를 참조해서 보세요! 사건이 일어날 확률이 적으면 적을수록 중요하다고 했으니
x축은 사건이 일어날 확률
y축은 중요도라고 본다면, 저 로그함수의 식이 사건이 일어날 확율이 적을수록 더 중요하다는 것을 설명하는 식이되는거죠!
이게 제일 중요해요! 수식을 보고 그 수식으로 너는 무슨말을 하고싶으냐!이걸 제대로 파악할 수 있어야되는거죠!
허접하지만 제가 직접 그려봤어요! 이제 이런식으로 그래프를 활용할 수 있어야된다는 것도 저도 이번기회를 통해서 배우게 되었어요!
많은 수식을 접했지만, 항상 겉핥기 식으로 공부한게 너무 티난거 같아요. 이제부터는 샅샅이 뒤져가며 공부할 예정입니다!
'컴퓨터쟁이 > Algorithm' 카테고리의 다른 글
random forest (0) | 2016.01.19 |
---|---|
Ensemble Learning - Bootstrap aggregating, Boosting (0) | 2015.12.14 |