티스토리 뷰
TF : term frequency 총 문서에서의 단어 출현빈도
DF : document Frequency 문서빈도 = 출현문서 수/총문서 수
IDF : inverse document frequency DF역수의 로그값 = log(총문서 수 / 출현문서 수)
class 연습문제 tf-idf 구해보세요.
- data_set/tf_idfx.txt를 읽어들여 각 단어들의 tf-idf 를 구하시오
- term frequency : 각 문서에서 해당 단어가 나오는 빈도
- document frequency : 해당 단어가 얼마나 많은 문서에서 나타나는가 하는 빈도
- inverse document frequency : 1/df
- tips import os os.walk 사용하기