티스토리 뷰

카테고리 없음

TF-IDF

swanB 2017. 1. 18. 10:54

TF : term frequency 총 문서에서의 단어 출현빈도


DF : document Frequency  문서빈도 = 출현문서 수/총문서 수


IDF : inverse document frequency DF역수의 로그값 = log(총문서 수 / 출현문서 수)


class 연습문제 tf-idf 구해보세요.

  • data_set/tf_idfx.txt를 읽어들여 각 단어들의 tf-idf 를 구하시오
  • term frequency : 각 문서에서 해당 단어가 나오는 빈도
  • document frequency : 해당 단어가 얼마나 많은 문서에서 나타나는가 하는 빈도
  • inverse document frequency : 1/df
  • tips import os os.walk 사용하기


공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함