TF : term frequency 총 문서에서의 단어 출현빈도 DF : document Frequency 문서빈도 = 출현문서 수/총문서 수 IDF : inverse document frequency DF역수의 로그값 = log(총문서 수 / 출현문서 수) class 연습문제 tf-idf 구해보세요.data_set/tf_idfx.txt를 읽어들여 각 단어들의 tf-idf 를 구하시오term frequency : 각 문서에서 해당 단어가 나오는 빈도document frequency : 해당 단어가 얼마나 많은 문서에서 나타나는가 하는 빈도inverse document frequency : 1/dftips import os os.walk 사용하기
df['datetime'] = df['date'].apply(lambda x: pd.to_datetime(str(x), format='%Y%m%d’)) - .apply(lambda x: ~는 내가 x를 다룰건데, 어떻게 할거냐면~ 이라는 뜻입니다. 여기서는 %Y%m%d 형식으로 된 x를 pandas의 to_datetime 함수를 통해 datetime object로 변환하는 겁니다. 만약 원본값이 2015-01-01이라면 format을 %Y-%m-%d로 바꿔주면 됩니다.
import matplotlib as mplimport matplotlib.pylab as pltimport numpy as np xlist = [10,20,30,40]ylist = [1,4,9,16] plt.plot(xlist, ylist ,'rs:')plt.plot(ylist, c="b", lw=5, ls="--", marker="o", ms="15", mec="g", mew=5,)plt.hold(True)plt.plot([9,16, 4, 1], c="k", lw=3, ls=":", marker="s", ms=10, mec="m", mew=5, mfc="c")plt.hold(False)plt.xlim(-0.2, 3.2)plt.ylim(-1,18)plt.show() --------------------..