[NLP] 자연어처리 4. 토픽 모델링(LDA, NMF)

NLP

[NLP] 자연어처리 4. 토픽 모델링(LDA, NMF)

sueeee-e 2024. 9. 28. 17:10

🎈토픽 모델링 (Topic Modeling)

- 문서 내 잠재적인 "주제"를 식별하는 것 = 주제 파악/분류

- LDA, NMF, pLSA, LSI, PLSI

- 토픽 모델

: 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나

: 텍스트 본문에 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나

✔️응용 : 문서 분류 및 요약, 추천 시스템, 시장 조사 및 여론 분석

⚒️ 잠재 의미 분석, LSI : 최초의 토픽 모델, 문헌-용어행렬 = 문헌-의미행렬 + 의미-용어행렬 분해하여 잠재변수 의미를 발견하고자 함

⚒️ 잠재 디리클레 할당LDA : 각 문서의 토픽 분포와 각 토픽 내의 단어 분포를 추정 / 확률적 모델

⚒️ NMF 비음수 행렬분해 : 모든 요소가 0 이상인 행렬을 두 개 이상의 비음수 행렬의 곱으로 분해하는 기법 / 선형 대수 기반 모델

- 장점 : 직관적으로 해석, 복접한 데이터의 내재된 구조 발견에 효과적 | 단점 : 모든 요소가 비음수일 때만 적용 가능

👾LDA 토픽 모델링 이용

데이터는 뉴스 제목과 레이블을 포함하고 있고, 이 제목들을 분석하여 4개의 토픽으로 나눠보고 실제 레이블과 비교해보는 실습입니다.

# TF-IDF로 텍스트 벡터화 진행
from sklearn.feature_extraction.text import TfidfVectorizer
tfidfV= TfidfVectorizer()
dtm = tfidfV.fit_transform(df['title'])
df_dtm = pd.DataFrame(dtm.toarray(), columns=tfidfV.get_feature_names_out())

LDA 토픽 모델링을 진행하고 토픽은 4개로 지정,

W : 원본 데이터의 각 행이 어떻게 H의 각 행의 조합으로 표현될 수 있는지 나타냄

-> weight matrix, basis matrix / 원본 데이터를 잠재적 특정으로 변환하는 기저 형성

H : 원본 데이터의 열을 새로운 축소된 차원의 특성으로 표현함

-> coefficient matrix, encoding matrix / 잠재적 특성들이 원본 데이터를 어떻게 재구성하는지를 나타내는 계수들 포함

# LDA 토픽 모델링 진행
from sklearn.decomposition import LatentDirichletAllocation
LDA_model = LatentDirichletAllocation(n_component = 4) #4개 토픽으로 나눔
W = LDA_model.fit_transform(df_dtm)
H = LDA_model.components_

# df에 실제 제목과 레이블을 같이 표현
df_lda_w = pd.DataFrame(W)
df_lda_w['title'] = df['title']
df_lda_w['label'] = df['label']

# df로 결과 반환
df_lda_topic = pd.DataFrame(H, columns=tfidfvect.get_feature_names_out())

df_lda_W[df_lda_W["label"] == "스포츠"].head(20).style.background_gradient(axis=1)

이렇게 특정 레이블의 값들만 봤을 때 스포츠는 3번 인덱스 토픽으로 잘 나뉘어 진 것을 확인할 수 있다.

👾NMF 토픽 모델링 이용

from sklearn.decomposition import NMF
nmf_model = NMF(n_components = 4)
W = nmf_model.fit_transform(df_dtm)
H = nmf_model.components_

df_nmf_w = pd.DataFrame(W)
df_nmf_w['title'] = df['title']
df_nmf_w['label'] = df['label']

df_nmf_w[df_nmf_w["label"] == "세계"].head(20).style.background_gradient(axis=1)

위에서 했던 LDA 과정이랑 똑같다.

마지막으로 두 모델에서 각 토픽 별로 많이 나온 단어들을 그래프로 비교

# 토픽별로 상위 키워드를 막대그래프로 시각화하는 함수 : plot_top_words
n_top_words = 20

plot_top_words(
    LDA_model, tfidfvect.get_feature_names_out(), n_top_words, 
    "Topics in LDA model (LatentDirichletAllocation)", n_topics=4
)

plot_top_words(
    nmf_model, tfidfvect.get_feature_names_out(), n_top_words, 
    "Topics in LDA model (LatentDirichletAllocation)", n_topics=4
)

텍스트 벡터화를 TF-IDF 말고 CountVectorizer를 이용해서 다시 해봐도 좋고

이전에 했던 워드클라우드도 복습해보는 것을 추천한다.

출처

https://www.eecis.udel.edu/~shatkay/Course/papers/UIntrotoTopicModelsBlei2011-5.pdf

https://inf.run/uh9Xr

모두의 한국어 텍스트 분석과 자연어처리 with 파이썬 강의 | 박조은 - 인프런

박조은 | 파이썬 한국어 텍스트 분석과 자연어처리 워드클라우드 시각화, 형태소 분석, 토픽모델링, 군집화, 유사도 분석, 텍스트데이터 벡터화를 위한 단어 가방과 TF-IDF, 머신러닝과 딥러닝을