데이터 수집 및 ML을 활용한 여론 분석(NLP)

정치 여론조사 기관 의뢰로 수행된 데이터 분석 프로젝트입니다. 약 13만 건의 뉴스 기사와 100만 건의 댓글 데이터를 수집하여 BERT 기반 감성 분석과 LDA 토픽 모델링을 수행했으며, 여론조사 응답 데이터에 대해 CatBoost 모델 학습 후 SHAP 분석을 통해 주요 영향을 미친 요인을 해석했습니다. 단순 예측을 넘어 해석 가능한 인사이트 제공을 목표로 했습니다.

Apr 25, 2025
  • 수행 기간: 2023.10 ~ 2023.12 (3개월)
  • 고객사 / 발주처: 비공개(정치 여론조사 관련 기관)
  • 역할: 데이터 수집, 감성 분석, SHAP 기반 해석 모델링
  • 기술 스택: Python, Pandas, CatBoost, SHAP
 

프로젝트 개요

 
  • 주요 정치 키워드를 중심으로 뉴스 기사 및 댓글 데이터를 수집하여, 시계열 기반의 감성 추이 분석과 토픽 모델링을 통해 여론의 흐름을 시각화함.
  • 여론조사 응답 데이터를 CatBoost 모델에 학습시킨 후, SHAP 분석을 통해 예측에 영향을 미친 주요 요인을 도출. 모델 예측이 아니라, 해석 가능한 인사이트 제공에 초점을 맞춤.
 
※ 프로젝트는 특정 기관의 의뢰로 수행되었으며, 민감한 데이터 및 분석 내용은 NDA(비밀유지계약)에 따라 공개 범위가 제한됩니다.
 

담당 업무

 
  • 주요 온라인 여론 데이터 크롤링 파이프라인 구현 (총 수집량: 기사 13만 건 / 댓글 100만 건)
  • BERT 모델 파인튜닝 및 여론 데이터에대해서 긍정 / 부정 감성 분석
  • LDA 기반 토픽 모델링으로 시기별 주요 키워드 추출
  • 여론조사 응답 데이터셋에 CatBoost 모델 적용 및 SHAP 분석을 통한 주요 변수의 영향 시각화
  • 성과 및 특이사항:
    • 단순 예측이 아닌 해석 중심의 ML 분석: SHAP을 활용하여 모델이 내린 판단 근거를 분석하고, 정치학적 해석에 응용 가능한 데이터 제공
    • 감성 및 이슈 흐름 분석을 통해 시기·이슈에 따른 여론 변화 탐지
 
그래프

여론

notion image

SHAP

notion image
notion image
 
notion image
 
notion image