PDF자동 스탠스 감지를 위한 텍스트 피쳐 분석과 오버샘플링
2021.08 - 2021.12
- 목표 및 문제 정의: Twitter 데이터를 활용하여 특정 주제나 대상에 대한 스탠스 (찬성, 반대, 중립)를 자동으로 분류하는 모델 개발. Bag-of-Words (BoW), 감정 사전, 구문 분석 등 다양한 텍스트 특성의 효과를 평가하고, 클래스 불균형 문제를 해결하기 위한 방법론 탐구.
- 주요 수행 내용:
- 데이터 전처리 및 특징 엔지니어링
- 2016 SemEval 데이터셋 (5개의 타겟, 5,000+ 트윗) 사용, URL 제거, 해시태그 처리, 구문 분석 등 전처리 수행.
- BoW, 감정 사전, 구문 의존 관계 (Bag-of-Dependencies), Syntactic n-grams 등 다양한 텍스트 특징 정의 및 실험.
- 모델링:
- Support Vector Machine (SVM) 기반 분류기 개발.
- 5-폴드 교차검증으로 최적의 하이퍼파라미터 튜닝 (예시: 정규화 매개변수, 커널 종류).
- SMOTE 기법을 활용해 클래스 불균형 문제 해결.
- 결과 해석:
- BoW와 n-grams가 가장 효과적인 텍스트 특징으로 확인.
- 감정 사전과 구문 분석 특징 추가 시 일부 타겟에서 성능 향상 확인.
- SMOTE 적용 시, 데이터 불균형 타겟 (예시: Climate Change)에 대한 예측 성능 개선.
- BoW와 감정 사전 특징 조합으로 Macro-averaged F1-score 0.57 이상 달성 (일부 타겟 기준).
- 결과 분석 및 성과:
- 클래스 불균형 해결 및 데이터 품질 개선을 통해 모델의 실제 적용 가능성을 높임.
- 추가적으로 데이터 증강 및 특성 확장을 통한 개선 가능성 확인.
We describe a series of experiments focused on a number of basic textual features and their effectiveness at the task of automatic stance detection. Specifically, we evaluate the impact of bag-of-words (BoW) features, sentiment lexicon features, and syntactic features on the performance of a Support Vector Machine (SVM). Based on our analysis, we find that the words in a tweet offer the most insight into the stance and that adding features from sentiment lexicons can improve the performance. Additionally, we find that one target showed a performance increase when adding syntactic dependency features. In addition, we identify challenges related to class imbalance, generally small data volume, and data quality.
Keywords:
Stance Detection, Sentiment Analysis, Social Media, Support Vector Machine, Subjectivity and Arguing Lexicon, Synthetic Minority Oversampling, Term Frequency-Inverse Document Frequency