PDF자동 스탠스 감지를 위한 텍스트 피쳐 분석과 오버샘플링
2021.08 - 2021.12
- 목표 및 문제 정의: Twitter 데이터를 활용하여 특정 주제나 대상에 대한 스탠스 (찬성, 반대, 중립)를 자동으로 분류하는 모델 개발. Bag-of-Words (BoW), 감정 사전, 구문 분석 등 다양한 텍스트 특성의 효과를 평가하고, 클래스 불균형 문제를 해결하기 위한 방법론 탐구.
- 주요 수행 내용:
- 데이터 전처리 및 특징 엔지니어링
- 2016 SemEval 데이터셋 (5개의 타겟, 5,000+ 트윗) 사용, URL 제거, 해시태그 처리, 구문 분석 등 전처리 수행.
- BoW, 감정 사전, 구문 의존 관계 (Bag-of-Dependencies), Syntactic n-grams 등 다양한 텍스트 특징 정의 및 실험.
- 모델링:
- Support Vector Machine (SVM) 기반 분류기 개발.
- 5-폴드 교차검증으로 최적의 하이퍼파라미터 튜닝 (예시: 정규화 매개변수, 커널 종류).
- SMOTE 기법을 활용해 클래스 불균형 문제 해결.
- 결과 해석:
- BoW와 n-grams가 가장 효과적인 텍스트 특징으로 확인.
- 감정 사전과 구문 분석 특징 추가 시 일부 타겟에서 성능 향상 확인.
- SMOTE 적용 시, 데이터 불균형 타겟 (예시: Climate Change)에 대한 예측 성능 개선.
- BoW와 감정 사전 특징 조합으로 Macro-averaged F1-score 0.57 이상 달성 (일부 타겟 기준).
- 결과 분석 및 성과:
- 클래스 불균형 해결 및 데이터 품질 개선을 통해 모델의 실제 적용 가능성을 높임.
- 추가적으로 데이터 증강 및 특성 확장을 통한 개선 가능성 확인.
We describe a series of experiments focused on a number of basic textual features and their effectiveness at the task of automatic stance detection. Specifically, we evaluate the impact of bag-of-words (BoW) features, sentiment lexicon features, and syntactic features on the performance of a Support Vector Machine (SVM). Based on our analysis, we find that the words in a tweet offer the most insight into the stance and that adding features from sentiment lexicons can improve the performance. Additionally, we find that one target showed a performance increase when adding syntactic dependency features. In addition, we identify challenges related to class imbalance, generally small data volume, and data quality.
Stance Detection, Sentiment Analysis, Social Media, Support Vector Machine, Subjectivity and Arguing Lexicon, Synthetic Minority Oversampling, Term Frequency-Inverse Document Frequency