Does syntax matter? A strong baseline for Aspect-based Sentiment Analysis with RoBERTa

  • Aspect-Based Sentiment Analysis (ABSA)는 Aspect의 특성을 예측하는 것이며, Sentiment Anaylsis의 한 분야다.
    • 즉, 주어진 Aspect에 따라 sentiment를 예측하는 것('pos' or 'neg')
  • 이전 연구에서는 Dependency Tree와 같은 syntactic information이 ABSA의 성능을 향상시키는 것을 보였음
  • 최근에는 Pre-Trained Models(PTMs)도 ABSA에서 성능을 보이고 있다.
    • 그러므로 PTM이 ABSA를 위해 충분한 syntactic 정보를 가지고 있어서, PTMs만을 기반으로 하여 좋은 ABSA 모델을 얻을 수 있는지 자연스러운 의문이 생긴다.
  • 그래서 PTM에서 유도된 tree와 dependency parsing tree를 사용한 여러 유명한 모델을 비교해서 FT-RoBERTa로부터의 tree가 성능이 가장 좋음을 알 수 있다.
    • 또한 FT-RoBERTa가 더 sentiment-word-oriented다.
    • 순수한 RoBERTa 기반 모델도 충분한 SOTA 성능을 보인다.

1. Introduction

  • Aspect-Based Sentiment Analysis (ABSA)는 Aspect의 특성을 예측하는 것이며, Sentiment Anaylsis의 한 분야다.

    • 한 문장에 여러 Aspect가 존재할 수 있고, 각 Aspect에 대해 sentiment를 예측해야 한다.
    • "great food but the service was dreadful"과 같은 문장이 있다
      • food와 service가 aspect가 되며, food의 sentiment는 'pos' service의 sentiment는 'neg'가 된다.
  • ABSA에는 Aspect Extraction(AE)와 Aspect-level sentiment classification(ALSC)가 있는데, 그 중 ALSC에 집중한다.

  • ALSC의 예전 연구들은 수동으로 설계된 syntactic feature에 의존했고 이는 굉장히 노동집약적이며 불충분하다

  • ALSC model 기반 dependency tree는 3가지 방법으로 적용된다.

    1. Topological structure

    2. Tree-based distance

    3. 1과 2를 동시에 사용

  • Dependency tree를 제외하고도 PTM이 좋은 성능을 기록했음

    • PTM의 결과를 보면 dependency tree 정보를 함축적으로 담고 있다.

Q1: Will the tree induced from PTMs achieve better performance than the tree given by a dependency parser when combined with different tree-based ALSC models?

-> 뒷 부분에서 3개의 dependency tree와 파서가 제공하는 의존성 트리 및 PTM 유도 트리와 결합할 때 성능을 비교한다.

Q2: Will the tree induced from PTMs achieve better performance than the tree given by a dependency parser when combined with different tree-based ALSC models?

-> 이 논문에서 PTM으로부터의 tree도 사용하지만 FT-PTM으로부터의 tree도 사용한다. 실험결과를 보았을 때, FT-PTM이 더 좋은 성능을 기록했으며, dependency tree보다도 더 좋았다.

마지막으로 RoBERTa에 MLP만을 더해도 좋은 성능을 보였으며, tree 구조를 더하는 것은 큰 성과를 보이지 못했다.

기여점을 요약하면 다음과 같다.

(1) PTM, FT-PTM으로 유도된 트리를 비교해봄. FT-PTM으로부터의 tree가 가장 좋은 성능을 기록했으며, 다른 트리들보다도 좋았다.

(2) FT-PTM으로부터의 트리는 더 sentiment word oriented하다. 즉 aspect term과 sentiment adjective를 직접적으로 연결한다.

(3) RoBERTa를 사용했을 때 성능이 가장 좋게 나왔다.

2. Related Work

ALSC without Dependencies

LSTM, LSTM with attention, CNN등을 사용함

ALSC with Dependencies

초기에는 Sentiment lexicon과 parsing dependency를 결합해서 사용했음

이후에는 dependency tree와 neural network를 결합해서 사용하려는 시도가 있었음

  1. dependency tree를 binary tree로 바꾸는 것, 이후 recursive neural network를 젝용해 context word에서 aspect로 information을 전달하려는 시도를 함
    • 별로 성능이 좋아지진 않음
  2. neural network
    • GNN을 적용하려는 시도
    • dependency tree를 aspect-oriented dependency tree
    • Tree-based distance

PTMs-based Dependency Probing

  • PTMs는 NLP 분야에서 많이 사용되고 있다
    • 그래서 PTMs으로 linguistic knowledge를 얻으려는 시도를 함
    • 하나 혹은 여러개의 attention head를 사용해보았지만 dependency를 잡아내기 힘들었다
    • 추가적인 파라미터를 사용해서 하려는 시도들이 있었음

3. Method

PTMs으로 부터 tree를 어떻게 유도하는지 알아보고, dependency tree를 통합하는 3가지 대표적인 방법에서 선택한 3개의 tree 기반 ASLC 모델들을 소개한다.

3.1 Inducing Tree Structure from PTMs

Perturbed Masking은 추가적인 parameter 없이 pre-trained model에서 tree를 유도할 수 있다.

base가 되는 모델은 BERT와 RoBERTa를 사용하기 때문에, 이를 먼저 소개하고 Perturbed Masking을 소개한다.

3.1.1 BERT and RoBERTa

생략

3.1.2 Perturbed Masking

Perturbed Masking은 pre-trained model로부터 syntactic 정보를 찾기 위한 것이 목적이다. BERT와 RoBERTa는 xi를 H(x)i에 map한다.

Perturbed Masking은 와 xj가 xi에 영향을 주는 정도인 f(xi,xj)를 유도하는 것이 목적이다.

우선 [MASK]를 사용해서 xi를 대체하고 H(x\{xi})i를 반환한다.

그 다음으론 xj를 mask를 하고 H(x\{xi,xj})i 를 얻고 f는 다음과 같이 구한다.

이 과정을 문장의 매 두 토큰에 대해 수행하면 f값들로 이루어진 M을 얻을 수 있다.

tree decoding 알고리즘을 통해서 M으로 부터 dependency tree를 얻는다.

3.2 ALSC Models Based on Trees

3개의 representative tree 기반 ALSC model을 소개함 각 모델들은 introduction에서 소개했고, 공정한 비교를 위해 가장 최근에 발전된 ALSC 모델들을 선정함

3.2.1 Aspect-specific Graph Convolutional Networks(ASGCN)

dependency tree를 그래프로 이용함. word를 노드로, dependency를 edge로 사용

3.2.2 Proximity-Weighted Convolution Network(PWCN)

PWCN은 aspect가 contextual word를 찾을수 있도록 도운다. input sentence에서 PWCN은 dependency tree를 얻고, 이 트리를 기반해서 각 단어에 proximity value를 부여한다.

각 단어의 proximity value는 단어와 aspect 사시의 dependency tree의 짧은 path를 계산하여 얻는다.

3.3 Relation Graph Attention Network

dependency tree를 aspect-oriented dependency tree로 변환한다.

aspect-oriented dependency tree는 aspect를 root로 사용하고, 다른 단어들은 leaf가 되는 구조

aspect와 다른 단어사이의 관계는 syntactic tag나 tree 기반 거리를 기반으로 구한다.

4. Experimental Setup

4가지 언어로 구성되어 있는 6개 데이터셋에 대해서 실험을 진행함

4.1 Datasets

pass

4.2 Tree Strucutres

(1) spaCy나 allenNLP에서 얻은 dependency tree parer로부터의 tree -> "Dep"

(2)PTM으로 얻은 tree

(3)Perturbed Masking을 사용한 FT-PTM

(4) Left, Right chain -> 왼쪽이나 오른쪽 단어에 의존하는 방법

4.3 Implementation Details

5. Experimental Results

5.1 ALSC Performance with Different Trees

다른 트리를 가지고 있는 모델 간의 비교는 위와 같다.

  • FT-RoBERTa induced Tree를 사용할 때, 가장 좋은 성능을 기록함

  • BERT Induced Tree나 RoBERTa Induced Tree를 기반으로 한 모델들은 Left-chain이나 Right chain이나 큰 차이가 없음

    • RoBERTa의 연결성을 보면 주위에 강하게 연결되어 있는데, 그 이유는 MLM을 수행하는 과정에서 주변을 많이 봐야하기 때문 그래서 왼쪽 종속이나 오른쪽에 종속하는 것과 큰차이가 없다
  • Q1에 대한 답변을 하자면 "Dep"이 BERT Induced Tree나 RoBERTa Induced Tree보다 더 좋음

    • 그 이유는 PTM은 왼쪽이나 오른쪽에 의존하기 때문에
    • PWCN의 경우에만 더 좋은 성능을 보였는데 그건 크게 문제 될 것은 없음
    • 하지만 FT-PTM은 dependency tree보다 더 좋음

5.2 Analysis

  • tree간의 차이를 조사하기 위해 quantitaive metrics를 제안함

Proportion of Neighboring Connections

  • 위 표는 문장에서 주위 단어와 연결되어 있는 비율을 뜻함

  • BERT가 70퍼대의 연결성을 보이는데 이 것이 성능에 영향을 줬을 것

  • FT-PTM일땐 충분한 하락을 보임

    • 그림으로 보면 다음과 같음

Aspects-sentiment Distance

Aspect와 sentiment word 사이의 평균 거리를 의미

  • C는 pre-define sentiment words set
    • Amazon-2
  • S는 dataset, Si는 sentence, Si는 w들로 구성되어 있음
  • |.|은 set의 원소 갯수

  • FTM-PTM의 거리가 가장 짧다

첫 표의 "Dep" 결과를 볼 때 Twitter만 결과가 조금 다른데, 이는 Twitter가 문법을 중시하지 않기 때문에 그럼

Q2에 대한 답을 해보자면 PNC가 줄었기 때문에 긴 연결이 생겼지만 AsD를 보면 그 거리가 짧기 때문에 문제가 없다.

따라서 FT-PTM은 ALSC task에 적합하며 성능도 더 좋다.

5.3 Comparision between ALSC models

  • MLP와 RoBERTa를 사용했어도 SOTA에 근접한 성능을 나타낸다.
  • FT-RoBERTa는 Glove 기반의 모델에 효과적이며, RoBERTa와 결합하는 것은 큰 효과는 없다. 오히려 감소한 케이스가 있을 정도
  • RoBERTa 기반 ALSC 모델을 최적화하는 것은 어려움

6. Conclusion

  • parser-provided dependency tree와 PTMs 기반 tree를 포함한 여러 트리들을 비교함
  • 특히 Perturbed Masking을 사용한 PTM 방법이 가장 성능이 좋았음
  • Glove 기반 모델에 더 좋은 성능 향상을 보이며, RoBERTa+MLP로만 사용해도 성능이 좋다.

Abstract

  • Multimodal sentiment analysis(이하 msa)는 language, visual, acoustic modalities를 활용해서 sentiment를 연구하는 분야다.

  • msa의 중요한 문제는 이러한 modalities에서 정보를 처리하는 joint representation을 추론하는 것이다.

    • 그러나 지금까지의 연구는 이 joint representation을 얻기 위해서 모든 modalities가 input, result로 존재해야 했다.
    • test time에서 noisy나 missing에 민감햇다.
  • seq2seq가 기계번역 부분에서 성공을 거둔 것을 바탕으로 test time에서 모든 input modalities가 필요하지 않을 새로운 방법을 생각했다.

    • 이번 논문에서 modalities간에 번역을 함으로써 joint representation을 배우는 방법에 대해서 소개한다.
  • 이 방법은 source에서 target으로 번역을 해서 joint representation을 배우지만 source modalities만 input으로 필요하다는 것이 key point이다.

    • cycle consistency loss를 사용한다.
    • train 과정에서는 paired multimodal data가 필요하지만 test 과정에서는 source 만 있어도 된다.
  • 항상 당연한 거지만 좋은 성능을 거두었다고 한다.

Introduction

text만 있던 sentiment analysis는 불충분한 면이 있었다. 그래서 최근에는 visual이나 acoustic같은 추가적인 정보를 사용해서 joint representation을 학습하고 있다.

위에서 말했던 것처럼 기존의 multimodal 방법들은 test time에도 모든 modalities가 필요했고, 이는 noisy나 missing modalities에 민감했다.

이 문제를 풀기 위해서 Seq2Seq의 최근 성공에서 영감을 받았다. 그래서 modalities 간에 번역을 함으로써 robust joint multimodal representation을 배우기 위해서 Multimodal Cyclic Translation Network model을 제안한다.

source modality에서 target modality로 번역하는 것이 intermediate representation을 얻을 수 있고, forward translations와 backward translation을 하는 cyclic translation loss를 사용한다.

또한 이를 계층적으로 쌓아서 두 개의 modalities에서 세 개로 확장할 수 있다. MCTN의 다른 장점은 test 과정에서 source modality만 필요하다는 것이다. 그 결과로 robust한 특징을 가지게 된다.

Related Work

생략

Proposed Approach

Learning Joint Representation

XS 와 XT 사이에 Joint Representation은 εST=fθ(XS ,XT) embedding을 반환하는 parametrized function fθ로 정의된다. 그리고 다른 함수인 gw는 joint representation으로 label을 예측하는 함수다.

Train 과정에서는 θ 와 w가 다음과 같은 empirical risk minimization으로 학습된다.

Test 과정에서는

과 같이 계산한다.

Multimodal Cyclic Translation Network

MCTN은 modality 번역으로 robust joint representation을 학습하는 neural model이다.

source 에서 target으로의 번역이 XS 와 XT 사이의 joint information을 포착하는 intermediate representation을 만들어 낸다.

모든 modalities로 부터 maximal information를 가지는 joint representation을 배우도록 하기 위해 cycle consistency loss를 사용한다. 그리고 informative joint representations를 배우면서 input으로 source만 필요하도록 multimodal environment에서 back-translation를 사용한다. cycle consistency loss는 함수 fθ를 encoder와 decoder 부분으로 decomposing 함으로써 시작한다.

source 를 기준으로 보면 encoder는 다음과 같고,

decoder는 다음과 같다.

target으로 translated back을 하면 다음과 같다.

일반적으로 기계번역에서 사용하는 Seq2Seq를 multimodal 에서 사용하는 것이다.

encoder의 output은 다음과 같다.

decoder는 representation에서 target modality로 map 한다.

MCTN은 다음과 같은 식으로 best translation을 구한다.

test 과정에서 target modality에 대한 의존성을 제거하기 위해 forward translated representation을 추론에서 사용했다.

Coupled Translation - Prediction Objective

  • forward translation loss

  • cycle consistency loss

  • prediction loss

  • total loss

hyperparameter들은 이 total loss를 최소화하여 학습한다.

Hierarchical MCTN for Three Modalities

지금까지는 biomodal 이었던 것을 계층적인 구조로 확장해본다. XS에서 XT1,XT2로 넘어가도록 만드는 것이며, 처음에는 XS에서 XT1으로 번역하는 representation을 만들고, 두번째 단계에서는 여기서 얻은 representation에서 XT2로 번역을 한다. 그림으로 보면 다음과 같다.

Experimental Setup

Dataset and Input Modalities

CMU-MOSI, ICT-MMMO, YouTube를 사용했다.

Multimodal Features and Alignment

Glove, Facet, COVAREP를 각 language, visual, acoustic 특징을 뽑아내는데에 사용했다.

Evaluation Metrics

CMU-MOSI에서는 MAE loss function을 사용했고, Acc, F1를 구했다.

ICT-MMMO, YouTube에서는 categorical cross-entropy를 사용했고, F1를 구했다.

공통적으로 MAE와 Corr을 계산했다.

Baseline Models

RMFN, LMF, TFN, MFN, EF-LSTM등과 비교해보았다.

Results and Discussion

Comparison with Existing Work

이번 논문에서 제안한 방법이 가장 성능이 좋았다. 게다가 다른 모델들은 모든 modal이 필요했는데, 이 모델은 language 하나만으로 test한 결과다.

Adding More Modalities

위 실험결과를 보면 bimodal보다 Trimodal의 결과가 더 좋고, language를 source로 활용했을 때, 가장 좋은 성능을 가졌다.

Ablation Studies

위의 여러가지 방법들로 성능 테스트를 해보았을 때, 이번 논문의 방법인 (a)와 (e)가 성능이 가장 좋았다.

특히 cyclic translation이 성능에 많은 영향을 끼치고 있다.

Conslusion

Seq2seq에 cyclic 특징을 넣었을 때 robust 하면서 좋은 성능을 이끌어 냈다. 다른 논문들은 80점의 score를 넘고 있지만 test를 할 때 text 하나만으로도 좋은 성능을 내는 것을 보아 연구할만한 가치가 있는 것 같다.

+ Recent posts