[논문리뷰] SUPER-NATURALINSTRUCTIONS: Generalization via Declarative Instructions on 1600+ NLP Tasks

728x90

Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks

How well can NLP models generalize to a variety of unseen tasks when provided with task instructions? To address this question, we first introduce Super-NaturalInstructions, a benchmark of 1,616 diverse NLP tasks and their expert-written instructions. Our

arxiv.org

Summary

1. SUPER-NATURALINSTRUCTIONS를 소개하여 자연어 처리(NLP) 모델이 작업 지시를 받을 때 얼마나 효과적으로 다양한 작업에 일반화 되는지 평가한다.

2. 해당 데이터셋은 1616가지 다양한 NLP 작업(Task)이 포함되어 있으며 Task의 유형은 76가지이다.

3. 데이터의 기본 schema는 Definition, Positive Example, Negative Example, Evaluation Instances으로 구성되어 있으며 task유형에 따라 추가되는 schema가 있다.

4. 데이터셋의 용량은 약 3GB이다.

5. Tk-Instruct라는 작업 지시를 따르도록 훈련된 트랜스포머 기반의 모델을 소개하며, 실험 결과 기존의 모델들보다 9% 이상 우수한 성능을 보여주었다.

Instruction

Characteristics of the Dataset

1. Task instruction을 가지고 있다.

2. 오답인 경우와 이에 대한 설명이 포함되어 있다.

3. 55개의 다양한 언어로 구성되어 있다.

4. 데이터셋이 공개되어 있다.

Method

Definition : 자연어로 주어진 작업을 정의한다. 이는 입력 텍스트에 대한 출력이 어떠한 형태를 기대하는지 정의한다.

Positive Examples : 입력과 그에 대한 올바른 출력의 샘플이다. Output이 왜 정답인지에 대한 간단한 설명이 포함되어 있다.

Negative Exmaples : 입력과 그에 대한 부정확하거나 잘못된 출력의 샘플이며, Output이 왜 오답인지에 대한 간단한 설명이 포함되어 있다.

Instances : input과 output으로 구성되었으며, 모델의 학습과 성능 평가를 위해 사용된다.

Example

En-Ko Translation

Diversity of Tasks

Task의 다양성을 더 잘 이해하기 위해 Task를 세 가지 지침에 따라 분류한다.

Task Types : Task의 유형. (Translation, Question Answering, Program Execution …)

Languages : Task에서 사용되는 언어. (언어 분류 시 input이 어떤 언어인지에 따라 분류. 한국어는 55개의 언어 중 27위.)

Domains : Task의 주제가 어떤 분야인지. (News, Wikipedia, Commonsense …)

Statistics of Super-Naturalinstruction

Task 개수 : 1616

Task 유형 : 76

언어 수 : 55

도매인(분야) 수 : 33

영어가 아닌 Task : 576

Definition schema에서 평균 단어 개수 : 56.6

Positive example의 평균 개수 : 2.8

Negative exmaple의 평균 개수 : 2.4

Instance의 평균 개수 : 3106.0 (total 5백만)

Tk-Instruct Model

Pre-train된 T5모델에 Super-Naturalinstruction 데이터셋을 사용하여 meta-training 시킨 모델이다.

T5모델의 파라미터 개수 : 2.2억개 <-> 기초적인 Transformer 모델의 파리미터 개수 : 6500만개

Architecture of T5(Text-to-Text Transfer Trasformer)

Experiments

Evaluation Setup

총 1616개의 작업 중에서, 154개(12가지 task type)의 작업에서 최대 100개의 instance만 추출한다.

이를 통해 총 15,310개의 테스트 instance가 생성된다.

이러한 테스트 instance는 모델 학습에는 사용되지 않으며, 이를 제외한 나머지 task가 학습에 사용된다.

154개의 task는 또한 영어 task (119개), 영어가 아닌 task (35개)로 나누어 성능을 평가한다.

Evaluation Metric : Rouge-L

Rouge-L은 텍스트 요약의 성능을 측정하는 지표로, 가장 긴 공통 부분열(LCS)을 활용한다.

원본 문장 (정답) : “The quick brown fox jumped over the lazy dog”

모델의 출력 문장 : “A fox jumped over a dog”

ROUGE_L = 0.333…

Huristic Baseline

Copying Demo Output : 무작위 데모 예제의 출력을 복사하여 실제 정답과 비교해 Rouge-L을 평가한다.

Copying Instance Input : 주어진 인스턴스의 입력을 복사하여 실제 정답과 비교해 Rouge-L을 평가한다.

Heuristic 방법들은 주로 모델을 훈련하지 않은 상태에서 어떤 성능을 기대할 수 있는지를 확인하기 위한 평가 방법으로 사용된다.

이들은 모델의 훈련 후에 얻은 결과와 비교함으로써 모델의 효과를 평가하는 데 도움이 된다.

Performance of diffrent methods

Heuristic Baselines < Pretrained LMs < Instruction-tuned Models 순으로
우수한 성능 지표(Rouge-L)를 보인다.

기존에 존재하던 T0, InstructGPT 모델보다도 Tk-instruct 모델과, mTk-INSTRUCT 모델이
영어 task, 다국어 task 각각에서 월등한 성능을 보인다.

Tk-Instruct 모델은 상한 추정치인 지도 학습 결과와 비교했을 때 더 향상될 수 있는 가능성을 지니고 있다.

Human Evaluation

아래 그림은 Human Evaluation에서 사용되는 사용자 평가 채점기준의 일부이다.

모델 Output과 사람이 고른 output이 동일하면 점수 1을 얻고 다르면 0을 얻는다.

사람이 생각했을 때, Output이 문맥상 동일한 의미이거나 실제로 같다면 tie를 고르고 1점을 얻는다

평균을 낸 점수가 사람 평가의 지표이다.

사람이 직접 모델의 출력 결과를 보고 정답과 비교해서 우월하거나 동등한지 평가한다.

사람 평가는 평가 작업 중에서 무작위로 선택된 60개의 작업(평가 작업의 약 절반) 및 각 작업의 10개의 무작위 인스턴스에서 수행된다. 인력 문제로 영어 task만 수행하였다.

사람 평가는 Rouge-L과 비교해봤을 때 비슷한 추이를 확인할 수 있다.

Scaling Trends of Generalization

Task 수가 많아질수록 성능을 향상시킨다.

Train Instance는 각 작업당 64개가 넘어가면 학습 시간이 늘어나고 overfitting 위험을 증가시킨다.

Pretrained 된 모델의 크기가 클 수록 성능을 향상시킨다.

모델의 크기가 작다면 task 수를 늘리는 것이 대안이 될 수 있다.

아래의 표는 schema를 변화시키며 Traning, Test Encoding을 진행했을 때의 Rouge-L 점수이다.

Schema의 (n) 은 사용된 데이터의 개수를 나타낸다.

실험 결과 Definition + 4개의 Positive schema로 Training 했을 때 다양한 test case에 대하여 가장 높은 평균 점수를 나타낸다.

Definition과 Positive Example을 결합하여 학습시키면 성능 향상이 있다.

Positive Example을 무작정 많이 추가하는 것은 성능 향상에 도움이 되지 않는다.

Negative Example은 성능 향상에 미미한 영향을 미친다.

Explanation을 추가하면 성능이 감소하는데, 이는 모델이 충분히 크지 않을 때 관측된 결과이다.

Conclusion

해당 논문에서는 다양한 유형의 NLP 작업과 그에 대한 지시사항을 포함하는 대규모 벤치마크를 구축한다.

Super-Naturalinstruction 데이터셋을 활용하여 Tk-Instruct 모델을 훈련시키고, 모델이 새로운 작업을 성공적으로 수행할 수 있음을 보여주었다.

Limitations

데이터셋은 다양성을 제공하지만, 특정 task 및 언어(영어)에 편향되어 있다.

ROUGE-L이 효과적인 평가 지표로 작용하지 않는 특정 task가 있다.

Ex) Rewriting task, Error correction task과 같은 경우에 입력을 복사하면 높은 ROUGE-L 값을 얻는다.