[NLP/자연어 처리] 학습 편향 줄이기(Reducing Training Bias)

2023 Jun 08 in Computer Science on Artificial Intelligence

편향이란?(What is Bias?)

편향의 종류

학습에서의 편향(Training bias)

학습 시 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하여 생기는 편향(inductive bias)

편향된 현실 세계(A biased world)

현실 세계가 편향되어 있기 때문에 모델에 원하지 않는 속성이 학습되어 생기는 편향(historical bias)
성별과 직업 간 관계 등 표면적인 상관관계로 인해 원하지 않는 속성이 학습되어 생기는 편향(co-occurrence bias)

데이터 생성 시점의 편향(Bias in data generation)

입력과 출력을 정의한 방식으로 인해 생기는 편향(specification bias)
데이터 샘플링 방식으로 인해 생기는 편향(sampling bias)
주석자로 인해 생기는 편향(annonator bias)

성별 편향(Gender bias)

대표적인 편향의 예시
특정 성별과 행동을 연관시킴에 따라 예측 오류가 발생한다.

표본 추출(샘플링) 편향(Sampling bias)

<리터러시 다이제스트(The Literacy Digest)> 여론조사(1936년)

표본 크기: 240만 명(당시 사상 최대)
예측: 루즈벨트 43%, 알프레드 랜던 57%
실제: 루즈벨트 62%, 알프레드 랜던 38%
설문 대상: 잡지 정기구독자, 자동차 등록 명부, 사교클럽 인명부 등
→ 중산층 이상으로 표본이 왜곡되었음
2년 후 <리터러시 다이제스트=""> 파산

ODQA(오픈 도메인 질의응답)에서의 편향(Bias in Open-domain Question Answering)

읽기 도구(Reader) 모델의 학습 편향

2023-06-08-mrc-7-fig-0

만약 읽기 도구 모델이 한정된 데이터셋 내에서만 학습된다면…?

읽기 도구는 항상 정답이 문서 내 포함된 데이터쌍(양성, positive)만을 보게 된다.
(예) 특히 SQuAD와 같은 (맥락, 질의, 응답)이 모두 포함된 데이터는 양성으로 완전히 고정되어 있다.
→ 추론 시점에 데이터 내에서 찾아볼 수 없었던 새로운 문서를 준다면?
→ 읽기 도구 모델은 문서에 대한 독해 능력이 매우 떨어질 것이고, 결과적으로 정답을 내지 못 하게 될 가능성이 크다.

학습 편향 완화하기(Mitigating training bias)

음성 예제 학습하기
- 학습 시 잘못된 예제도 보여주어야 검색 도구가 음성 예제 내용들은 벡터 공간상 먼 곳에 배치시킬 수 있다.
  → 음성 예제간에도 상대적 차이가 있음을 고려해야 한다.
정답없음 예제도 추가하기
- 입력 시퀀스 길이가 N일 때 시퀀스의 길이와 1개의 토큰이 더 있다고 보는 것
  → 학습 모델의 마지막 층 파라미터에 학습 가능한 편향을 하나 더 추가한다.
  → Softmax로 응답 예측을 최종적으로 수행할 경우, 시작 및 끝에 해당하는 편향 위치에 있는 경우가 확률이 가장 높으면 이는 “대답 불능”으로 취급한다.

음성 예제를 구성하는 좋은 방법?

말뭉치(Corpus)에서 임의 추출하기
보다 헷갈리는 음성 샘플 추출하기
→ 높은 BM25 및 TF-IDF 매칭 점수를 가지나, 답을 포함하지는 않는 샘플
→ 같은 문서에서 나온 다른 단락/질의 선택하기

데이터셋 내 주석자 편향(Annotation Bias from Datasets)

주석자 편향이란?

데이터셋 구성 과정에서 발생하는 편향
(예) ODQA 학습 시 기존의 기계 독해 데이터셋을 활용하게 되는데, ODQA 환경에는 적합하지 않은 편향이 데이터셋 구성 단계에서 발생할 수 있다.
→ 질문자가 답을 이미 알고 있는 경우이며, 질문과 근거 문단 사이에 많은 단어가 겹치는 편향이 발생할 수 있음.
→ SQuAD: 500+ 위키 문서 → 사람들이 많이 보는 문서를 위주로 선별했기 때문에 학습 데이터 분포 자체가 이미 편향되어 있음.

주석자 편향의 영향

2023-06-08-mrc-7-fig-4

SQuAD의 주석자 편향이 단어의 중첩(overlap)을 유도하게 되는데, 이러한 환경은 사실 중첩을 더 효과적으로 잡아주는 BM25에 유리하여 위와 같이 SQuAD 데이터셋에서는 DPR보다 BM25의 성능이 더 좋아지는 현상이 발생한다.

주석자 편향 다루기

2023-06-08-mrc-7-fig-5

데이터셋 구성 단계에서 발생 가능한 편향을 인지하고, 이를 고려하여 데이터를 모아야 한다.
(예) ODQA 설정과 유사한 데이터 수집 방법
→ 자연스러운 질의: 뒷받침 근거가 주어지지 않은, 실제 유저의 질의만을 모아서 데이터셋을 구성.

기계 독해 데이터셋의 또 다른 편향

SQuAD: 단락이 주어지고, 주어진 단락 내에서 질의와 응답을 생성하는 데이터셋

→ 오픈 도메인 질의응답(ODQA)에 적합하지 않은 질문들이 존재한다.

(예) 미국의 대통령은 누구인가, 그는 누구인가 등

→ 위 예시 질의의 경우 ‘2023년’ 등 시점에 관한 정보나 인물 정보가 특정되지 않아 오픈 도메인 질의응답으로서는 부적절.

참고

부스트캠프 AI Tech 기계 독해 강의 by 서민준 교수(KAIST, TwelveLabs)

[NLP/자연어 처리] 학습 편향 줄이기(Reducing Training Bias)

편향이란?(What is Bias?)

편향의 종류

학습에서의 편향(Training bias)

편향된 현실 세계(A biased world)

데이터 생성 시점의 편향(Bias in data generation)

성별 편향(Gender bias)

표본 추출(샘플링) 편향(Sampling bias)

ODQA(오픈 도메인 질의응답)에서의 편향(Bias in Open-domain Question Answering)

읽기 도구(Reader) 모델의 학습 편향

학습 편향 완화하기(Mitigating training bias)

음성 예제를 구성하는 좋은 방법?

데이터셋 내 주석자 편향(Annotation Bias from Datasets)

주석자 편향이란?

주석자 편향의 영향

주석자 편향 다루기

기계 독해 데이터셋의 또 다른 편향

참고

Plain writing

Error

편향이란?(What is Bias?)

편향의 종류

학습에서의 편향(Training bias)

편향된 현실 세계(A biased world)

데이터 생성 시점의 편향(Bias in data generation)

성별 편향(Gender bias)

표본 추출(샘플링) 편향(Sampling bias)

ODQA(오픈 도메인 질의응답)에서의 편향(Bias in Open-domain Question Answering)

읽기 도구(Reader) 모델의 학습 편향

학습 편향 완화하기(Mitigating training bias)

음성 예제를 구성하는 좋은 방법?

데이터셋 내 주석자 편향(Annotation Bias from Datasets)

주석자 편향이란?

주석자 편향의 영향

주석자 편향 다루기

기계 독해 데이터셋의 또 다른 편향

참고

Templates (for web app):

Error