[Kaggle] Quora Insincere Questions Classification 참가 후기 (1)

- 6 mins

Quora Insincere Questions Classification에 참가한 후기를 늦게나마 정리한다. 글로 후기를 남기기로 마음먹었는데, 다른 일들로 우선순위가 계속 미뤄져 대회가 끝난지 두달 가량이 벌써 지나버렸다. 최근 비슷한 주제의 컴패티션으로 “Jigsaw Unintended Bias in Toxicity Classification”가 열린 걸 보고 오늘은 꼭 후기를 써야겠다고 느꼈다.
Quora Insincere Questions Classification(이하 QIQC)는 내가 캐글에서 solo로 참가한 두번째 대회다. (Kaggle에 가입하여 대회에 등록해서 public kernel을 다뤄본 것을 제외한다면…) 처음으로 참가한 대회인 “Quick, Draw! Doodle Recognition Challenge”에서 많이 고군분투하다가 결국 메달을 따기 실패했었기 때문에 이번 대회는 꼭 메달을 따고 싶었다. vision관련 테스크는 내게 익숙하지 않은 주제였지만, “QIQC”는 내가 좀 더 익숙한 nlp관련 주제였기 때문에 좀 더 어려움이 덜하지 않을까 싶었다. 물론 생각지 못했던 난관들이 있어서 끝까지 긴장을 늦출 수 없었다.

대회 개요

QIQC는 Quora에서 주최한 대회다. Quora는 미국의 지식인같은 사이트로, 질문과 그에 대한 대답을 게시하는 플랫폼이다.(여담을 붙이자면, 답변의 퀄리티가 굉장히 좋은 편이다. 실제 교수, 연구자, 산업종사자의 답변을 심심치않게 볼 수 있다.) 이 competition의 목적은 question set이 주어지면 그 질문이 정말 진실됐는지(sincere) 판별하는 것이다. 여기서 정의하는 insincere한 질문이란 중립적이지 않거나, 누군가를 폄하하거나 비하하거나, 선동적이거나, 거짓에 기반한 내용이거나 성적인 내용을 포함하는 것을 말한다. 이러한 insincere한 질문일 경우룰 target을 1로 sincere할 경우 target을 0으로 예측해야 한다. Evaluation은 F1 Score를 사용한다.

이 대회의 제한조건들

이 대회가 쉽지 않았던 이유를 정리하면 아래와 같다.

내가 시도해 본 방법

위와 같은 이유로 마의 벽 0.7에서 다들 고군분투하였다. 이러한 제한 조건안에서 내가 시도해본 내용들을 적어보자면, 다음과 같다.

이 정도가 내가 생각한 kernel-only 룰 안에서 할 수 있는 범위였다. LB와 CV가 딱 맞진 않아서, 내가 조금조금씩 수정한 부분이 과연 효과가 있는지 확실할 수 없어서 어려웠다. 마지막날에 근접해서는 높은 점수의 public kernel이 공개되었기에(그러나 2-stage에서는 돌아가진 않는모델.), 그 커널의 fork가 여러번 제출되어 내 현재 스코어 위치를 가늠하기 어려워졌다.
이후 결과와, 실제 상위모델의 방법은 다음 포스팅에서 정리하한다.

Huiwon Yun

Huiwon Yun

아무것도 하지않으면 아무일도 일어나지 않는다.

comments powered by Disqus
rss facebook twitter github youtube mail spotify instagram linkedin google google-plus pinterest medium vimeo stackoverflow reddit quora