배너 닫기
뉴스등록
포토뉴스
카카오톡
맨위로

서울대 공대 컴퓨터공학부 김현우 박사, 국제 최우수 AI 학회 EMNLP에서 국내 대학 연구자 최초 논문상 수상

고품질 대규모 대화 데이터셋 누구나 간편하게 구축하는 방법론 개발세계 최대 규모 데이터셋 ‘SODA’ 공개

등록일 2024년01월18일 05시35분 카카오톡 트위터로 보내기 싸이월드 공감 네이버 밴드 공유
왼쪽부터 Liwei Jiang(UW, AI2), 김현우(서울대, AI2), Ronan Le Bras(AI2)가 ‘EMNLP 2023’에서
‘Outstanding Paper Award’를 수상한 후 기념 촬영을 하고 있다.
 

서울대학교 공과대학(학장 홍유석)은 컴퓨터공학부 김현우 박사와 김건희 교수가 미국 시애틀 앨런 인공지능 연구소(Allen Institute for AI, AI2) 및 워싱턴 대학교(University of Washington)의 최예진 교수 등과 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상했다고 밝혔다.

국내 대학 연구진이 EMNLP에서 수상을 한 것은 이번이 최초다.

기존 인공지능(AI) 대화 분야는 고질적으로 데이터 부족 문제에 시달려왔다. 일상에서 이뤄지는 대화들은 데이터로 기록되지 않는 경우가 대부분이기 때문이다. 문자 메세지나 이메일 같은 형태로 대화가 기록되더라도 여러 법적 제약들이 존재하기 때문에 이를 연구에 활용하기에는 어려웠다.

이의 대안으로 그동안 크라우드 소싱을 통해 대화 데이터셋을 제작해왔지만 비용도 많이 들고, 만들 수 있는 데이터셋 크기도 작은 문제점이 있다. 그 결과, 기존 대화 관련 연구들은 모두 소수의 작은 데이터셋 위에서 이뤄져 범용성에 큰 제약이 있었다.

수상 논문인 ‘사회 상식 맥락화 기법을 통한 백만 단위의 대화 증류(SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization)’는 이를 해결하기 위해 거대 언어모델(large language model, LLM)과 기호 기반 상식 그래프(symbolic commonsense knowledge graph)를 함께 사용해 데이터셋을 효율적으로 자동 구축하는 방법론인 CO_3 증류 프레임워크(distillation framework)를 제시했다.

기존에 크라우드 소싱 활용 시에는 대화 하나당 길게는 몇 분이 걸리던 작업을 6초 내외로 단축시킨다. 연구팀은 이를 통해 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 ‘SODA’를 무료로 공개했는데, 이는 기존 데이터셋 대비 100배 큰 규모다.

이 밖에도 대화의 자연스러움, 일관성, 구체성 등 품질 또한 기존 크라우드 소싱 기반 대화 데이터셋에 비해 2배 이상 뛰어난 것으로 나타났다. 그 결과, SODA에 학습시킨 챗봇 ‘COSMO’는 파라미터 수가 30억 개로 작은 크기임에도 불구하고 기존 큰 챗봇들(파라미터 수 70억)보다 대화 맥락에 더 적합하고 자연스러운 답변이 가능하다.

이번 연구는 대화 데이터셋 부족 문제를 해결하고, 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 데에 의의가 있다. 이 방법론으로 탄생한 데이터셋 SODA는 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대되며, 해당 코드와 SODA 데이터셋, COSMO 모델은 모두 오픈소스로 공개돼 있다.

해당 논문은 김현우 박사가 서울대 박사과정 중 미국 시애틀의 앨런 인공지능 연구소(Allen Institute for AI, AI2)에서 인턴을 수행하며 워싱턴 대학교(University of Washington), 카네기멜론 대학교(Carnegie Mellon University), 서던 캘리포니아 대학교(University of Southern California), 그리고 피츠버그 대학교(University of Pittsburgh)가 함께하는 국제 공동협력 연구를 이끈 결과며, 김현우 박사는 졸업 후 AI2에서 박사후 연구원으로 취업해 후속 연구를 이어가는 중이다.

미주한인뉴스

올려 0 내려0
유료기사 결제하기 무통장 입금자명 입금예정일자
입금할 금액은 입니다. (입금하실 입금자명 + 입금예정일자를 입력하세요)
관련뉴스
동아대학교, 학사 운영 시스템에 수세 렌처 프라임 도입… 비용 절감 및 컨테이너 복잡성 해결
딜리셔스, AI 연구 논문 2건 세계 최고 권위 학회 CVPR 2024 발표
Workplace Options, 글로벌 업무 환경에서의 심리적 안정감 연구 결과 발표
슈퍼브에이아이, 2024 AI 바우처 공급기업 선정… 생성형 AI로 보안·제조에 특화된 기업별 비전 AI 개발 지원
모히건 인스파이어, 외국인 전용 카지노 2월 개장 예정
고평석 엑셈 대표 ‘AI SEOUL 2024’서 세션 발표… AI 보급 확산으로 공공 업무 혁신에 기여할 것
AI가 단 10초 만에 보도자료를 6가지 문체로… 미디어스피어, 문체 변경 AI ‘오웰’ 웹 서비스로 출시
미국 주재 사우디 대사, WEF24서 ‘평화와 번영’ 정책 우선시해
애니프레임, 2023 레드닷 디자인 어워드 수상
현대엘리베이터, VR 시뮬레이션 플랫폼 미국 굿디자인상 수상
‘아싸’ 가수 보라, 가수의날 ‘특별공로대상’ 수상
제나셀, 대한민국 브랜드 만족도 1위 ‘6년 연속’ 수상
고려거란전쟁 ‘2023 뉴테크 융합 콘텐츠 대상’에서 대상 수상 영예
한국교직원공제회 ‘2023년 지속가능경영유공 포상’ 산업통상자원부 장관상 수상
대학 웹툰 "웹툰런" 33명의 수상자 작품이 한자리에
재담 쇼츠, 전국 대학 웹툰 창작 경연 대회 ‘웹툰런’ 수상자 33명 배출
런랩, 2023 대한민국광고대상 ‘대상’ 수상
클릭트 정덕영 대표 ‘2023 메타버스 이노베이션 어워드’ 수상
현대차·기아·제네시스, 북미서 연이은 수상 행진
덴마크 올해의 차 2024’에서 기아 SUV EV9, 올해의 혁신상(Innovation Award 2024) 수상
롯데건설, 아파트·업무시설 조경부문 환경부장관상 수상
잭(Jack)과 로라 데인저몬드(Laura Dangermond), 골 세븐틴 이노베이션 인 파트너십 어워드 수상
2023 경기 콘텐츠 창의학교 경진대회 결선… 세경고 한국애니메이션고 대상 수상

가장 많이 본 뉴스

사회 경제 연예/스포츠 라이프 미디어

동영상 뉴스

포토뉴스

연예/스포츠