Hayden's Archive

2020.10.14 국립국어원 우리말 빅데이터의 활용 본문

Seminar

2020.10.14 국립국어원 우리말 빅데이터의 활용

_hayden 2020. 10. 14. 14:14

  • 우리말 빅데이터를 이용한 AI 서비스 트렌드(네이버 자연어처리 책임리더 강인호) 
    • NLU - 자연어 이해
      • 발화 의도가 무엇인지
    • NET
      • 원피스가 애니메이션인지 옷을 말하는 건지 Tagging 
    • Crowdsourcing marketplace : 한국에는 crowdworks라고 해서 알바처럼. 대량의 말뭉치, 대량의 학습셋을 구축해서 AI 모델을 만드는 데 사용함
      • Yandex Toloka
    • 학습셋을 만들어서 서비스를 제공하면 문제점 : 만들 때는 좋은데 서비스는 살아있다. 
      • ex) 시그널 틀어줘 -> 한때 유행하던 시그널 게임, 드라마 시그널, 트와이스의 시그널 -> 사람마다 다르고 시기마다 다름. 
    • AI 모델의 빠른 갱신 : 오랜 시간 사용할 수 있는 모델. 쓰면 쓸수록 좋아지는 모델이 필요.
      • 모델을 만들 때 학습셋을 가지고 하지만 미래를 고려해서 학습하는 것이 중요
    • 기본 학습셋을 잘 활용 혹은 최소의 추가로 성능을 지속적으로 향상시키기 위해 노력
      • 학습셋을 재활용하거나 학습셋을 조금만 더 늘려서 성능을 늘리는 것을 고민
      • Active Learning : 새롭게 모든 학습셋을 늘리기보다 오답노트 만들어서 틀린 문제만 다시 보듯이 네이버가 잘 틀렸던 것 중심으로 효율적으로 지정
      • Transfer Learning 
      • Data Augmentation
    •  BERT : 네이버의 파파고도 버트를 기본으로 사용. 형태소 해석기와 비슷. 어떤 일을 위해 만든 게 아니라 지식백과, 뉴스백서 같은 좋은 책을 주면 열심히 읽고 어떤 단어이고 어떤 의미인지 캐치해냄. 예전에는 기본적으로 형태소 해석하고 들어갔는데 이제는 BERT + Fine-Tuning
    • GPT3 - money game
      • 엑셀 자동채움(자동으로 1,2,3,4,...) 같음. 원하는 것이 만화영화라는 것을 하면 쭉 채워줌. 수만개 학습셋을 만들어야 했던 것을 2개만 제공해도 답을 함. 하나를 가르쳐줬더니 열개를 아는 것.
      • 네이버에서 AI Dungeon(AI 던전)으로 실험하면서 한국어로 만들었을 때 가능성이 있을지 없을지 실험 중.
    • 향후 예상 : 형태소 해석 -> Pretraing & Tokenizer Updating
      • GPT4 지금 들어간 것으로 알고 있음.
      • 학습을 개인 데이터를 가지고 하지만 학습 데이터를 서버로 옮기지 않는 것이 중요하게 될 것.
        • 사용자가 구체적으로 휴대폰에서 봤는지 등을 사용자가 원하지 않을 것.
        • 그런 데이터보다 학습된 모델을 가져다가 모아서 더 좋은 모델을 만드는 식
      • Multimodal - 네이버 내에서도 텍스트와 이미지 부서가 나눠져있었는데 점점 구분이 없어짐. 텍스트든 이미지든 구분없이 임베디드 세상에서 다 매칭되는 세상. 
    • BERT가 나왔을 때 모든 사람들이 이걸 사용. BERT가 원래 몇주였는데 이제 몇일 안 걸림.(구글은 몇초라고 함) 이게 다 전력 낭비. 그 비싼 장비를 가지고 쓰는 것이 고민. GPT3가 되니까 스케일이 커짐.
    • 모두의말뭉치에 이어서 국립국어원에서 해주면 도움이 많이 될 것이라는 의견.

 

  • 우리말 빅데이터 활용 사례 및 서비스 응용(엔시소프트 자연어처리센터 이연수 실장)
    • NLP 응용 서비스 : 사람의 말을 기계가 듣기도 하고 하기도 함. 
    • 사람과 기계의 협업에서도 쓰임
      • 길게 업무를 하는 과정에서도 도움이 될 수 있음. 기자가 탐사보도를 할 때 광범위한 정보 수집, 분석, 효과적 구성, 의견 예측을 작성하기도 함. 이런 긴 과정에서도 NLP 기술이 도움될 수 있음.
      • 인터뷰, 받아쓰기, 요약, 관련 정보 탐색, 최종 기사의 과정에서도 도움.
    •  OpenAI GPT-3. 굉장히 많은 지식을 학습해서 대답을 하는 시스템.
    • 실제로 회사에서 서비스를 한다고 했을 때 General한 테스트를 하는 게 아니라 게임을 자동으로 중계하거나 앱으로 했던 은행 업무를 대화를 통해 하거나 많은 정보를 필요로 해서 추출해놓고 저장, 얼마 전에 나온 앱의 가격을 물어보거나 자연어를 통해서 서비스하고 싶은데 앞에서 나온 것으로는 어려움.
    • 사람이 하는 얘기가 음악에 관한 이야기인지 스포츠에 관한 이야기인지 자동으로 판단하는 딥러닝 엔진을 만든다고 가정.
      • 1) 스포츠와 음악을 구분
      • 2) 학습데이터를 구축(기계에게 많은 예제 학습시키고 거기에 label을 단다)
      • 3) 충분히 학습시켜서 딥러닝 모델이 만들어짐.
      • 4) 이것은 스포츠에 관한 문장이다,라고 판단하고 실제로 액션을 함.
      • 5) 이렇게 학습해도 새로운 데이터를 판단하지 못하면 더 많이 학습
    • 얼마나 현실세계에 대응할 수 있는 데이터를 많이 만들 수 있느냐가 중요함.
    • 정보 추출 서비스 : 검색이 될 수도 있고 오피니언 마이닝이 될 수도 있음.
      • 여러 가지 앱을 통해 정보 확인. 구글 검색에서 반지의 제왕이라고 치면 오른쪽 네모난 박스가 뜨는데 미리 준비해놓은 박스가 아님. 반지의 제왕은 그래프의 형태로 어떤 감독, 얼마나 많은 사람들이 봤고 등의 정보가 미리 저장되어 있음. 그리고 감독을 클리게 하면 Knowledge Graph 좀 더 이용해서 다시 구성됨.
      • 지식이 구조화되고 저장되어 있다면 앞으로는 실제 사물들과 연결이 될 것. 미국 대선에서 바이든이 이길 것 같다고 예측하면 관련주들을 추천할 수도 있는 것.
      • 형태소 분석 -> 개체명 인식(사람 이름 정보, 시간 정보, 기관 정보 등 추출) -> 문장에서 어떤 구조를 가지고 의존 관계가 어떤지 -> 딥러닝 엔진에 들어가서 또 어떤 관계가 나오는지 -> 최종적으로 정보가 추출되어 데이터베이스에 저장됨. 
      • 세종말뭉치, 모두의 말뭉치를 통해 형태소 분석. 
      • 신규데이터를 넣었는데도 정확도가 떨어지는 이유? 평가 데이터가 기존의 세종말뭉치. 두 개의 엔진이 서로 다르게 분석. 형태소 단위나 품사 해석이 달라짐. 이제는 많이 쓰는 단어가 됨. -> 실제로는 떨어지는 게 아니라 더 잘하고 있는 것. 하지만 데이터를 섞어서 쓸 때 기계도 답을 헷갈릴 수가 있음.
      • 기존과는 다르게 가이드 라인을 만듦. 좀 더 정확하게 보려면 기존 데이터도 가이드 라인을 함께 수정해야 함.
    • 대화 서비스
      • 지식 질의 응답, 자주 묻고 답하기, 간단한 대응, 이모티콘 대응
      • 어제 경기에서 타점 기록한 선수 알려줘, 선수A 홈런 몇 개 쳤어?, 야구 규칙/용어, 게임에 대해서도 알려줌
      • 개체명 인식이 가장 중요 : 올해 최정 홈런 몇개 쳤어? -> 최정이 개체명임을 인식.
    • 자연어 생성 서비스
      • NLP에서 많이 연구되지 않은 부분.
      • 게임을 서비스하는 부서에서는 자연어 생성이라는 AI 기술을 굉장히 많이 필요로 함.
      • 데이터는 굉장히 많이 생성되고 있음. 사용자들은 문장으로 서비스 받기를 원함. 자동으로 문장을 만드는 기술이 굉장히 중요. 
      • 로봇이 작성하는 기사가 대부분이 템플릿. 하지만 딥러닝 기술이 많이 발전해서 다양한 템플릿이 있음.
      • AI기자가 사용자의 기분에 맞춰서 NC가 졌다면 거기에 맞춰서 기사를 작성해줌
      • 날씨 기사 역시 기상청과 환경관리공단에서 데이터를 받고 문서 전체를 딥러닝으로 생성해서 연합뉴스로 보냄.
      • 야구는 기존의 많은 데이터를 학습시킨 것, 날씨는 기상청 API에 나오는 데이터들과 기존의 연합뉴스 기자들이 사용한 것을 학습에 사용. -> 이런 것들을 말뭉치로 만들어야 하는 이유? 기존에는 이런 샘플 말뭉치도 없었기 때문에 연구자들이 연구를 할 수 없었음.
      • 요약을 만들어내는 서비스. 굉장히 긴 기사에 대해 3개의 요약본을 만들어내고 친구같은 말투로 문체를 변환해서 서비스.
      • 기술은 많이 준비가 됐는데 데이터가 준비가 안 된 부분.
    • 빅데이터 원시 말뭉치의 중요성
      • 구어체 잔뜩 알려주고 문어체 잔뜩 알려줌. 현재형/과거형, 부정적/긍정적 비교사 문체 변환.
      • 언어 말뭉치를 오픈하는데 원시 말뭉치 자체도 중요해짐. BERT는 매번 기계학습 시킬 때마다 서비스에 맞게 구축하는 게 비용이 많이 들고 힘듦. 이미 사전학습을 많이 시켜놓고 조금만 가르쳐도 금방 알아듣게끔 만들어놓은 모델. GPT3도 BERT와 유사한 모델.
      • Common Crawl 
      • 구어 말뭉치, 일상 대화 말뭉치, 메신저 말뭉치, 앱 말뭉치, 문법용 진단 말뭉치, 유사 문장 말뭉치를 국립국어원에서 오픈해서 많은 도움을 받을 수 있음.
    • 결론 : 유용한 말뭉치가 오픈되어 있지만 꾸준한 정제가 필요함.
      • 개체명 인식은 어떤 카테고리로 해야 정답인가, 감정의 분류 체계는 어떻게 만들어서 기계한테 학습시키는가...
      • 인지심리학적인 연구와 언어학적인 연구가 함께 이루어져야 함.
      • 산업의 방향과 잘 맞아져서 국가적으로 많은 발전을 할 수 있도록 데이터가 만들어져야 함. 궁극적으로는 사람의 노력을 많이 줄여줘서 사람으로 하여금 더 인간답게 살 수 있는 방향으로.

 

  • 우리말과 인공지능(솔트룩스 이경일 대표)
    • 인공지능 : 환경을 감지하고 스스로 행동함으로 자신의 목표를 달성할 수 있는 자동 시스템
    • 심층 신경망(Deep Neural Network)로 발전해옴.
    • 뇌는 비대칭성을 가지고 있음. 좌뇌는 논리, 언어, 수리 / 우뇌는 공간에 대한 패턴, 공간과 관련.
    • 인공지능도 마찬가지로 발전해옴. 
      • 1세대 AI : 논리적, 추론 기능 발전
      • 2세대 AI : 기계학습(딥러닝). 귀납적 추론으로 발전
      • 3세대 AI : 뉴로-심볼릭. 좌뇌와 우뇌 동시에. 언어/음성 지능, 시각 지능, 예측 지능, 공간 지능, 운동 지능, 예술 지능 등 다양한 분야.
    • 우리 말과 관련된 인공지능. 인공지능 가람이(GPT 2.5)
    • 트랜스포머라는 것 중에서 GPT라는 기술. 트랜스포머(인공지능이 문장 중에서 어떤 단어에 더 관심을 가져야 할지, 어떤 단어와 어떤 단어가 연관이 있는지 대규모 데이터(=말뭉치)로부터 학습)
      • 거대한 언어 말뭉치의 학습.
      • 기계가 사람과 대화, 기계가 스스로 학습해서 번역.
      • 지식이 부족할 때 책을 읽듯이 인공지능도 인터넷이나 거대한 데이터를 수집해서 지식을 증강하게 됨.
    • 대고객 전문 상담 서비스 : 상담사 한명한명마다 맞춤형 상담원 지원 시스템(상담 비서)이 됨.
    • 말뭉치를 통해 90% 이상의 사람 말을 알아듣고 사람의 일을 도울 수 있는 인공지능이 만들어지고 있고, 그것이 우리의 삶에 깊숙이 들어오고 있음.
    • 지적 노동의 핵심 : 의사소통. 말뭉치. 언어 빅데이터.
    • 우리의 말과 글이 있고 국립국어원 중심으로 구축하고 개방.
    • 인공지능 vs 증강지능. 인간과 기계의 지적 협력.
    • 메타인지(알고 있다는 것을 알고 있는 것), 운동인지, 자연지능, 대인지능은 인간 수준으로 발전하는 데는 많은 시간과 많은 연구가 필요함.
    • 공감, 몸을 통해 경험 -> 인간만이 가지는 이러한 능력이 미래 세상에 더 중요

 

  • Q & A 시간
    • 분석말뭉치가 일할 때는 좋은데 분석말뭉치가 적어서 원시말뭉치를 쓰고 있음. 원시말뭉치만으로도 할 수 있는 일이 많아졌음. 원시말뭉치의 중요성이 커졌고 원시말뭉치도 어떤 말뭉치를 모을 것이냐가 관건.
    • GPT-3 한번 돌리는 데 수십억. 지금은 기술격차가 여섯달~1년 정도밖에 차이가 안나지만 1~2년으로 벌려질 수 있음. 정책적으로, 전략적으로 해야 함. 다 영어로 실험하고 있음.
    • 디지털 뉴딜 사업 : 국가에서 AI 학습용 데이터 사업, 데이터 바우처 사업을 하고 있음. 귀중한 데이터 자산을 국가적 자산으로 만들고 있음. 
    • 말뭉치를 한번 구축해서 멈추는 게 아니라 지속적으로 보강 필요. 감성 분석, 감정 분석처럼 말에 대한 뉘앙스, 인간처럼 말에 대한 맥락을 이해하는 것은 양이 훨씬 늘어야 함.
    • 딥 뉴럴 넷은 대규모 데이터, 대규모 연산량을 필요로 함(기존보다 수백배에서 수천배. 60억 정도가 한번 기계학습하는 데 사용됨). 구글, 아마존, 알리바바 등 한 회사가 가지고 있는 데이터가 한국이 보유하고 있는 데이터보다 더 많을 수 있음. 격차가 있으므로 다양한 고민 필요.
    • 분야에 있어서는 경쟁력을 갖출 수 있을 것. 업체 입장에서 제너럴하게 키워갈 뿐만 아니라 정말 잘하고 강한 부분을 파고 들어갈 수 있음. 아직까지는 경쟁할 수 있지만 갭이 커진다면 더 고민이 생길 것.
    • 요약문 생성 - 언어 모델을 충분히 학습 + 최소한 만개 이상의 원문과 요약문의 쌍으로 비교. 여기에 말뭉치로 학습하면 좀 더 요약을 잘할 수 있게 됨.
    • 외국어용 자연어 처리 수요 - 한국 쪽이 한국어에만 집중하고 있는 사이에 뉘앙스라는 기업은 다양한 언어 습득(자동차 음성 인식에서 현대차 등과 계약). 좋은 회사들이 좋은 역량을 내려면 한국어 한 부분만 가지고 있으면 비즈니스가 만들어지기 힘듦. 뉘앙스가 라이센스 가격을 수배로 올림.(대안이 없기 때문)
      • 우리말에 대한 범위 넓혀야 함.
      • 병렬적으로 한쪽에는 영어, 한쪽에는 중국어 이런 경우가 있을 수도 있음.