한국말을 척척 알아듣는 국내 최적화된 인공지능 에이브릴(Aibril). 강력한 자연어 이해 서비스(Watson NLU, Natural Language Understanding)를 갖춘 덕분에 에이브릴은 사람의 언어를 정확하게 이해하고 최적화된 분석을 할 수 있습니다. 지난 글에서 자연어 처리를 거친 에이브릴의 자연어 이해를 간단히 살펴봤는데요. 오늘은 에이브릴의 자연어 이해 능력을 좀 더 살펴보고, 여러분이 직접 써 볼 방법을 알려드릴게요.

 

오늘까지 고객 분석 리포트 제출하세요!

즐거운 금요일 가벼운 마음으로 출근한 은주 씨는 지난 프로모션때 진행한 고객들의 리뷰 문서를 모두 분석해서 보고서를 제출하라는 팀장님의 청천벽력과도 같은 작업지시를 받습니다.

수백장에 달하는 고객 리뷰 문서를 모두 읽고 분석해서 통계를 내야하는 엄청난 작업을 불행하게도 금요일 오전에 만나게 된 것이지요.

이럴 때 문서의 내용을 자동으로 분석해주는 인공지능 서비스가 있다면 얼마나 좋을까요? 에이브릴의 자연어 이해 서비스가 바로 문서의 내용을 읽고 분석해주는 서비스인데요. 에이브릴 자연어 이해 서비스는 API호출 방식을 통해 사용자로 하여금 어려운 인공지능 영역의 깊은 이해(머신러닝, 딥러닝 알고리즘) 없이 간단하게 문서의 내용을 분석하고, 분석 내용을 토대로 통계를 만들 수 있습니다.

 

에이브릴 자연어 이해 서비스로 비정형 콘텐츠 분석해보기

비정형 콘텐츠는 미리 정의된 방식으로 정리되지 않은 정보를 말하는데요. 우리가 흔히 사용하는 블로그 글, 기사, 페이스북과 같은 SNS글들을 비정형 콘텐츠라고 보시면 됩니다. 이러한 비정형 콘텐츠의 텍스트 분석을 해주는 것이 바로 에이브릴 자연어 이해 서비스 입니다.

에이브릴 홈페이지에서 에이브릴의 자연어 이해 서비스(Watson NLU)를 간단하게나마 직접 체험해볼 수 있습니다. 뉴스나 블로그 게시글에 있는 텍스트를 분석해 어떤 단어가 핵심 단어인지, 문장에서 각 어절이 어떤 역할을 하는지를 살펴볼 수 있는데요. 이 서비스를 활용하면 기존 데이터에서 찾기 어려운 의미를 추출하기도 쉬워집니다!

그렇다면 조금 복잡한 지문은 어떨까요? 개인적으로 재미있게 읽은 유발 하라리의 소설 사피엔스의 지문을 직접 넣어봤습니다.

 


텍스트를 넣거나 콘텐츠가 있는 페이지 URL을 넣고 분석 버튼을 누르면 에이브릴 자연어 이해 서비스가 텍스트를 분석한 결과를 볼 수 있스비다. 기본적으로 준비된 글을 분석할 수도 있구요. 위처럼 지문을 직접 넣을 수도 있습니다. 

 

에이브릴 자연어 이해 서비스가 분석한 내용 읽기

에이브릴 자연어 이해 서비스의 여덟가지의 API 기능 중 일곱 가지 API기능을 먼저 소개하겠습니다. ‘Concept’ , ‘Categories’ , ‘Keywords’ , ‘Entities’ , ‘Semantic Roles’, ‘Metadata’ 분석결과 항목이 영어라서 조금 생소할 수 있지만, 분석 내용을 살펴보면 각각의 항목이 어떤 의미인지 이해하기 쉽습니다.

 

1. Concept API

Concept API는 분석에 입력된 컨텐츠와 연관이 되었다고 판단되는 DBpedia자원과 링크된 컨셉 단어를 출력해 줍니다, 본문에 직접적으로 명시되지 않은 주제어들을 제시해 주어, 본문의 내용을 파악하기 용이하게 해주는 API입니다. 



실제 DEMO 프로그램으로 구한 분석 결과를 보면, 본문 내용에 비중 있게 언급된 자본주의가 가장 높은 Score의 주제어로 추출되었으며, 본문에 나오지 않지만 연관성이 높다고 낲단된 공산주의’ , ‘에이브럼 링컨등의 주제어가 함께 추출되는 것을 볼 수 있습니다.

 

2. Categories API

Categories API는 본문 내용을 분석하여 해당 문서가 어떤 분류에 속하는지 알려주는 API 입니다. 이때 사용되는 기준 데이터는 미국 IAB랩에서 미리 지정해 놓은 5단계 분류 데이터를 통해 결과가 반환되게 됩니다.     



분석 결과를 보면, 이 본문은 금융’ , ‘과학’ , ‘/정부 및 정치분류에 해당한다고 분석이 되었네요. 글 내용이 자본주의, 민주주의, 자유시장, 평등 등을 이야기하고 있으니 자연어 이해 서비스 역시 해당 분류로 판단했네요. Categories API 분류 기준은 총 1,037(2017 10 23일 업데이트 기준)까지 분류가 가능하며, 분류기준에 대한 자세한 정보는 다음 링크에서 보실 수 있습니다

 

 

3. Keywords API

Keywords API는 본문 내의 의미가 있다고 판단되는 핵심어들을 추출해주는 API 입니다. 많은 문서들을 분석할 때 일일이 읽어볼 수 없으니, 추출된 키워드를 기반으로 문서의 내용을 유추할 때 유용하게 쓰이는 기능 입니다. 


분석 결과를 보면 많은 키워드들이 추출되는데, ‘사람질서키워드를 가장 핵심어로 읽었군요. 저 문단을 쓴 유발 하라리가 말하고 싶었던 부분이 사람들로 하여금 상상의 질서를 믿게 만드는 방법이 무엇일까?’라는 부분이었으니 에이브릴 자연어 이해 서비스가 작가의 의도를 정확히 짚었다고 볼 수 있겠네요.

 

4. Entities API

Entities API는 사전에 정의되어 있는 개체 유형에 해당하는 개체명들을 본문에서 찾아서 추출해주는 API 입니다. 개체 유형은 고유명사, 사람, 직업, 장소 등 총 26(2017 10 4일 업데이트 기준) 유형을 기반으로 본문 내용을 분석해줍니다. 



우리가 분석한 결과에는 사람(Person)’ 유형에 해당되는 마르두크’ , ‘엔릴’ , ‘토마스 제퍼슨’ , ‘애덤 스미스등의 개체가 분석이 되었네요. DEMO 분석결과에 나오지 않은 분류 가능한 전체 Entities 정보는 다음의 링크에서 볼 수 있습니다

 

5. Sentiment API

Sentiment API는 감정분석으로 특정 문구나 문서 전체에 대한 감정을 긍정, 부정 등으로 분석해주는 API 입니다. 



Sentiment API의 감정 분석은 -1부터 +1까지의 감정 점수(Sentiment Score) 범위로 되어있으며, 마이너스 ‘-‘ 점수일 경우 Negative 플러스 ‘+’점수일 경우 Positive의 감정이 부여됩니다. 같은 Negative, Positive 분석 결과여도 감정 점수 (Sentiment Score)에 따라 그 세기를 구분할 수 있습니다.

DEMO의 본문은 부정(Negative)’으로 분석이 되었고 감정 점수(Sentiment Score)‘-0.37’로 측정되었네요. 

유발 하라리가 상상의 질서를 믿게 만드는 방법을 설명하면서 지속적으로 비판적인 어조를 사용했기 때문에 분석 결과가 부정(Negative) ‘-0.37’로 나온 것 같습니다. ‘본문 Sentiment’하단에 타깃 Sentiment’라는 항목이 있는데요. 이는 본문 중 일부 문구에 대해 감정분석을 할 수 있는 기능 입니다. 분석 결과를 보면, 본문 전체 감정은 부정이지만, 일부 분석한 내용(마지막 줄)은 중립(Neutral) ‘0.00’으로 분석 대상으로 설정한 문장에 따라 다른 결과가 나오는 것을 볼 수 있습니다. 

 

6. Semantic Roles API

Semantic Roles API는 문장 구조를 분석해주는 API로 문장 내의 행위(Action)를 정의한 뒤 그 행위(Action)의 주체가 되는 것을 Subject, 대상이 되는 것을 Object로 추출해주는 API 입니다.

정의만으로 이해가 어려운데요. 실제 DEMO 분석 결과를 통해 짚어보도록 하겠습니다. 



제일 상단의 분석 결과를 보면 사회를 지탱하는 질서는 위대한 신이나 자연법칙에 의해 창조된 객관적 실재라고 늘 주장해야 한다.’ 라는 문장이 있는데요. 여기에서 주장해야가 행위(Action)에 해당되고, 해당 Action의 주체(Subject)사회를 지탱하는 질서’ , 대상(Object)위대한 신이나 자연법칙에 의해 창조된 객관적 실재가 됩니다. 이러한 문장 구조 분석을 통해 주장하다라는 Action이 어떤 것을 주장하는 것인지 문맥분석이 가능합니다. 

 

7. Metadata API

마지막으로 Metadata API는 분석 결과라고 보기 보다는 분석에 사용되기 위한 정보들을 추출해주는 API라고 보면 됩니다. 이는 html 형식으로 입력되는 문서를 대상으로 html 문서 구조를 분석하기 위해서 사용되는 API로 블로그, 온라인뉴스, SNS 포스트 등 온라인 문서들을 수집하여 분석하기 위해 사용할 수 있습니다. 



에이브릴 NLU 서비스는 URL이나 html 코드 입력만으로 Metadata 추출이 가능하여, 에이브릴 기사 URL을 입력해 보았는데요. 입력한 URL의 기사 제목(Title), 작성자(Authors), Feed, 작성일(Date), 이미지 정보를 추출한 것을 볼 수 있습니다. 항상 최신 SNS 트렌드 데이터를 분석하여야 하는 여론분석 기관이나 마케팅 부서 등에서는 온라인에서 수집한 html 문서를 바로 분석해야 하는 필요가 있으니, 이럴 때 Metadata API를 사용하면 좋겠죠? 

 

학창시절 언어영역 시간에 짧은 시간 동안 텍스트를 읽고 이해하면서 핵심이 되는 단어를 재빨리 찾아내는게 고득점 비결이라고 배웠던 기억이 나네요. 그때는 매번 문장을 두어 번 다시 읽으면서 고개만 갸우뚱했던 기억이 나는데, 이제는 인공지능이 1초도 안되는 시간에 글 하나를 분석해 내놓은 결과를 보니 감회가 새롭습니다. 아직은 어색한 부분도 있지만, 이렇게 빠르면서도 비교적 정확히 문장을 분석했다는 사실 자체가 놀랍습니다. 

오늘 살펴본 자연어 이해 서비스는 인공지능과 관련된 기술 중 가장 핵심적이고 기초적인 내용이라고 할 수 있습니다. 어떤 형태로 글을 쓰더라도 여기에 담긴 핵심적인 내용을 빠르게 이해했을 때, 인공지능이 그 다음 행동을 적절히 취할 수 있기 때문인데요. 그래서 앞으로도 꾸준한 발전이 기대되는 부분이기도 합니다. 

글로만 보기보다는 직접 체험해보는 게 에이브릴 자연어 이해 서비스를 이해하기 쉽답니다. 다양한 지문과 입력 방법으로 쉽게 분석을 해볼 수 있는 자연어 이해 서비스 DEMO 프로그램을 직접 사용해 보는 건 어떨까요?



티스토리 툴바