STT? '스피치캐치'? 그것이 알고 싶다
"아리야, 오늘 날씨는 어때?” 들어보거나 혹은 직접 AI 스피커에 얘기 해본 적이 있을 겁니다. 이는 Speech-to-Text(이하 STT) 기술을 활용 한 것이며, STT는 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환 하는 것을 말합니다. 음성 인식(Speech Recognition)이라고도 부릅니다.
음성인식 기술은 어느 날 갑자기 툭 하고 나타난 것이 아니며, 음성인식의 역사는 1950년대까지 거슬러 올라가야 합니다. 미국에서는 사람이 말하는 모습을 X레이로 촬영하고 목소리의 구조를 조사하는 연구가 활발히 진행되었습니다. 소리를 낼 때의 변화를 확인 하고 그것을 수학적으로 기술하고자 한 것입니다. 여기서 나온 수식 모델에 소리를 합성하면 음성 합성이 되고, 입력된 음성이 어떤 모델에 가까운가를 살펴보면 음성인식이 가능하다고 믿었던 것입니다. 그 외에 1963년 IBM이 음성으로 영단어 16개를 인식하는 것은 물론 간단한 숫자 계산까지 해주는 ‘슈박스(Shoebox)’라는 음성인식 기기를 공개하였으며, 그 이후에도 음성인식의 대한 연구는 계속 되고 있습니다. 오늘날 스마트폰, AI스피커, 스마트 가전 등의 기기들과 음성인식 기술이 접목함으로써 음성인식 기술은 빠르게 발전 및 대중화 되고 있습니다.
세계 주요 IT업체들은 하나같이 음성인식 기술력 확보와 선도적인 제품출시를 서두르고 있습니다. 손쉽게 소리와 음성을 글로 변환하여 신속하게 내용을 파악할 수 있는 IBM의 Watson Speech to Text, 휘발성인 음성 데이터를 영구 보존 가능한 텍스트 데이터로 정보 자산화하여, 활용 가능 용도를 도출 하는 SK㈜ C&C의 ‘스피치캐치’가 대표적인 음성인식 기술입니다. 그 외에도 구글, 마이크로소프트 IT업체들도 있으며, 이들은 음성인식 기술력 확보와 시장을 선점하기 위해 많은 노력을 하고 있습니다. 그렇다면 오늘은 SK㈜ C&C의 STT인 ‘스피치캐치’에 대해서 좀더 알아보도록 하겠습니다.
STT '스피치캐치'에 대해 알아보자
SK㈜ C&C 스피치캐치 음성인식의 특징은 크게 4개로 나뉩니다. 첫 번째로 지속적인 음성인식 성능을 개선합니다. 다양한 학습 기법 변경을 통한 음향 모델링을 구현하고 대용량 Corpus 확보 및 활용으로 General한 언어 모델링을 구현 시킵니다. 두 번째로는 연속된 음성 신호에 대해 파일 단위가 처리가 아닌 Socket 통신으로 실시간 인식처리가 가능합니다. 세 번째로는 고객센터용 실시간 화자분리, 주소인식 등의 특화서비스에 적용 가능합니다. 마지막으로 사용자 중심의 솔루션 기능을 강화합니다.
■ STT 음성 인식 엔진 구조
SK㈜ C&C 스피치캐치 음성인식은 연속 입력되는 음성신호에 대해 특징 정보를 추출하여 학습된 언어/음향모델 기반 연산하여 가장 유사한 텍스트를 추출하는 프로세스로 되어 있습니다.
■ Key 서비스 – General Model (일상대화 모델)
기존의 STT 기술은 여러 이유로 특정영역에서 학습하기 전까지는 잘 인식이 되지 않았습니다. 현재 오인식이 나는 케이스도 발생 하기도 합니다. 특히 AI 음성비서 스피커의 핵심은 무엇보다 사용자의 음성을 제대로 인식해 정확한 명령을 수행 해야 합니다. 예를 들어 사용자가 음성 명령을 내리면 제대로 인식하지 못하고 “뭔가 잘못됐어요”, “말씀 하신 사항을 수행하지 못했어요. 다시 말해주세요” 등의 알림을 반복하면 사용자는 답답해서 직접 스마트폰을 통해 찾아보고 수행 하곤 합니다. 이러한 문제는 SK㈜ C&C 스피치캐치의 'General Model (일상대화 모델)’을 통해 해결 가능합니다. 이는 모델링 강화 기법의 변화를 통해 일상 대화에 높은 인식률을 제공하고 적은 Domain Training으로 효과를 극대화 할 수 있습니다. 뿐만 아니라 Domain Training 전 다양한 Case의 선행학습모델로 기존 모델보다 인식 성능 향상이 월등합니다 이를 통해 기본 인식률의 경쟁력 확보가 가능합니다. 'General Model (일상대화 모델)’은 음향모델과 언어모델로 구분 지어 생성가능하며, 자세한 사항은 아래를 참고해주세요.
■ 특화서비스 적용 – 주소 인식 기능
SK㈜ C&C 스피치캐치 음성인식은 주소인식과 같은 특화서비스 적용이 가능합니다. 도메인 특성이 없는 주소 인식은 행정안전부 기준 ‘표준 주소 Model’ 제작으로 도로명・지번 주소에 대해 별도 Training 없이 기능 제공이 가능합니다. 해당 서비스의 기대 효과로는 수작업 영역의 자동화를 통해 Human cost 절감을 할 수 있으며, 단수 주소 변경과 같은 단순 업무는 ARS에서 Self 처리가 가능합니다. 이 서비스는 홈쇼핑, 관공서 및 배달 관련업체, 대형마트, 백화점 등에서 활용 가능하며 고객이 ARS상에 남긴 주소지를 담당자가 하나하나씩 들어가며 입력 하던 업무를 자동화 할 수 있습니다.
■ ‘스피치캐치’ 담당자 인터뷰
1. STT ‘스피치캐치’ 출시 배경은 무엇인가요?
- 'Speech Catch'는 사람의 목소리를 인식하고, 특징을 통해 인증하는 관련 프로젝트를 진행하며, 음성의 가치에 흥미를 느꼈고, 관련해서 다양한 내부 Ideation을 진행하였습니다. '음성인식으로 고객센터 업무지원을 한다면?', '사람이 메모하던 일을, 음성인식이 대신해 준다면?', '(심리/고민)상담은 기계에 얘기하는 것이 편하지 않을까?' 그 Idea들의 시작점이 '음성데이터를 Text로 변환해보자' 였고, 이것이 스피치캐치의 출시 배경입니다.
2. 해당 솔루션이 필요로 하는 고객군이 어디 일까요?
- 크게 음성을 매개체로 제어하는 영역과 음성 정보를 기록하는 영역으로 구분할 수 있습니다. '음성제어' 영역으로는 이제는 쉽게 접할 수 있는 'AI 스피커', '모바일 비서', 'Voice Bot' 이 있고, '음성기록' 영역으로는 '콜센터녹취', '자동 회의록', 'Diary' 등이 있습니다. 음성이 사용되는 모든 영역이 대상영역이 될 수 있고, 한글을 사용하는 모든 사람이 고객이 될 수 있습니다.
3. 향후 계획에 대해 말씀 해주세요.
- 초기의 음성인식은 원하는 Domain, 후처리를 위한 keyword만 인식이 잘되면 서비스가 가능 했었습니다. 그러나 지금은 특정 Domain에서 광범위/일상 영역으로, 대화의 주제와 상관없이 항상 인식률이 높아야 하는 서비스들을 요구합니다. 이를 위해, 'General Model (일상대화 모델)'을 만들어서 지속적으로, 성능향상을 노력하고 있습니다. 또 최근에는, 이 모델로 청각장애인 분들의 '비장애인과의 통합교육' / '직업훈련과정' 등 교육지원 서비스 개발로 Social Value 창출 활동도 계획하고 있습니다.
지금까지 음성인식 기술에 대해서 알아보았으며, 특히 ‘스피치캐치’의 대해 집중적으로 알아봤습니다. 음성인식 기술은 보다 많은 이들의 일상을 편리하게 만들어준다는 점에서 그 의의가 큰 기술입니다. 우리의 모든 일상의 접점에서 가치를 선사해 줄 음성인식 기술이 더욱 상용화 되어 많은 사람들이 유용하고 편하게 생활 할 수 있는 날이 오기를 기대해봅니다.