가트너(Gartner) 하이프 사이클 2019(Hype Cycle for AI)가 발표됐습니다. 다가오는 2020년 집중해야할 AI 신기술에는 어떤 것들이 있는지 한번 알아보도록 할까요?!



안녕하세요. 

SK(주) C&C에는 다양한 직무를 수행하는 구성원들이 많은데요. 

오늘은 SK(주) C&C에서 'AI, 빅데이터 아키텍트' 업무를 담당하고 있는

구성원의 이야기를 들어보도록 하겠습니다. 

영상을 재미있게 보셨다면, '구독'과 '좋아요'클릭! 해주세요! :)



지난 8월, 이탈리아 피렌체에서 ACL 2019가 진행됐습니다. ACL(Association for Computational Linguistics)은 '전산언어학'으로 저명한 컨퍼런스 입니다. 이번 행사에는 당사 구성원들도 참관했는데요. 학회를 통해 ML(머신러닝)/DL(딥러닝) 기반 NLP(자연어 처리) 최신 연구동향을 확인하고, Aibril Platform 개선을 위한 인사이트를 얻었다고 합니다. 그럼 지금부터 열기가 가득했던 ACL 2019 현장의 후기를 들어보도록 하겠습니다!




2017년과 2018년에 이어 NVIDIA AI Conference에 참석했습니다. (https://www.nvidia.com/ko-kr/ai-conference/) 기업 인수와 신규 칩셋 등 NVIDIA의 최신 소식을 접할 수 있었고, NVIDIA와 국내 기업들이 협업을 흥미롭게 살펴볼 수 있었습니다.

 

[Link 1. ‘NVIDIA Deep Learning Day 2017]

[Link 1. ‘NVIDIA AI Conference 2018]

 

(덧붙인 내용은 이탤릭으로 표시했습니다.)

 

[Video 1. ‘I AM AI: GTC 2019 Kickoff’ 출처: NVIDIA YouTube Channel]

 

Keynote (Marc Hamilton, VP of Solutions Architecture and Engineering)

방콕의 한 호텔입니다. 실제 모습이 아닙니다. 실제 모습으로 착각할 수 있을 만큼 정교한 시각화입니다. 호텔을 건설하기 전에 시각화를 통해 창문, , 반사, 그림자, 조형물의 색상, 소재 등을 시뮬레이션 해 볼 수 있습니다.

 

NVIDIA CEO Jensen Huang이 벤쿠버에서 열린 ‘SIGGRAPH 2018’ 컨퍼런스의 Keynote 발표 영상으로, NVIDIA Turing GPU Architecture 기반의 데모를 시연하는 장면입니다. , 명암의 변화에 집착했던 레오나르도 다 빈치가 르네상스 미술에 한 획을 그은 것처럼, 21세기의 NVIDIA는 여러 영역 중에서도 Graphics의 변혁을 이끌고 있는 듯 합니다. 모든 액션이 실시간으로 처리됩니다.

 

[Video 2. ‘SIGGRAPH 2018 - NVIDIA CEO Jensen Huang - Reinventing Computer Graphics’ 출처: NVIDIA YouTube Channel ]

 

AI 2030년에 이르면 Global GDP 기준 16조 달러를 기여할 것으로 예측됩니다. Smart city, Healthcare 등 모든 산업에 영향을 미치게 돌 것입니다. NVIDIA ‘Inception Program’을 통해 4천 개 이상의 Startup을 지원하고 있습니다. (https://www.nvidia.com/en-us/deep-learning-ai/startups/)

CPU + GPU Architecture로 많은 난제들을 해결해 왔습니다. 2006년에 출시된 CUDA GPU는 이후로 열 차례 Version release를 통해 속도와 에너지 효율성을 개선하며 성장을 이어가고 있습니다. GPU를 사용하는 Super Computer의 수가 1년 사이 25% 증가했으며, 1위와 2위를 비롯한 다수의 Super Computer NVIDIA GPU를 사용하고 있습니다. GPU 개발자가 늘수록 CUDA App도 늘고 있습니다.

CUDA-X는 이제 모든 플랫폼에서 사용 가능합니다. Workstation, Server, Cloud에 관계가 없으며, Expedia, Twitter, Microsoft 등의 기업들이 CUDA-X를 도입했습니다.


[Image 1. CUDA-X 출처: NVIDIA (https://www.nvidia.com/en-us/technologies/cuda-x/)]

 

Supercomputer에 비해  Hyperscale은 서버 당 속도가 현저하게 낮습니다. 대신 서버 간 연결이 많습니다. 동일한 하드웨어 상에서 소프트웨어 업데이트만으로 세 배의 속도 개선 효과를 거뒀습니다. (HPL-AI, Mixed-precisions) Data Science의 등장으로 Supercomputer 보다는 Supercomputer Hyperscale의 중간 정도 서버의 수요가 늘고 있습니다. 가장 빠른 단일 서버인 DGX-2 AI를 위해 설계되었습니다. (https://www.nvidia.com/en-us/data-center/dgx-2/)

AI Datacenter는 전통적인 Enterprise Datacenter와 다릅니다. 엄청난 컴퓨팅을 소화할 수 있는 모델을 만들어야 합니다. 96개의 DGX를 모은 DGX SuperPOD Supercomputer 22위에 올랐습니다. (https://www.top500.org/system/179691)

 

RAPIDS, GPU Accelerated Platform for Data Science (이상문 전무, NVIDIA)

RAPIDS GPU를 이용해 Data Science를 수행하기 위한 Library입니다. (https://rapids.ai/) Data Science Pipeline End to End로 구현할 수 있습니다. cdDF, cdML, cdGraph 등의 기능을 활용해 Data Preparation, Model Training, Visualization을 수행합니다.


[Image 2. Data Science Pipeline with GPUs and RAPIDS 출처: NVIDIA Developer Blog (https://devblogs.nvidia.com/gpu-accelerated-analytics-rapids/)]


함수들과 Machine Learning 알고리듬이 Library화 되어 있습니다. csv 파일을 로드하는 code입니다.

 

import cudf

gdf = cudf.read_csv(‘path/to/file.csv’)

for column in gdf.columns:

print(gdf[column].mean())

 

기존에는  GPU에서 CPU로 데이터를 보내 연산을 했지만, 이제는 GPU 상에서 연산을 수행할 수 있습니다.


Deep Learning Research of NAVER Clova for AI-Enhanced Business (하정우 리더, NAVER)

HDTS Hybrid Dnn Text to Speech 기술로 Clova는 유인나 배우님의 목소리를 합성해 낼 수 있었습니다. 단 네 시간의 음성 녹음만으로 가능했습니다. 그 밖에도 Speech enhancement를 통한 배경 잡음 제거, 상대편 음성 제거 등을 구현했습니다. Google Dupex와 유사한 식당 예약 서비스도 시작했습니다.

특정 인물이 나오는 화면만 편집해 보여 주는 Auto Cut, 특정 인물만을 Cropping Auto Cam Clova가 구현한 기술입니다.

 

Kakao OCR Inference 성능 최적화 (이현수, Kakao)

OCR Detection Model Recognition Model로 구성됩니다. TensorFlow ModelTensorRT로 변환했습니다.

TensorFlow 모델을 Export 합니다. 복수 개의 Type을 사용할 수 없으므로 Cast를 사용할 수 없으며, Data type을 통일합니다. 가변 Input보다 고정 Input으로 처리하는 것이 좋습니다.

UFF Universal Framework Format 변환으로 지원하지 않는 연산을 사용할 수 있게 합니다. (IPluginV2)

FP32, FP16은 큰 차이가 없으나, INF8은 정확도가 떨어질 수 있어 Network Quantization이 필요할 수 있습니다. (IIint9entropycalibrator2) Calibration 후 결과가 떨어지지 않는지 점검합니다.

결과적으로 Detector 4~5배 개선되었고, GPU Memory는 절반 수준으로 사용하게 되어 효율성이 높아졌습니다. Recognizer 1.5배 가량 개선되었습니다. 개선이 크지 않은 이유는 이미지의 사이즈 자체가 작아 Inference 최적화에 어려움이 있었기 때문입니다.

 

Implication

네어버와 카카오가 여러 세션에서 자사의 서비스들을 지원하기 위해 NVIDIA와 협력하는 시도가 인상적이었습니다. NVIDIA 생태계가 해를 거듭할수록 탄탄해지고 있다는 의미가 아닌가 싶습니다.




몇 년 전만해도 얼굴인식이라고 하면 영화 속에서나 가능했던 장면인데요.

이제 영화가 아닌 실제 현실에서도 가능합니다.

이런 기술이 SK()C&C에 있다고???

얼굴인식 기술에 특화된 솔루션 aiden FRS를 소개합니다.


‘aiden’SK()C&C 인공지능 서비스AIBRIL의 얼굴인식 기술에 특화된 솔루션입니다

aiden FRSVisonAI 브랜드로서 고객이 사용중인 CCTV를 연동하거나, 찾아낼 수 있는 솔루션입니다

유사한 분류의 제품들이 On-Premise(물리서버)인데 반해 aiden FRS는 국내에서 유일하게 클라우드로 서비스되고 있습니다.

따라서 고객 입장에서는 고가의 분석 장비들을 도입할 필요없이 SK C&C의 클라우드 상에서 분석을 할 수 있으므로 

상당히 저렴한 비용으로 필요한 만큼 서비스를 이용할 수 있다는 장점이 있습니다.

또한 aiden FRS는 국립과학수사연구원의 얼굴 인식 기술이 적용되어 있는 

전 세계에서도 손에 꼽을 정도의 높은 인식 수준을 자랑하고 있습니다.



[더 자세한 정보] http://visionai.skcc.com

 

도움이 되셨다면?

 

'구독' 버튼 꾸욱 눌러주세요 !!!






- SK C&C, 빅데이터 분석용 아큐인사이트 플러스 퍼블릭 서비스 8공개

- 클라우드 제트 포털서 회원 가입 후 데이터 올리면 손쉽게 활용

- 코딩 몰라도 맞춤형 머신 러닝’, ‘딥러닝자유자재로 쓸 수 있어

- 불량 판별·가격 예측·상품 추천·보험 심사 분류·대기오염 예측 등 활용 분야도 다양

- 다양한 소스 데이터 신속히 분석해 보기 편한 대시보드 형태로 제공도 가능



코딩을 모르는 마케터, 공장 관리자도 손쉽게 빅데이터 분석을 할 수 있는 길이 열렸다. 

SK C&C(사업대표 사장:안정옥, www.sk.co.kr)10, 클라우드 제트 기반 빅데이터 분석 서비스 ‘AccuInsight+(아큐인사이트 플러스) 퍼블릭 서비스 8을 공개했다. 

이번에 공개된 8종 서비스는 ML모델러(Machine Learning) DL모델러(Deep Learning) ▲데이터 인사이트(Data Insight) BigQL(Big SQL) ▲클라우드 서치(Cloud Search) DHP(Dynamic Hadoop Provisioning, 하둡 동적 배포) ▲배치 파이프라인(Batch Pipeline) ▲실시간 파이프라인(Real-Time Pipeline) 등이다. 

이번 서비스 오픈에 따라 비즈니스나 연구 목적에 맞는 데이터를 보유한 기업·기관·대학·연구소 등에서 값비싼 솔루션을 구매하지 않고도 빅데이터 분석 체계를 구성하고 머신러닝·딥러닝 기반의 빅데이터 분석 알고리즘을 적용시킬 수 있게 됐다. 

클라우드 제트 포털내 아큐인사이트 플러스 사이트(https://accuinsight.cloudz.co.kr)에 접속해 회원 가입 후 활용 가능하다.

이용을 위해서는 별도 설정 없이 본인이 가지고 있는 데이터만 올리고 필요한 서비스를 클릭해 적용하면 된다.

비용도 월 과금 기준 ‘BigQL’은 데이터량에 따라 1TB5,000원 ▲DHP’는 시간당 1vCore(CPU) 기준 100원 메모리 1GB50원 ▲데이터 인사이트1년 약정 시 월 9,900원 ▲ML모델러 서비스는 학습 데이터 1000줄당 100원 ▲DL모델러는 최신 V100 GPU 분당 150원 등 사용한 만큼 지불하는 방식으로 저렴하다 

‘AccuInsight+(아큐인사이트 플러스) 퍼블릭 서비스의 가장 큰 특징은 코딩을 몰라도 사용자의 필요 및 데이터 확보량에 따라 머신러닝과 딥러닝을 자유자재로 사용할 수 있다는 점이다.

데이터를 많이 보유하고 있는 고객은 ML모델러의 자동 모델(Auto Model) 기능 등을 활용해 몇 분만에 머신러닝 알고리즘을 구현할 수 있다.

생산 양품 불량 판별부터 회귀 분석 기반의 각종 거래 가격 예측, 고객 맞춤형 상품 추천 등 광범위한 활용이 기대된다 특히 DL모델러 서비스는 아마존 세이지메이커(SageMaker)처럼 분석모델 라이프사이클(Life Cycle)관리 기능을 제공해 신속한 분산 학습은 물론 여러 모델을 동시 학습한 후 API형태로 즉시 최적의 모델을 배포할 수 있어 분석·운영 시간을 최소화 한다. 

비정형 데이터가 많은 기업·기관·연구소 등은 ‘DL모델러빌트인(Built-in)알고리즘을 적용한 무제한 분산 딥러닝 환경을 제공 받을 수 있다.

고객 설문 등을 통한 보험 자동 심사등급분류, 대기오염 지수를 활용한 실시간 대기오염 예측VOC 상담 데이터를 응용한 고객 마케팅 기법 개발 등에 활용 가능하다. 

분석 보고서 작성도 데이터 인사이트가 한번에 해결해 준다.

MySQL, Maria DB, AWS RDS, S3(ICOS), 엑셀 등 다양한 소스의 데이터를 몇 번의 클릭만으로 신속하게 연결·수집·편집해 대시보드 형태로 다양한 차트를 제공 받을 수 있기 때문이다. 

초대형 데이터를 관리하는 기업이나 기관을 위한 서비스도 있다.

‘BigQL’은 다양한 포맷(CSV, ORC, Apache Web log )의 데이터들을 쉽고 빠르게 검색·분석할 수 있도록 지원한다. 대규모 운영서버의 로그 모니터링 및 분석은 클라우드 서치가 맡는다.

이 서비스를 이용하는 기업은 자체 운영 클라우드 환경인 온프레미스퍼블릭 클라우드 서비스환경 모두에서 대용량의 데이터 배치 작업을 지원하는 배치 파이프라인과 실시간 스트리밍 데이터 분석을 맡은 리얼타임 파이프라인등을 여건에 맞게 활용할 수 있다. 

SK C&C 김준환 Tech&플랫폼1그룹장은 아큐인사이트 플러스 퍼블릭 서비스를 활용하면 코딩을 몰라도 누구나 자신의 목적에 맞는 빅데이터 서비스를 쉽게 만들어 낼 수 있다“IT 개발자가 아니라 마케터와 공장 근무자 등 기업 비즈니스 현장에 있는 분들이 데이터 기반 디지털 혁신의 주인공이 되는 계기가 될 것이라고 말했다. 

SK C&C는 아큐인사이트 플러스를 자체 구현하여 활용을 원하는 경우, 기업·기관의 시스템에 프라이빗 클라우드 형태로 구축 할 수 있고 퍼블릭과 프라이빗을 묶은 하이브리드 클라우드 형으로도 제공 가능하다고 밝혔다. 

아큐인사이트 플러스 이용 관련 상세 문의는 클라우드 제트 대표 전화 02-6400-2222 또는 클라우드 포털 내 온라인 상담·문의코너를 통해 가능하다.



11 7, NVIDIA ‘NVIDIA AI Conference 2018’을 개최했습니다. (http://blogs.nvidia.co.kr/2018/11/08/nvaiconference18/) NVIDIA는 작년 이맘 때 NVIDIA Deep Learning Day 2017‘이라는 타이틀로 국내에서 처음으로 컨퍼런스를 시작했습니다. 올 해는 3천명이 훌쩍 넘는 개발자들이 참석했습니다. 

(제가 덧붙은 내용은 Italic으로 표시했습니다.)

[Link 1. ‘NVIDIA Deep Learning Day 2017’ ]

오전에는 두 개의 Keynote session, 오후에는 6개 트랙 (Deep Learning & AI, Autonomous Driving, HPC / Supercomputing ) 47 Tech session이 진행되었습니다. 


[Video 1. ‘GTC 2018 - I AM AI’ 출처: NVIDIA Korea YouTube Channel (https://www.youtube.com/watch?v=z2jAv3BN3B4)]


NVIDIA Korea의 유응준 대표는 오프닝을 선언하면서, AI의 성공 조건 세 가지를 꼽았습니다. 많은 데이터, 데이터를 처리할 수 있는 정교한 Algorithm, 그리고 Algorithm을 실행할 수 있는 GPU Process입니다. 이제 세 가지가 충족되고 있으나, 개발하고 운영할 수 있는 엔지니어어가 부족하고, 지속적인 육성이 필요함을 강조했습니다. 

마침 비슷한 시기에 Microsoft CEO Satya Nadella가 방한했습니다. 그는데이터 확보의 중요성을 강조했는데, 데이터가 확보되지 않으면 Algorithm의 개발도, 가치 창출도 어려운 시대가 되었다는 것입니다. 생각해 보면 분석의 가치가 있는 대량 데이터를 확보하는 일부터가 결코 쉬운 일이 아닙니다.


Accelerated Platforms: The Future of Computing, Marc Hamilton, VP of Solutions Architecture & Engineering

Deep Learning 리서치가 증가하고 있습니다. ‘Tesla V100 Tensor Core’ Deep Learning HPC High Performance Computing 을 위한 가장 강력한 GPU입니다. (https://www.nvidia.com/en-us/data-center/tesla-v100/) 5,120개의 CUDA Cores로 구성되어 있으며, Transistor 211억 개에 달합니다.

Tesla T4 Tensor Core GPU CPU에 비해 Inference 성능이 최대 40배 높습니다. (https://www.nvidia.com/en-us/data-center/tesla-t4/) TensorRT 5 Inference optimizer, Compiler 등을 제공하며, NVIDIA Docker 위에서 여러 Inference model을 번거로운 Deploy 없이 수행할 수 있습니다. (https://developer.nvidia.com/tensorrt)


Porsche 911 70주년을 맞았습니다. 자동차의 디자인을 위해서는 먼저 컴퓨터 모델을 만들고, 색상과 앵글 등 속성을 바꿔 가면서 디자인을 수정합니다. 문제는 수정된 속성을 실시간으로 확인하기가 어렵다는 점입니다. NVIDIA는 실시간 ‘Ray Tracing’을 가능케 해 Simulation이 마치 영화의 한 장면처럼 구현될 수 있도록 했습니다. (https://developer.nvidia.com/discover/ray-tracing)

 

[Video 2. ‘NVIDIA Turing Brings Real-Time Ray Tracing to Epic Games Unreal Engine’ 출처: NVIDA YouTube Channel (https://www.youtube.com/watch?v=iRpRr4oehgY)]


최근 미국의 ORNL Oak Ridge National Laboratory 은 수퍼 컴퓨터를 만들었습니다. Node 6개의Volta GPU를 넣어 총 27,648 GPU를 구성했습니다.

Data Science를 위해 ‘RAPIDS’를 활용할 수 있습니다. In-memory data structure Apache Arrow 위에 cuDF, cuML 등을 올려 데이터 분석에도 GPU의 속도를 십분 활용할 수 있도록 했습니다.


Deep Learning Searches Gravitational Waves, 국가수리과학연구소 오정근 박사

천문학에도 AI HPC 활용도가 높아지고 있습니다. 2015 9, 최초로 중력파 Gravitational Waves 가 감지되었습니다. 미국이 거대 간섭계를 설치하고, 우주 신호를 10년 간 받은 결과입니다. 블랙홀이 공전하며 중력파를 방출하다가 충돌해 하나의 중력파를 방출하게 됩니다. 블랙홀이 실제로 존재하는 증거가 되었으며, 쌍성으로도 존재함을 알게 되었습니다. 스스로 빛을 내지 않는 블랙홀이 중력파를 방출하지 않았다면 발견하지 못했을 것입니다.

별이 수축하면 별 전체의 구성 물질이 중성자인 중상자별을 만듭니다. 중성자별이 쌍성이 되어 충돌하면 중력파와 함께 빛도 방출됩니다. 주기율표 상 57번 이상의 무거운 원소들이 어떻게 생성되었는지 그 기원을 최근까지 알지 못했습니다. Kilonova를 분석해 보니 중성자 구성이 높았습니다. Kilonova GRB Gamma Ray Burst 가 별개 현상이 아닌 하나의 천체 현상임을 알게 되었습니다.

LIGO 분석은 전파 간섭, 지진 같은 환경 잡음으로부터 신호를 추출해 내는 것이 관건이었습니다. Classification으로 상관성을 분석해 진짜 신호 여부를 확인했습니다. ANN, Random Forest 등의 기법을 활용했습니다.

 

Deep Learning in Healthcare: Myths and Realities, 경희사이버대학교 정지훈 교수

Google ‘Diabetic Retinopathy Diagnosis’ (https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html) AI를 의학에 활용한 대표적 사례입니다. 우리가 생각하는 것보다 AI가 적용되는 Healthcare 도메인의 범위가 넓습니다. , 다루는 문제도, 데이터도, 기술도 다르므로 다양성이 필요합니다. 유전자 데이터는 그래프를, 이미지는 CNN, Diagnosis prediction RNN을 주로 활용할 수 있습니다.

‘HealthData.gov’ 등 공개 데이터가 많습니다.

Why 98% of Digital Health Startups Are Zombies And What They Can Do About It” 

Forbes의 기사 제목처럼한 두 가지 기술로 모든 문제를 해결할 수 없습니다. 엔지니어들만으로 문제를 해결하고 의사들의 생각을 바꿔 놓기도 어렵습니다.

David Sontag 교수는 Healthcare가 다른 영역에 비해 어려운 점들을 다음과 같이 설명하고 있습니다. 

       Life or death decisions

       Many questions are about unsupervised learning

       Very little labeled data

       Lots of missing data, varying time intervals, censored labels

Machine Learning for Healthcare: Introduction, David Sontag, Clinical Machine Learning Group, MIT (http://people.csail.mit.edu/dsontag/courses/mlhc_summer18/day1/intro.pdf)

좋은 데이터를 고객에게 먼저 제공하면 고객은 활용 가능한 양질의 데이터를 주기 마련입니다. 그런 데이터가 모이면 리서치를 수행할 수 있습니다. , 고객이 누구인지, 이해 당사자가 누구인지를 잘 알고 사업을 진행해야 합니다.


Evolution of Artificial Intelligence Robots and Social Change, 한양대학교 한재권 교수

최근 로봇 영역 논문 중 상당 수는 Machine Learning 활용을 다루고 있습니다. 초기 단계라 아직은 많은 연구와 노력을 필요로 합니다. 

2016년에 한재권 교수님의 강연을 재미있게 들었던 적이 있었습니다. 이번 강연에서도 ‘DARPA Robotics Challenge’를 다루셔서 그 때 정리했던 글로 대신합니다.

[Link 2. ‘로봇이 변화시킬 세상을 말하다’ ] 

실업 문제에 관해서는 새로운 일을 어떻게 제공하는가가 중요합니다. 노동자의 시각에서 이 문제를 바라봐야 합니다. 직업은 변화하고 있습니다. AI, 로봇과 경쟁이 아닌 협업을 해야 합니다.

 

NVIDIA Autonomous Driving Platform Update, NVIDIA 차정훈 상무

NVIDIA의 자율 주행 기술인 ‘NVIDIA DRIVE’ Hardware, Software, Simulation으로 구성되어 있습니다. 각각 NVIDIA DRIVE AGX, NVIDIA DRIVE Software (DRIVE AV, DRIVE IX, DRIVE AR), NVIDIA Drive Constellation입니다. 

NVIDIA의 자율 주행 플랫폼은 DRIVE AGX입니다. 핵심 칩인 Xavier는 자율 주행용 프로세서로, 90억개의 트랜지스터가 있습니다. (https://blogs.nvidia.com/blog/2018/01/07/drive-xavier-processor/) 

DRIVE Constellation은 두 가지 서버에서 수행됩니다. 하나는 DRIVE Sim software를 실행하게 되는데, 카메라, Lidar, Radar 같은 센서를 Simulation 합니다. 또 다른 하나는 Simulation 한 센서 데이터를 Input으로 받아 Processing 하는 역할을 수행합니다.


GTC

올 해는 좀 더 다양한 영역의 이야기들을 들을 수 있어서 매우 흥미로웠습니다. 이제는 NVIDIA, GPU, Deep Learning이 영역을 불문하고 그 쓰임을 확대해 나가는 것을 분명히 볼 수 있습니다. NVIDIA의 성장세는 이변이 없는 한 멈추지 않을 것 같습니다. 언젠가 기회가 된다면 GTC에 참석해 보고, NVIDIA 견학도 해 보고 싶다는 생각이 들 정도로 매력 있는 Conference였습니다.



지난 11 8, 디지털데일리 주관 행사인 ‘데이터 기반 엔터프라이즈 혁신 전략 컨퍼런스에 참석했습니다

이제 4차 산업혁명과 디지털 트랜스포메이션(Digital Transformation)의 핵심 화두로데이터(Data)’가 핵심 키워드로 급부상하고 있으며, 실제로데이터의 활용전략에 따라 기업의 비즈니스 성과가 좌우되고 있습니다. 정부는 데이터산업 활성화정책을 통해 비 식별화, 클라우드 기반의 데이터 활용 등 파격적인 규제 해소에 나서고 있는 상황입니다. 

이러한 시대의 흐름에 발맞춰 이번 행사는 국내 공공, 금융, 통신 등 기업 IT관계자 및 업계 관계자들을 대상으로 향후 데이터의 전략적 가치를 재인식하고기업들의 데이터 기반 IT서비스데이터 폭증에 대응하기 위한 IT인프라 최적 운영 전략데이터 비즈니스를 강화하기 위한 빅데이터 및 솔루션 전략데이터의 안전한 보안클라우드 및 데이터센터 최적화 전략 등을 알아보는 자리였습니다.

4차산업혁명시대 진입과 함께 우리회사도 머신러닝, 딥러닝, 데이터 검색 등을 코딩 없이 할 수 있는 데이터 분석 플랫폼 서비스 아큐인사이트 플러스를 소개하는 자리를 가졌습니다


이날 서정욱 유닛장은 빅데이터 비즈니스에 필요한 통합 플랫폼 서비스 ‘아큐인사이트 플러스(Accuinsight+)’에 대해 설명했는데요서 유닛장은 빅데이터 분석 솔루션인 아큐인사이트 플러스는 코딩없이 머신러닝, 딥러닝을 분석할 수 있으며, 데이터를 쉽게 검색할 수 있는 것이 특징이라고 말하면서 방대한 비정형 데이터를 보유한 기업이 활용하기 좋을 것이라고 밝혔습니다.

아큐인사이트 플러스는 빅데이터 수집·처리·분석·시각화에 필요한 전체 서비스 라인업을 보유하고 있는데 ▲시각화 ▲검색 ▲머신러닝 ▲딥러닝 ▲하둡(Hadoop) 동적 배포 ▲배치 파이프라인(Batch Pipeline) ▲실시간 파이프라인 BigQL 등의 서비스로 이루어져있습니다. 

또 이를 8가지 방법으로 활용할 수 있는데, ▲빅데이터 ETL ▲멀티 Hadoop 클러스터 활용 ▲이벤트 기반 실시간 CEP ▲이기종 데이터 조인 ▲샌드박스(SandBox)를 활용한 ML모델 생성 및 운영 배포 ▲딥러닝을 활용한 비정형 데이터 분석 ▲데이터센터의 서버 상태 모니터링 ▲검색엔진이 이에 해당합니다.


여기서 샌드박스를 활용해 머신러닝 모델을 생성할 경우 다양한 예측 데이터를 적용할 수 있습니다. 일례로 가격예측, 수요예측, 양불판정, 개인화 추천 등이 가능한 것인데, 딥러닝을 활용해 비정형 데이터도 분석할 수 있습니다. 이어 서 유닛장은 다양한 비정형 데이터를 선처리를 진행한 후 딥러닝을 분석 적용해 보험자동심사등급분류, 고객의 목소리(VOC) 데이터 분석이 가능진다고 설명했습니다.




Data 관련 컨퍼런스 중 대명사라 할 수 있는 Strata Data Conference에 참석했습니다.

Analytic engineering 영역의 기술 동향을 파악하고자 컨퍼런스에 참가했는데요. 최근 클라우드 기반의 빅데이터 서비스, 머신러닝/딥러닝 등 고급서비스에 대한 니즈가 계속 증가하고, 기존의 빅데이터 플랫폼이 ‘AI Platform’으로 서비스 영역이 확대되는 등 변화가 지속되고 있습니다.

이에 이번 컨퍼런스를 참여해 analytics 영역에서는 머신러닝/딥러닝 및 대용량 데이터 분석 기술 동향을 파악하고, Engineering영역에서는 Real time 빅데이터 기반 서비스를 위한 Data Platform Architecture kudu/kafka/spark 등 최신 오픈소스 기술과 이를 활용한 아키텍처 동향을 파악하고자 했습니다. 기존 빅데이터 관련 컨퍼런스 대비 이번 컨퍼런스의 차이점이라고 하면, 기술 요소 하나하나에 대한 소개보다는 ‘DT융합 및 데이터 활용방안에 대한 다양한 실제 사례위주로 진행되었다는 점입니다.

이번 컨퍼런스를 크게 3가지로 나누면 Tutorial, Keynote, Session으로 구분 지을 수 있는데요. Tutorial에서는 Tensorflow/Python을 활용한 머신러닝/딥러닝, 여전히 강세인 Spark 그리고 Kafka 관련 Tutorial이 주를 이뤘습니다. 

Keynote는 사실 Sponsor 기업 위주로 발표가 되다 보니, 기술적인 부분에 대한 콘텐츠 자체의 깊이는 상대적으로 얕은 반면 각 사의 Use case Road map 관련 내용이 주를 이뤘는데요. 마찬가지로 기술 요소 자체보다는 데이터 활용의 가치에 중점을 두고 있다는 것을 느낄 수 있었습니다. 

마지막으로 3일간 진행된 다양한 Session들의 핵심 Keyword를 뽑는다면, Streaming/Kafka/Kubernets/딥러닝이 될 수 있을거 같습니다. 데이터 관련 영역은 이미 Streaming 그리고 실시간 활용에 초점이 맞춰져 있었고, 이에 대한 오픈소스는 대부분 Kafka위주로 구성되어 있었습니다. Cloud/AI 기술들 역시 Big Data 영역과 구분없이 혼합되어 사용되고 있었습니다. 

이번 컨퍼런스의 시사점을 크게 3가지로 정리할 수 있는데, 먼저 머신러닝/딥러닝이 필수가 되었고, 이를 위한 인프라 기술도 지속적으로 발전하고 있다는 점입니다. 이를 위한 인프라 기술도 지속적으로 발전하고 있다는 점입니다. 빅데이터 기술 관점에서 실제로 이전의 Spark ML Hadoop에서도 딥러닝 Workload(GPU 지원, YARN에서 AL Framework 구동)를 지원하는 기술까지 확대되고 있는 상황입니다. 

두번째는 Data Governance에 대한 중요성이 확대되었다는 점입니다. 참고로 Data Governance, 조직에서 사용하는 데이터의 가용성, 유용성, 활용성, 통합성, 보안성 등을 관리하기 위한 정책, 프로세스, 조직, 시스템 등을 포함하는 데이터 관리를 의미하는데요. 아무래도 GDPR(유럽연합 개인정보보호 규정)에 대한 준비 차원에서 Data Governance, 나아가 AI Governance에 대한 중요성이 더 커지고 있는거 같습니다. 

마지막은 Kubernetes Kafka가 요즘 대세라는 건데, 실제 이번 컨퍼런스에서 Kubernetes Kafka 관련 세션이 13개나 열렸다는 점이 이를 반증한다고 볼 수 있겠네요. 

이제는 Data 컨퍼런스의 주제가 기존의 개발 기술요소로부터 데이터 활용으로 이동하고 있다는 것을 느낄 수 있었습니다. 그리고 단순 관람의 컨퍼런스 참여가 아니라 세션/부스를 직접 운영할 수 있는 역량과 제품을 갖춰가는 조직이 되었으면 하는 바람을 갖어보았습니다. 

Data를 중심으로 다양한 포지션에서 활약하고 있는 글로벌 컴퍼니들이 각각 어떤 비즈니스와 기술에 집중하고 있는지 Data 사업 전반을 엿볼 수 있는 좋은기회였습니다




아큐인사이트플러스
(Accuinsight+)는 빅데이터 Biz 모델 구축을 통해 정확한 인사이트를 발견할 수 있는 빅데이터 통합 분석 플랫폼 서비스입니다.

빅데이터 분석 솔루션인 아큐인사이트 플러스는 코딩없이 머신러닝, 딥러닝을 분석할 수 있습니다. 또 데이터를 쉽게 검색할 수 있는 것이 특징인데, 이를 통해 방대한 비정형 데이터를 보유한 기업의 인사이트를 더해주기 때문에 상당히 유용합니다. 

아큐인사이트플러스는 빅데이터를 수집하고 처리, 분석 시각화까지 지원하고 있습니다. 클라우드, 온프라미스 환경 제약이 없고 빠르게 사용할 수 있어 편리성이 장점입니다. 

시각화, 검색, 머신러닝, 딥러닝, 하둡(Hadoop) 동적 배포, 배치 파이프라인(Batch Pipeline), 실시간 파이프라인, BigQL 등 서비스별로 이루어져 있는데 이를 8가지 방법으로 활용할 수 있습니다. 빅데이터 ETL ▲멀티 Hadoop 클러스터 활용이벤트 기반 실시간 CEP ▲이기종 데이터 조인샌드박스(SandBox)를 활용한 ML모델 생성 및 운영 배포딥러닝을 활용한 비정형 데이터 분석데이터센터의 서버 상태 모니터링검색엔진이 이에 해당합니다. 



지난 8 29 DNA 2018 행사 현장에서도 데이터를 활용해 단 몇 분만에 모델이 구축됐습니다. 가상의 진료내역 데이터를 분석을 시도하자 성비, 연령대 그룹 분포도, 지역코드 별 환자수 분포도 등 시각화 자료가 바로 제공됐습니다.

이는 샌드박스를 활용해 머신러닝 모델을 생성할 경우 다양한 예측 데이터를 적용할 수 있기때문입니다. 일례로 가격예측, 수요예측, 양불판정, 개인화 추천 등이 가능하며 딥러닝을 활용해 비정형 데이터도 분석할 수 있습니다. 다양한 비정형 데이터를 선 처리한 후 딥러닝을 분석 적용해 보험자동심사등급분류, 고객의 목소리(VOC, Voice Of Customer) 데이터 분석이 가능합니다. 



+ Recent posts