Data 관련 컨퍼런스 중 대명사라 할 수 있는 Strata Data Conference에 참석했습니다.

Analytic engineering 영역의 기술 동향을 파악하고자 컨퍼런스에 참가했는데요. 최근 클라우드 기반의 빅데이터 서비스, 머신러닝/딥러닝 등 고급서비스에 대한 니즈가 계속 증가하고, 기존의 빅데이터 플랫폼이 ‘AI Platform’으로 서비스 영역이 확대되는 등 변화가 지속되고 있습니다.

이에 이번 컨퍼런스를 참여해 analytics 영역에서는 머신러닝/딥러닝 및 대용량 데이터 분석 기술 동향을 파악하고, Engineering영역에서는 Real time 빅데이터 기반 서비스를 위한 Data Platform Architecture kudu/kafka/spark 등 최신 오픈소스 기술과 이를 활용한 아키텍처 동향을 파악하고자 했습니다. 기존 빅데이터 관련 컨퍼런스 대비 이번 컨퍼런스의 차이점이라고 하면, 기술 요소 하나하나에 대한 소개보다는 ‘DT융합 및 데이터 활용방안에 대한 다양한 실제 사례위주로 진행되었다는 점입니다.

이번 컨퍼런스를 크게 3가지로 나누면 Tutorial, Keynote, Session으로 구분 지을 수 있는데요. Tutorial에서는 Tensorflow/Python을 활용한 머신러닝/딥러닝, 여전히 강세인 Spark 그리고 Kafka 관련 Tutorial이 주를 이뤘습니다. 

Keynote는 사실 Sponsor 기업 위주로 발표가 되다 보니, 기술적인 부분에 대한 콘텐츠 자체의 깊이는 상대적으로 얕은 반면 각 사의 Use case Road map 관련 내용이 주를 이뤘는데요. 마찬가지로 기술 요소 자체보다는 데이터 활용의 가치에 중점을 두고 있다는 것을 느낄 수 있었습니다. 

마지막으로 3일간 진행된 다양한 Session들의 핵심 Keyword를 뽑는다면, Streaming/Kafka/Kubernets/딥러닝이 될 수 있을거 같습니다. 데이터 관련 영역은 이미 Streaming 그리고 실시간 활용에 초점이 맞춰져 있었고, 이에 대한 오픈소스는 대부분 Kafka위주로 구성되어 있었습니다. Cloud/AI 기술들 역시 Big Data 영역과 구분없이 혼합되어 사용되고 있었습니다. 

이번 컨퍼런스의 시사점을 크게 3가지로 정리할 수 있는데, 먼저 머신러닝/딥러닝이 필수가 되었고, 이를 위한 인프라 기술도 지속적으로 발전하고 있다는 점입니다. 이를 위한 인프라 기술도 지속적으로 발전하고 있다는 점입니다. 빅데이터 기술 관점에서 실제로 이전의 Spark ML Hadoop에서도 딥러닝 Workload(GPU 지원, YARN에서 AL Framework 구동)를 지원하는 기술까지 확대되고 있는 상황입니다. 

두번째는 Data Governance에 대한 중요성이 확대되었다는 점입니다. 참고로 Data Governance, 조직에서 사용하는 데이터의 가용성, 유용성, 활용성, 통합성, 보안성 등을 관리하기 위한 정책, 프로세스, 조직, 시스템 등을 포함하는 데이터 관리를 의미하는데요. 아무래도 GDPR(유럽연합 개인정보보호 규정)에 대한 준비 차원에서 Data Governance, 나아가 AI Governance에 대한 중요성이 더 커지고 있는거 같습니다. 

마지막은 Kubernetes Kafka가 요즘 대세라는 건데, 실제 이번 컨퍼런스에서 Kubernetes Kafka 관련 세션이 13개나 열렸다는 점이 이를 반증한다고 볼 수 있겠네요. 

이제는 Data 컨퍼런스의 주제가 기존의 개발 기술요소로부터 데이터 활용으로 이동하고 있다는 것을 느낄 수 있었습니다. 그리고 단순 관람의 컨퍼런스 참여가 아니라 세션/부스를 직접 운영할 수 있는 역량과 제품을 갖춰가는 조직이 되었으면 하는 바람을 갖어보았습니다. 

Data를 중심으로 다양한 포지션에서 활약하고 있는 글로벌 컴퍼니들이 각각 어떤 비즈니스와 기술에 집중하고 있는지 Data 사업 전반을 엿볼 수 있는 좋은기회였습니다