카카오엔터프라이즈는 이날 경기도 용인 카카오 AI(인공지능) 캠퍼스에서 열린 ‘이프카카오(ifkakao) 2024’ 개발자 컨퍼런스에서 클라우드 GPU, 비전 AI, 머신러닝, 검색증강생성(RAG) 등 다양한 주제로 발표한다.
해당 세션에선 화상 회의, 실시간 중계, 라이브커머스 등 영상 스트리밍 데이터를 더 빠르고 효율적으로 처리할 수 있는 ‘미디어 가속 인스턴스’ 2종과 영상 내 인상착의 검색으로 미아나 치매 노인 찾기, 차량 번호 검색 및 경로 추적 등 AI모델을 활용해 영상을 분석할 수 있는 ‘AI 가속 인스턴스’ 1종을 소개한다.
김민주 매니저는 “카카오클라우드의 AI가속 인스턴스에 비전 AI모델 추론을 효율적으로 가속하기 위해 설계된 프로세서인 딥러닝 처리 유닛(DPU)을 장착했다”며 “이를 통해 객체 탐지 및 분류, 세그멘테이션, 얼굴 및 텍스트 감지 등 여러 비전 AI모델을 간단하게 적용해 추론을 가속화할 수 있다”고 밝혔다.
데이터 및 머신러닝 플랫폼 프로덕트 매니저를 맡고 있는 진은용 파트장은 카카오클라우드의 머신러닝 운영 플랫폼(MLOps)을 소개했다. 데이터 수집 단계, 준비 단계, 분석 및 머신러닝 단계에서의 활용을 설명했다.
진은용 파트장은 “다양한 산업군에서 머신러닝이 상용화돼 데이터 및 머신러닝 모델의 복잡성이 증가하는 등 머신러닝의 발전에 따라 발생하는 여러 문제들을 해결하기 위해 최근 MLOps의 중요성이 부각되고 있다”며 “MLOps는 데이터 관리부터 머신러닝 모델 배포 및 운영, 파이프라인 자동화와 모니터링을 통해 워크플로우 전반을 최적화하며 효율성과 확장성을 높이는 중요 역할을 한다”고 말했다.
AI기반으로 검색 모델을 고도화하는 김도윤 검색 CIC RAG모델링 TF장은 거대언어모델(LLM) 응답 신뢰도를 높이기 위한 방법론인 RAG를 효과적으로 구현하기 위해 필요한 구조 및 데이터 방식을 소개했다. RAG는 LLM이 검색 결과를 바탕으로 사용자 질문에 답변하도록 유도해 할루시네이션(hallucination, AI가 거짓 정보를 사실인 양 생성, 전달하는 환각)을 줄이기 위한 기술이다.
김 TF장은 최소한의 동질적인 의미로 묶은 최대 단위인 ‘청크(Chunk)’로 검색어를 쪼갠 후 검색을 수행하는 방법을 제안했다. 그는 “LLM이 처리할 수 있는 문서의 길이에는 한계가 있어 지나치게 긴 문서를 제공할 경우 답변에 불필요한 내용이 많아 할루시네이션이 증가하고 너무 짧은 문서는 전체 맥락이 유실되거나 텍스트 의미가 왜곡돼 누락될 수 있다”며 “고품질 청크 기반의 검색은 하나의 주제를 중심으로 관련성 높은 검색 결과를 제공, 검색 품질을 향상시킬 수 있다”고 밝혔다.
행사 둘째 날인 23일에는 국내에서 두 명 뿐인 ‘리눅스 커널 네트워킹 스택 자동 멀티캐스트 터널링(AMT) 메인테이너’로 활용하는 유태희 매니저가 ‘네트워크 인터페이스 카드(NIC)와 GPU(그래픽 처리 장치)간 제로카피를 주제로 발표한다.
AI워크로드가 기하급수적으로 증가하면서 GPU 또는 NPU(신경망 처리 장치)에서 복잡한 병렬 연상을 더욱 빠르고 효율적으로 수행해야 할 필요성이 커지고 있다. 유태희 매니저는 NIC와 GPU 또는 NPU 사이에 데이터를 전송할 때 발생하는 복사 작업을 최소화한 데이터 전송 방식인 제로카피 기법과 최근 리눅스 커널 커뮤니티에서 공개된 최신 기능인 디바이스 메모리 TCP에 대해 소개한다.
유태희 매니저는 “AI시대에 많은 리눅스 커널 네트워크 스택 개발자들은 NIC에서 GPU성능을 충분히 끌어올리지 못하는 문제에 직면하고 있다”며 “디바이스 메모리 TCP는 구조적 한계보다는 현 단계에서 아직 구현되지 않은 기능이 있어 발전 가능성이 높다”고 말했다.