마이크로소프트 AI, 인간에 버금가는 이미지 묘사능력 구사한다

Seeing AI와 통합돼 시각장애인 및 저시력자에 더 효과적인 지원 가능

[인더스트리뉴스 최정훈 기자] 마이크로소프트가 이미지 캡셔닝(Image Caption) AI(인공지능) 기술을 인간 수준으로 고도화 해, 이를 모든 사용자들에게 제공하겠다는 방침이다.

‘알트 텍스트(Alt Text)’로 알려진 마이크로소프트 이미지 캡셔닝은 다양한 이미지를 인식 및 분석해 콘텐츠를 자연어로 해설해 주는 기술이다. 자동화를 통해 검색 엔진부터 프레젠테이션에 삽입된 이미지까지 중요한 콘텐츠를 쉽게 이해할 수 있도록 돕는다. 2015년부터 활용된 이 기술이 이번 업데이트로 사람과 비슷한 수준에 도달했다는 평가가 나온다.

마이크로소프트가 시작장애인을 위해 개발한 ‘시각 AI(Seeing AI)’로 봉투를 스캐닝 하고 있다. [사진=마이크로소프트]

마이크로소프트는 이러한 기술 향상을 위해 그림책과 유사하게 시각적 어휘(Visual Vocabulary)를 적용했다. 먼저 대규모 AI 모델에 단순 어휘들이 태깅된 이미지들을 다량의 데이터 세트로 제공하고 각각의 태그는 이미지의 특정 개체에 매핑해 사전교육을 진행했다. 이후, 정밀교정을 거쳐 문장 작성법을 학습하도록 했다. 마치 아이들이 언어를 익힐 때 사과 사진 밑에 ‘사과’라는 단어를 다는 것과 유사한 패턴이다.

이 방식은 완성된 문장을 사용하는 훈련 보다 더 나은 결과물을 만들어냈다. 이를 통해 새로운 개체가 포함돼 있는 사진들도 시각적 어휘를 사용해 보다 정확한 캡셔닝이 가능해 졌으며 지난 2015년부터 사용해 온 모델 대비 2배 향상됐다. 예를 들어 아래 사진을 과거에는 ‘빌딩 옆 스케이트보드를 타는 사람’으로 설명했다면, 현재는 ‘공을 잡는 야구선수’로 보다 정확한 캡셔닝으로 보여줬다.

이 외에도 ‘곡물 확대 사진’에서 ‘들판 속 보리 확대 사진’으로, ‘산 정상 위 남자’에서 ‘서핑 보드를 들고 있는 남성’으로 보다 구체적이고 정확한 성공적인 이미지 묘사 사례들도 함께 볼 수 있다.

마이크로소프트 AI 플랫폼 그룹 사킵 사이크(Saquib Shaikh) 소프트웨어 엔지니어링 매니저는 “모두가 알트 텍스트 기능을 문서, 웹, 소셜미디어 등의 이미지에 적용한다면, 시각장애인도 콘텐츠를 더욱 쉽게 이해하고 사람들과의 대화에 참여할 수 있을 것"이라고 말했다.

최정훈 기자 다른기사 보기