세상에는 여러 직업들이 있습니다. 최근 AI의 관련 직종들이 점점 늘어나고 있습니다. 그중 코딩에 관련된 일을 하거나 AI연구에 관련된 직종이 아닌 일반적인 사람들도 접근할 수 있는 직업이 있습니다. 바로 데이터라벨러입니다. 시기에 따라 고소득을 올릴 수도 있지만 디지털 인형 눈알 붙이기라는 오명도 가지고 있습니다. 그래도 조금이라도 소득을 늘리고 자유롭게 일을 하기 편하기에 데이터라벨링에 관하여 알아보려 합니다.
데이터 라벨링 이란?
사람과 인공지능의 차이
일정 수준 이상의 학습을 받은 사람은 사진을 보면 사진이 무엇인지 바로 판별 할 수 있습니다. 그러나 인공지능은 그렇지 않습니다. 인공지능은 사진을 보더라도 사진이 무엇을 나타내고 있는지가 아니라 사진데이터의 숫자만 판독할 뿐입니다.
그래서 인공지능은 학습이 필요 한것입니다. 인공지능을 학습시키기 위해선 각각 무엇을 의미하는지 표시하여 알려 주어야 합니다. 사진을 보았을 때 이것은 꽃이고 이것은 사람이고 이건 자전거다 이런 식으로 하나씩 표시하고 구분을 해주어 학습을 시켜야 하는 것입니다.
데이터 라벨링 이란?
정의
인공지능 알고리즘 고도화를 위해 AI가 스스로 학습할 수 있는 형태로 가공하는 작업
하는일
AI를 학습시키기 전 데이터를 수집, 정제, 라벨링, 검수를 하여야 하는데 이러한 일들을 하는 것을 통합하여 데이터라벨링이라 지칭하고 있습니다. 결론은 AI의 학습에 필요한 데이터를 가공하는 일을 하는 게 데이터라벨러들의 업무입니다. 이러한 작업은 단순 작업이지만 전부 수작업으로 진행이 되므로 많은 시간과 노력이 필요한 경우가 많습니다.
AI 학습용 데이터 구축과정
데이터 수집
정의
작업 대상과 기준에 맞춰 사진 영상을 촬영하거나 음성을 녹음하여 업로드하는 형태의 작업
데이터 정제
정의
수많은 형태의 데이터를 정제 과정을 통하여 인공지능이 학습할 수 있는 형태로 변환해 주는 작업
변환 방식
- 데이터의 오류 제거
- 필요한 형식이나 크기에 맞게 변형
- 불필요한 데이터의 제거
- 개인정보 비식별화 처리
데이터 라벨링
정의
수집한 데이터에서 의미 있는 데이터를 찾아 각각의 위치, 크기, 대상에 대한 정보와 같은 것을 구별하여 데이터를 달아주는 작업
데이터 검수
정의
데이터에 잘못된 라벨이 부착 됐다면 잘못된 학습결과가 발생할 수 있기 때문에 정확한 데이터 라벨링이 되었는지 확인하는 작업 올바른 학습, 좋은 품질의 학습데이터를 위해선 꼭 거쳐야만 하는 작업입니다.
데이터 유형별 라벨링 용어 설명
이미지 데이터
바운딩
작업 대상에 마우스로 박스를 그리는 작업
감정 분석
사진 속 사람의 표정을 보고 어떤 감정 상태일지를 추론하는 작업
키포인트
작업 대상의 특정 지점에 클릭하여 점을 찍는 작업
얼굴 랜드마크
얼굴 주요 부위에 마우스로 점을 찍는 작업
OCR(광학 문자 인식)
이미지 속의 글자를 바운딩한 후 태깅이나 전사하는 작업
- 태깅 : 이미지나 파일 등에 이름을 붙이는 것으로 대표할 수 있는 키워드를 달아줌으로써 대상을 분류하는 작업
- 전사 : 이미지나 영상 속의 문자를 텍스트로 옮겨 적는 작업
폴리곤
작업 대상의 외곽선을 따라 점을 찍어 점으로 시작하여 선의 형태로 이어져 빈 공간 없이 대상을 검출하는 작업
폴리라인
선을 라벨링 할 때 주로 선택하는 작업방식으로 작업 대상을 따라 여러 개의 점을 연속적으로 그리는 작업
영상 데이터
바운딩
영상 속에서 작업 대상을 박스에 넣어주는 작업
스켈레톤 추출
작업 대상의 행동 패턴을 분석하기 위해 특정 부위에 점을 찍어주는 작업
시멘틱 세그멘테이션
폴리곤, 폴리라인, 브러시 등을 사용하여 경계를 나누어 분할함으로써 이미지 내의 모든 대상의 위치 및 모양 등을 영역으로 분류해 내는 작업
특정 구간 추출
작업 대상이 사전에 제시된 기준에 해당하는 말이나 행동등을 할 때의 구간을 선택해 추출하는 작업
텍스트 데이터
문장 의미 비교
주어진 문장들의 의미가 같은 것인지 여부를 태깅하는 작업
감정 태깅
제시된 글을 읽었을 때 느껴지는 감정을 선택하는 작업
키워드 찾기
대화 내용 속에서 핵심이 되는 키워드를 찾는 작업
문장 요약
글을 읽고 핵심이 되는 내용을 요약하는 작업
음성 데이터
화자 구분
제시된 음성을 모두 듣고, 동일한 사람의 목소리인지를 판단해서 태깅하는 작업
음성 받아쓰기
주어진 음성을 듣고 받아 쓰는 작업
- 일반 전사 : 사람이 말한 그대로 문자화하여 전사
- 이중 전사 : 한글 맞춤법 표기에 따른 발음과 차이가 있는 경우에 '발음 전사'와 '철자 전사'를 병행하여 전사
기타 용어
크라우드소싱
대중(Crowd)과 아웃소싱(outsourcing)의 합성어 기업 활동의 일부 과정에서 일반 대중(크라우드 워커)을 참여시키는 것을 의미
크라우드워커
일반인이 기업의 업무 용역을 대행 수행하고 일정대가를 받는 경우를 의미 집이나 재택근무 등의 형태로도 업무 수행이 가능하고, 자유롭게 할당된 과제물을 수행하는 일자리
데이터 라벨러
데이터의 수집에서 가공에 이르기까지 인공지능 학습에 필요한 형태의 데이터를 만드는 사람
라벨(레이블)
인공지능 학습을 위해 데이터에 부착하는 것으로 해당 대상에 대한 명칭뿐 아니라 데이터 인식에 필요한 설명이나 정답과 같은 의미
챗봇
문자 또는 음성으로 대화하는 기능이 있는 컴퓨터 프로그램 또는 인공지능
3D 라벨링 기법
육면체의 입체적인 박스를 생성하여 바운딩하는 것과 같이 2차원 라벨링의 한계를 넘어 3차원의 입체적 표현을 가능케 하는 라벨링 기법
복합 라벨링
여러 개의 라벨링 기법을 복합적으로 사용하는 라벨링 기법
댓글