본문 바로가기
카테고리 없음

기계학습 정의, 학습 유형별 분류, 감독 학습, 감독 되지 않은 학습

by ponnz's ani 2023. 5. 2.

기계학습 정의 

기계 학습의 그럴듯한 정의는 기계 학습이라는 책을 쓴 CMU 교수 Tom M. Mitchell에 의해 제공되었습니다.

컴퓨터 프로그램은 일부 클래스의 작업 T 및 성능 측정 P와 관련하여 경험 E에서 학습한다고 합니다.P로 측정한 T의 작업에서의 성능은 경험 E로 향상됩니다. 

즉, 지치지 않는 경험 E를 통해 특정 작업 T에 대한 성능 P를 높이기 위해 이것을 기계 학습이라고 부를 수 있습니다.

정의에서 알 수 있듯이 기계 러닝에서 가장 중요한 것은 E 동등성 데이터이며, 좋은 데이터가 많으면 더 높은 성능을 얻을 수 있다.

 

기계학습 학습 유형별 분류

기계 러닝의 문제는 학습 유형에 따라 교수학습(문제와 해답이 모두 있다.), 비 교수학습(문제가 있지만, 해답은 스스로 학습해야 한다.), 강화학습(문제와 해답은 스스로 찾아야 한다.)의 세 가지 유형으로 나눌 수 있다.

특히, 지시 학습과 비 지시 학습의 구분은 레이블의 유무에 의해 이루어지며, 여기서 레이블은 학습 데이터의 어떤 속성에 의해 정의된 데이터를 의미합니다.

 

기계학습 감독 학습

인간 교사로서 입력(x)마다 레이블(y)이 붙은 컴퓨터 데이터를 주면 이를 학습하게 되며, 인간이 직접 개입하므로 고정밀 데이터를 사용할 수 있다는 장점이 있다. 대신 사람들이 직접 라벨을 붙여야 하므로 인건비 문제가 있고, 그래서 얻을 수 있는 자료가 거의 없다는 문제도 있다.

분류 : 레이블 y가 이산적인 경우, 즉 y의 값이 [0,1,2 ..]와 같이 유한한 경우 분류 또는 인식 문제라고 합니다. 일상생활에서 가장 접근하기 쉽고 연구 집약적인 문제 중 하나이며 회사에서 가장 흥미로운 문제 중 하나입니다. 이러한 문제를 해결하기 위한 일반적인 기술로는 물류 회귀, [8] KNN, 지원 벡터 머신 (VSM) 및 의사 결정 트리가 있습니다.

주차 게이트에서 번호판 인식: 최근의 주차장은 표를 받지 않고, 문자 인식의 정확성을 높이기 위해 자동차 번호판을 찍는다. 번호판이 정형화되어 있기 때문에 기존의 컴퓨터 비전으로도 처리할 수 있지만, 공해에 대한 정확도를 높이기 위해서는 기계 러닝을 하는 것이 좋다.

Facebook 및 Google Photos 얼굴 인식 : 마찬가지로 컴퓨터 비전을 사용하여 기계 학습을 결합하고 Facebook에 사진을 올리면 자동으로 친구의 얼굴에 이름이 지정되며 이는 기계 학습 응용 프로그램이기도 합니다. x는 이미지 픽셀이고 y는 사람의 이름입니다.

음성 인식 : 해당 wav 부분이 음성 wav 파일에 대한 음절을 인식합니다. Apple Siri, Google Voice 등에서 사용됩니다. (질문에 답하는 부분이 아니라 인식 부분만).

회귀: 레이블 y가 실수면 회귀 문제라고 하며, 엑셀에서 그래프를 그릴 때 흔히 접하게 되는 문제이다. 우리는 데이터를 분산시키고 회귀 함수를 사용하여 이를 가장 잘 설명하는 선 또는 2차 함수 곡선 중 하나를 그립니다. 생각해보면 데이터는 한 쌍의 입력(x)과 실제 레이블(y)로 이루어져 있고, 어떤 새로운 입력(x)에 y를 맞추는 것은 직선이나 곡선이기 때문에 기계 러닝의 문제는 정확하며, 통계적 회귀 기법 중 선형 회귀 기법이 그 대표적인 예이다.

 

기계학습 감독 되지 않은 학습

컴퓨터가 사람 없이 스스로 라벨을 붙이지 않는 데이터에 대해 배우는 것, 즉 y 없이 x만 사용하는 것을 배우는 것. 답이 없는 문제를 풀고 있기 때문에 학습이 맞는지 알 방법이 없지만, 인터넷상의 거의 모든 데이터는 라벨이 붙어있지 않기 때문에 통계 밀집도나 분포 추정 같은 분야와 밀접하게 연관된 기계 러닝이 앞으로 나아가야 할 방향으로 설정되어 있습니다.

최근에는 레이블이 사람이 직접 레이블을 지정하는 것이 아니라 컴퓨터 자체에서 임의로 레이블을 지정할 수 있고 레이블이 지정되지 않은 데이터 세트에서 학습할 수 있는 몇 가지 문제가 자체 감독 학습이라는 용어를 사용하여 별도로 분류되었습니다.