본문 바로가기
IT기술

머신러닝(ML) 이란 ? 유형, 모델, 비즈니스 사용사례

by romydady 2024. 1. 29.

머신러닝의 정의

기계 학습 즉, 머신러닝(ML)은 복잡한 데이터 세트에 대해 훈련된 알고리즘 모델이 시간이 지남에 따라 적응하고 개선되어 인간의 학습 행동을 모방할 수 있는 인공 지능(AI)의 하위 카테고리입니다 .

ML과 AI는 밀접하게 연결되어 있기 때문에 종종 같은 의미로 사용됩니다. 그러나 ML은 더 구체적이고 제한된 범위를 갖고 있는 반면, AI는 컴퓨터와 모델이 문제 해결, 사실 추론, 예측, 조언 제공, 복잡한 계산 수행 등 인지와 유사한 기능을 수행할 수 있도록 하는 더 광범위한 대화형 기술입니다. .

세계 최초의 성공적인 자가 학습 체커 프로그램을 구축한 Arthur Samuel은 1950년대에 이 용어를 대중화하여 "명시적으로 프로그래밍하지 않고도 컴퓨터에 학습 능력을 부여하는 연구 분야"라고 설명했습니다.

최근 연구에 따르면 하루에 수백 테라바이트, 심지어는 제타바이트에 달하는 엄청난 양의 데이터가 축적되고 있습니다. 인간의 능력을 넘어 지속적으로 구축되고 성장함에 따라 머신러닝은 데이터 처리를 돕고, 통찰력을 얻고, 데이터를 활용하는 데 매우 중요해졌습니다.

기계 학습에는 다음을 포함하여 다양한 기능이 있습니다.

  • 설명적, 무슨 일이 일어났고 왜 일어났는지 설명하는 것입니다.
  • 예측, 일어날 가능성이 있는 일을 예측하는 것입니다.
  • 규범적, 향후 조치에 대한 제안을 제공합니다.

ML을 사용하면 기본적으로 컴퓨터가 이러한 기능을 수행하면서 스스로 훈련하는 방법을 배울 수 있습니다.

다양한 유형의 머신러닝

머신러닝에는 네 가지 기본 유형이 있습니다. 여기에는 지도 학습, 준지도 학습, 비지도 학습, 인간 피드백을 통한 강화 학습이 포함됩니다.

지도 학습

지도 학습에서 모델은 사람의 감독 하에 학습하여 데이터를 분류하거나 예측하는 데 도움을 줍니다. 이 방법은 레이블이 지정된 데이터 세트 또는 목표 답변이 이미 알려진 데이터 세트를 사용합니다.

알려진 데이터는 기계에 입력되어 이를 분석하고 다양한 항목(이미지, 텍스트, 비디오) 간의 연관성을 학습합니다. 이렇게 하면 라벨 없이 새로운 입력이 입력되면 기계가 정확한 예측을 할 수 있습니다.

지도형 기계 학습 알고리즘의 두 가지 주요 유형은 분류와 회귀입니다.

분류: 알고리즘은 데이터를 학습하여 결과를 예측합니다. 여기에는 이진 분류("예 또는 아니요" 또는 "참 또는 거짓"과 같은 두 가지 가능한 값이 있는 경우) 및 다중 클래스 분류(가능한 값이 세 개 이상인 경우)가 포함될 수 있습니다.

회귀: 알고리즘은 종속 변수와 독립 변수 간의 상관 관계를 찾은 다음 이를 분류하고 연속 값(예: 판매 또는 마케팅 추세)을 예측합니다.

분류 및 회귀 유형은 다음과 같습니다.

  • 선형 회귀: 선형 관계를 기반으로 수치 값을 예측합니다.
  • 로지스틱 회귀: "예/아니요" 답변과 같은 범주형 응답 변수를 예측합니다.
  • 의사결정 트리 회귀: 데이터 세트를 더 작은 하위 집합으로 나누어 데이터 포인트 값을 표시합니다.
  • 무작위 포레스트 회귀: 다중 의사결정 트리가 무작위 데이터 포인트의 출력을 예측합니다.
  • K 최근접 이웃 회귀: 독립 변수 간의 연관성을 근사화하고 관찰 지점에 가장 가까운 "이웃"을 식별합니다.
  • Naive Bayes: 예측 변수/특성이 독립적이고 하나의 존재가 다른 하나에 영향을 미치지 않는다는 "순진한" 아이디어를 기반으로 하는 Bayes의 정리를 기반으로 합니다.
  • 지원 벡터 머신: 지원 벡터 분류자를 사용하므로 비선형 인스턴스에 이상적입니다.

비지도 학습

비지도 학습에서 기계는 레이블이 지정되지 않은 데이터 또는 목표 결과를 알 수 없는 데이터를 사용합니다. 모델은 감독 없이 학습하여 패턴을 찾고 응답을 제공합니다. 이 방법은 탐색적 데이터 분석, 고객 세분화 및 이미지 인식과 같은 영역에서 유용합니다.

비지도 학습에는 세 가지 주요 유형이 있습니다.

클러스터링: 레이블 이 지정되지 않은 데이터를 유사점과 차이점을 기준으로 클러스터로 나눕니다. 알고리즘은 분류되지 않은 원시 개체를 구조나 패턴으로 표현되는 그룹으로 사용합니다. 클러스터링 알고리즘의 유형은 다음과 같습니다.

  • 독점: 데이터 포인트가 하나의 클러스터에만 존재할 수 있다는 결정을 기반으로 하는 그룹화입니다.
  • 중첩: 데이터 요소가 분리 정도에 따라 여러 클러스터에 속할 수 있는지 결정합니다.
  • 계층적: 집적 클러스터링은 처음에 별도의 그룹을 격리한 다음 하나의 클러스터를 달성할 때까지 유사성을 기준으로 병합합니다. 분할 클러스터링은 데이터 포인트 간의 차이를 기반으로 단일 데이터 클러스터를 나눕니다.
  • 확률적: 데이터 포인트는 특정 분포에 속할 가능성을 기준으로 클러스터링됩니다. 가장 일반적으로 사용되는 방법 중 하나는 데이터 포인트가 속하는 정규 분포를 결정하는 데 사용되는 가우스 혼합 모델입니다.

연관성: 데이터 세트에서 변수 간의 관계를 찾습니다. 이는 일반적으로 추천을 하기 위한 장바구니 분석에 사용됩니다(예: Amazon의 "이 항목을 구입한 고객도 구입했습니다...").

이상 탐지: 문제(예: 고장난 기계 또는 사이버 침해)를 나타내는 다른 관찰과 통계적으로 다른 이벤트를 식별합니다. 이러한 이상 현상은 특정 지점이 나머지 데이터와 멀리 떨어져 있는지 또는 컨텍스트로 인해 이상 현상인지 여부를 기반으로 할 수 있으며, 집합적인 방법을 사용하면 차이점을 식별하는 데 도움이 될 수 있습니다.

준지도 학습

이는 레이블이 지정되지 않은 대량의 데이터와 레이블이 지정된 소량의 데이터를 혼합하는 새로운 유형의 기계 학습입니다. 따라서 지도 학습과 비지도 학습 사이에 위치합니다. 특정 영역에는 관련 데이터가 있고 다른 영역에는 데이터가 부족한 영역에서 유용합니다.

준지도 학습에는 두 가지 유형이 있습니다.

  • 전환적: 특정 교육 사례에서 특정 테스트 사례까지 추론합니다.
  • 귀납적: 관찰된 훈련 사례에서 테스트 사례에 적용되는 일반 규칙까지 추론합니다.

인간 피드백을 통한 강화 학습(RLHF)

RLHF에서 알고리즘은 샘플 데이터를 사용하여 훈련되는 것이 아니라 인간을 평가자로 삼아 시행착오를 통해 훈련됩니다. 일반적으로 보상 시스템은 올바른 결정을 내렸을 때 모델에 알리고 최상의 권장 사항을 개선하고 개발하는 데 사용됩니다. 예를 들어, 모델은 게임을 하거나 자율주행차를 운전하는 방법을 학습한 다음 잘했을 때(또는 반대로 실수했을 때) 강화할 수 있습니다.

딥 러닝: 머신러닝의 하위 집합

딥 러닝은 데이터 입력, 가중치 및 편향을 통해 인간의 두뇌를 모방하여 데이터의 개체를 식별, 분류 및 설명하는 특수한 유형의 기계 학습입니다. 알고리즘은 구조화되지 않은 데이터를 수집 및 처리하고 기능 추출을 자동화하여 일반적으로 사람이 수행하는 일부 사전 처리를 제거합니다.

딥 러닝 신경망은 예측 또는 분류를 최적화하기 위해 각 노드가 이전 노드를 기반으로 구축된 여러 레이어의 노드로 구성되어 매우 복잡합니다. 순방향 전파(계산 진행)와 역전파(알고리즘을 사용하여 오류를 계산하고 이에 맞게 조정)가 함께 작동하여 신경망이 예측을 하고 오류를 수정할 수 있도록 하여 시간이 지남에 따라 알고리즘을 더욱 정확하게 만듭니다.

특정 알고리즘에는 다음이 포함됩니다.

  • CNN(컨벌루션 신경망): 이미지 내의 특징과 패턴을 감지하여 컴퓨터 비전 및 이미지 분류와 같은 기술을 활성화할 수 있습니다.
  • 순환 신경망(RNN): 자연어 및 음성 인식과 같은 영역에서 순차(또는 시계열) 데이터를 활용합니다.

비즈니스 사용 사례 및 조직이 ML을 사용하는 방식

머신러닝은 거의 모든 현대 기술의 근간을 이루고 있으며, 모든 회사는 이를 어떤 식으로든(인식 여부에 관계없이) 통합했습니다. 사용 사례 목록은 무제한(계속 증가하고 있음)이 있지만 가장 일반적인 사용 사례는 다음과 같습니다.

추천 엔진

추천 엔진은 아마도 가장 널리 사용되는 기계 학습 사용 사례일 것입니다. 비지도 학습은 과거 구매 행동을 사용하여 교차 판매 및 추가 기능 제안에 대한 추세를 발견할 수 있습니다. 기업은 더 나은 구매자 프로필을 구축하여 선호도에 따라 고객을 보다 정확하게 타겟팅할 수 있습니다.

스팸 감지

스팸 감지는 지도 학습의 가장 기본적인 사용 사례 중 하나입니다. 과학자들은 패턴과 이상 징후를 인식하고 스팸으로 의심되는 이메일이나 피싱 이메일을 우회하도록 알고리즘을 훈련시킬 수 있습니다.

음성 인식 및 음성 명령

음성 인식을 통해 기계는 인간의 음성을 텍스트로 처리할 수 있습니다. 예를 들어 판매와 같은 영역에서 머신러닝은 콜센터에서 수천 건(또는 수백만 건)의 통화를 기록하는 데 도움이 될 수 있습니다. AI 챗봇은 사람의 개입 없이 일반적인 질문에 답하고 기본적인 요청을 해결할 수도 있습니다.

예측 분석

지도 학습 모델은 예측 분석을 지원하기 위해 다양한 데이터 포인트에 대한 통찰력을 제공할 수 있습니다. 이를 통해 조직은 시장 상황에 적응하거나 의사 결정을 지원할 수 있습니다.

고객감정분석

기계 학습은 소셜 미디어, 피드백 양식, 온라인 포럼 등의 대규모 데이터 세트에서 정보를 추출하고 구성할 수 있습니다. 이를 통해 조직은 고객 경험을 더 잘 이해하여 참여도를 높일 수 있습니다.

사기 탐지

기계 학습은 의심스러운 거래를 찾아내고 사기를 식별하는 데 도움을 줄 수 있습니다. 지도 학습은 알려진 사기 거래에서 수집된 데이터를 기반으로 모델을 훈련할 수 있습니다. 알고리즘은 이상 탐지를 사용하여 비정형 거래를 식별할 수도 있습니다.

사이버 보안

사기 탐지와 유사하게 기계 학습은 사이버 보안에 폭넓게 적용됩니다. 알고리즘은 네트워크나 데이터베이스의 일반적이고 특이한 패턴에 대해 훈련을 받은 다음 뭔가 이상해 보이는 경우 사람에게 플래그를 지정할 수 있습니다.

모델 구축

모델 구축은 복잡한 과정이지만 먼저 전략부터 시작됩니다. 데이터 과학자는 먼저 비즈니스 사용 사례를 식별해야 합니다. 이 영역의 주요 고려 사항은 다음과 같습니다.

  • 해결해야 할 문제에 대한 명확하고 구체적인 정의가 있습니까?
  • 필요한 기술, 자원 및 기술을 갖추고 있습니까?
  • 이용 가능한 데이터가 충분하고, 해당 데이터가 관련성이 있나요?
  • 예상 ROI는 얼마입니까?

그런 다음 필요한 데이터의 유형과 품질, 해당 데이터의 위치, 액세스 방법/여부, 데이터에 라벨을 충분히 지정하는 방법 및 기타 특별한 요구 사항을 결정해야 합니다. 완전히 새로운 모델을 구축하기 전에 이미 존재하는 사전 학습된 옵션을 고려할 수도 있습니다.

기존 모델을 사용할 때 과학자들은 데이터 세트의 크기와 구조를 처리하고 누락된 데이터나 "노이즈"를 해결할 수 있는지 여부를 결정해야 합니다. 다른 고려 사항으로는 확장 능력, 다중 입력 처리 능력, 결과 설명 능력, 시간 제약 충족 ​​능력 등이 있습니다.

모델 구축 과정

프로세스는 훈련 데이터를 수집하는 것부터 시작됩니다. 많을수록 좋습니다. 품질과 다양성과 함께 수량도 중요합니다. 올바른 조합에 따라 모델의 품질이 결정됩니다. 컬렉션은 모델 구축 과정에서 가장 중요한 단계입니다. 과학자들은 작업에 시간의 3분의 1 이상 을 소비하는 것으로 추정됩니다 .

데이터에는 텍스트, 이미지, 비디오, 숫자, 시계열 정보, 보고서 등이 포함될 수 있습니다. 구조화(표준화되어 분석 준비가 되어 있음), 비구조화(정리되지 않거나 사전 정의되지 않음) 또는 반구조화(부분적으로 표준화되어 쿼리 가능) 등 다양한 방식으로 제공될 수 있습니다.

수집된 데이터는 행과 열로 배열된 테이블 형태로 시스템에 로드됩니다(모델을 2차원으로 만듭니다). 개발자는 미래 모델이 출력 순서나 시간을 기준으로 데이터를 분류하거나 평가하지 않도록 순서를 무작위로 지정하는 경우가 많습니다.

나중에 평가하고 검증하기 위해 데이터 덩어리도 따로 보관됩니다. 향후 정확도를 결정하는 데 도움이 되도록 모델이 훈련된 데이터와 다른 데이터를 보유하는 것이 중요합니다.

그런 다음 모델 빌더는 데이터를 선별하고 "정리"하여 원치 않거나 관련이 없거나 잘못된 데이터와 중복 자료를 제거합니다("중복 제거"라고 함). 때로는 핵심 데이터 세트가 교육에 충분하지 않다고 판단하고 더 다양하고 강력한 데이터 세트를 보장하기 위해 추가 소스에서 데이터를 수집할 수도 있습니다. 또한 개인 데이터 또는 민감한 데이터를 익명화합니다. 또한 데이터 세트를 재구성하고 행과 열을 조정할 수도 있습니다.

훈련, 평가, 조정

그런 다음 훈련이 옵니다. 이는 기계 학습 프로세스의 대부분입니다. 정확하고 유용한 결과를 제공하는 모델을 구축하려면 교육이 중요합니다.

이러한 반복 프로세스를 통해 알고리즘은 이전에 수집된 데이터를 공급받아 기능을 점진적으로 개선하고 적응 및 재조정을 돕습니다. 또한 과학자들은 모델을 가장 잘 최적화하기 위해 가중치와 편향을 업데이트하거나 조정할 것입니다.

일단 기능에 만족하면 과학자들은 훈련되지 않았고 상호 작용한 적이 없는 보관 데이터에 대해 모델을 테스트하는 평가 단계로 이동합니다. 이는 정확성뿐만 아니라 강점과 약점을 파악하는 데 중요합니다. 모델이 어떤 방식으로든 개선될 수 있는지 확인하기 위해 매개변수와 하이퍼매개변수를 조정하는 경우가 많습니다.

적절하게 평가되면 모델이 배포되거나 의도된 작업에 사용됩니다. 목표는 시간이 지남에 따라 새로운 데이터 세트를 접하고 학습하면서 개선되는 것입니다.

과적합과 과소적합

과대적합은 모델이 불필요하게 복잡하고 훈련 데이터에서는 매우 잘 수행되지만, 새로운, 보이지 않는 데이터가 제시될 때 정확하게 수행할 수 없어 모델의 목적이 무산될 때 발생합니다. 개발자는 다음을 통해 이를 방지할 수 있습니다.

  • 프로세스 초기에 중지
  • 더 많은 데이터를 사용한 훈련
  • 모델을 더욱 안정적으로 만들기 위해 자주 추가되는 "잡음" 데이터 제거
  • 가장 중요한 매개변수 식별 및 중복 매개변수 제거
  • 기능 수 줄이기

반면에 과소적합은 모델이 지나치게 단순하고 입력과 출력 간의 관계를 정확하게 포착할 수 없어 학습 데이터와 새 데이터 모두에 오류가 발생하는 경우입니다. 과학자들은 다음과 같은 방법으로 이를 피할 수 있습니다.

  • 정규화 감소
  • 훈련 시간 증가
  • 더 많은 기능 추가

머신러닝의 과제

머신러닝은 많은 이점과 광범위한 응용 분야로 알려져 있지만 극복해야 할 과제도 많습니다.

모델 정확도

단순히 모델을 구축하는 것만으로는 충분하지 않습니다. 모델은 강력한 데이터를 바탕으로 정확한 결과를 제공해야 합니다. 그렇지 않으면 모델은 쓸모가 없습니다. 조직은 가장 최적의 결과를 보장하기 위해 최고 품질의 데이터를 기반으로 모델을 구축해야 합니다.

편향성(Bias)으로 이어지는 데이터의 편견

모델은 제공되는 데이터만큼 정확하며 데이터에는 일종의 편향이 있는 경우가 많습니다. 모델은 인간의 고유한 편견으로 인해 의도치 않게 시스템에 내장된 편견으로 인해 차별을 하는 것으로 밝혀졌습니다. 예를 들어, 소수민족이 금융 대출을 거부당하거나 여성이 취업 후보에서 제외되는 경우가 있습니다. 예를 들어, 제한된 수의 소수자나 특정 연령층의 사람들이 포함된 소스의 데이터로 모델을 훈련하는 단순한 행위조차도 제외된 사람들을 고려하지 않기 때문에 편향이 발생할 수 있습니다.

개인 정보 보호 문제

기계 학습은 개인 식별 데이터(PII), 지적 재산 및 기타 민감한 데이터를 포함하여 대규모 데이터 세트를 수집하고 분석해야 하기 때문에 데이터 보안 및 개인 정보 보호와 관련하여 많은 우려가 있습니다.

ML을 사용하는 조직은 필요한 데이터만 수집 및 사용하고 있는지, 데이터가 잘 보호되고 있는지, 사람들의 데이터를 어떻게 사용하고 있는지(그리고 동의 없이 사용하지 않는지) 명확하게 확인해야 합니다.

일자리에 미치는 영향

기계 학습은 일반적으로 인간이 수행하는 수많은 프로세스를 자동화할 수 있는 능력을 갖추고 있기 때문에 직업에 미치는 영향에 대해 많은 우려가 제기되었습니다. 그러나 전문가들은 진화하는 기술이 변함없이 인간의 작업 흐름과 작업을 개선하고 프롬프트 엔지니어링과 같이 이전에는 존재하지 않았던 역할을 포함하여 없애는 것보다 더 많은 작업을 창출할 것이라고 지적합니다.

책임

ML과 AI는 나날이 발전하고 있지만 사회에 과도한 피해를 주지 않고 사용될 수 있도록 보장하는 구체적인 거버넌스 프레임워크는 아직 없습니다. 전 세계적으로 정부와 규제 기관은 이를 개선하기 위해 빠르게 움직이고 있습니다. 예를 들어 EU의 AI 법안, 바이든 대통령의 안전하고 신뢰할 수 있는 인공 지능에 대한 행정 명령 (및 AI.gov 웹 사이트 출시 ), AI에 대한 G7의 합의 등이 있습니다.

머신러닝에 대한 주요 내용

  1. ML은 복잡한 데이터 세트에 대해 훈련된 알고리즘 모델이 시간이 지남에 따라 적응하고 개선되어 인간의 학습 행동을 모방할 수 있는 AI의 하위 분야입니다.
  2. ML의 네 가지 유형에는 지도 학습, 준지도 학습, 비지도 학습, 인간 피드백을 통한 강화 학습이 포함됩니다.
  3. 딥 러닝은 데이터 입력, 가중치 및 편향을 통해 인간의 두뇌를 모방하여 데이터의 개체를 식별, 분류 및 설명하는 특수한 유형의 ML입니다.
  4. ML의 가장 일반적인 비즈니스 사용 사례에는 추천 엔진, 사이버 보안(스팸 필터링 포함), 음성 인식 및 음성 명령, 예측 분석이 포함됩니다.
  5. ML 모델을 구축하는 것은 복잡한 프로세스이지만 데이터 과학자는 먼저 모델의 비즈니스 사용 사례를 식별해야 하므로 전략부터 시작됩니다.
  6. ML은 1950년대 체커 게임을 만드는 데 사용된 이후 큰 발전을 이루었지만 모델 정확성, 데이터 편향 제거, 개인 정보 보호 문제 해결, 책임 등을 포함하여 현장에서 극복해야 할 과제가 여전히 남아 있습니다.
반응형

댓글