머신러닝

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

공부잡동사니

머신러닝 본문

개발/머신러닝

머신러닝

공부잡상인 2025. 4. 19. 15:44

머신러닝

-인공지능의 한 분야로 컴퓨터가 학습할 수 있 도록 하는 알고리즘과 기술을 개발하는 분야.

-컴퓨터가 외부에서 주 어진 방대한 빅데이터 를 통해 스스로 학습하 는 기술

-프로그램을 작성하지 않고 컴퓨터에 학습할 수 있는 능력을 부여하 기 위한 연구분야

-기계가 데이터로부터 여 러번의 시행착오를 통해 서 프로그램을 스스로 학 습함으로써 성능을 향상 시키는 인공지능의 기술

머신러닝의 분류

- Supervised Learning(지 도학습) : 미리정의 된 정답지가 있는 모델

-Unsupervised Learning(비지도학습): 미리정의 된 응답지가 없음

-Others:Reinforcement learning, recommender system,

정의

머신러닝 구성요소 설명

-작업은 모델에 의해 다루어지고 학습문제는 모델을 생성하는 학습알고리즘들에 의해 해결된다.

-모델은 머신러닝 분야에 다양성을 제공하지만 작업 과 특징은 통일성을 제공한다.

-머신러닝은 정확한 작업을 성취할 수 있는 올바른 모델들을 구축하기 위해 올바른 특징을 활용하는 것 이다.

Data Set 분활하기

머신러닝기반데이터 분석 진행시 한꺼번에 분석 하지 않고 분활하여 진 행하게 됨.

데이터 세트준비

-과적합 : 훈련데이터만으 로는 세트의 패턴만 잘표 현하게되는 너무 많은 데 이터의 반영이 되어서 일 반화 능력이 떨어질 수 있 음

RMSE(Root Mean Squared Error)에서 보면 머신러닝 기 법유연성의 증가함에 따라, 즉 다항식차수가 증가함에 따라 패턴과 일치성이 증가 하는 경향이지만 일정수준 이후로는 오차가 증가함.

이런 의미에서 평가데이터가 필요함.

Data Set 분활하기

일정비율로 학습용과 평가 용세트로분활하기 :일반적으로 훈련데이터와 평 가데이터를 60~80/40~20으 로 할당한다. 단 실무상황 에선 담당자의 경험과 판단 으로 결정할 수 있음.

평가데이터를 이용한 모델 성능평가 후 최종모델확정 :만들어진 모델을 평가데이터 에 의해 성능평가하고 만족 스럽지 못하다면 다시 피드 백하여 다시 진행

학습데이터로부터 머신 러닝 모델링 수행 :수행한 모델링을 통해 기 법이나 추정방법등을 통해 최종모델 구성.

Data Set 분활하기

학습용 데이터와 평가 용 데이터로 분활 한다

학습데이터를 이용한 머신러닝 수행 및 평가 데이터를 이용한 모델 성능평가

분활방법 실습

일관성 여부 확인 -sampleBy -createDataPartition

최종모델 성능평가

[iris data 예제]

문제점

연속적인 순서대로 인덱스화 된 데이터는 일관되지 못하 는 경우로 편중되어 추출됨. 무작위 샘플추출에 의한 분 활 데이터가 필요함

data set 분할

데이터의 빈도 일관성 여 부 확인의 필요성 :전체데이터의 7:3비율이지 만목적변수의 일관성 차 이들은 좋은 성능의 알고 리즘을 기대하기 어렵기 때문임

문제점 :위의 학습용/ 평가용의 각 종 속변수의 빈도수가 차이를 보이기 때문에 위에 대한 속 성분포에 따른 목적변수의 표본추출이 필요함

doBy의 불편함 존재 :첫번쩨 세트에 포함되지 않는 나머지 데이터를 2 단계로 추출해야 되는 번거러움이 존재 함

훈련데이터의 평가데이터가 목 적변수의 속성내용에 빈도분포 가 모두 동일하게 추출됨을 확 인함.

-훈련데이터 머신러닝 수행

-평가데이터 모델성능 평가

지도학습 모델 적용하기

-학습목표 :예측 모형화를 위해 적합 한 머신러닝 기법 :최적분류 모델선정 적용

-분류목적을 위한 머신 러닝으로는 종속변수가 이산형이거나 명목특성 의 경우 사용되는 기법 임.

-분류목적의 활용 영역

-스팸메일분류 -

기업부도/정상예측

-고객이탈/유지예측

-고객신용등급 판별

-특정질병 발생여부예측

-고객의 구매여부 예측 등

-분류목적의 머신러닝 알고리즘은 매우 다양 하며 약 7개종류의 알고 림즘으로 구성되어 있음.

K-최근접 이웃(K-Nearest Neighbor)

개념 -목표변수의 범주를 알지 못하는 데이터세 트의 분류를 위해 해당데이터세트와 가장 유사한 주변데이터 세트의 범주 로 지정하는 방식의 분류 예측법. -최종적으로 목표변수의 범주를 분류할 때 주변데이터 세트 몇 개를 기준으로 판 단 할것인지 기준이 필요함. • 유사성 측정방법 사용 :두 점간의 유클리드안 제곱거리의 역 수를 취하거나 피어슨 상관계수를 이용하여 유사성을 계산 함. :목표변수의 가장최근점에서의 ‘K’개 는 참조할 주변데이터들과의 개수 를 의미함.