Upstage AI Lab 3기

[2024-05-22] ML 프로젝트 기본 이론: 머신러닝 (이종혁 강사님)

코코스섬 2024. 6. 2. 19:50

특히 1번.. 명심하고 좌절하지 말자.

 

처음에 나온 인공지능은 통계 기반.

 

 

 

규칙기반은 아직도 사용중이니 무시하지 말자.

 

 

 

딥러닝 병에 걸리지 말것.

 

 

 

 

 

 

 

머신러닝은 왜 이렇게 판단했는지 알 수 있다.

이유를 알아야할 필요가 있다면 딥러닝 대신 머신러닝을 사용해야함.

 

 

 

 

 

 

 

 

 

 

 

 

 

인코딩 : 숫자로 정해줌

임베딩 : 벡터로 바꿈.

 

 

라벨을 만드는데는 시간과 노력과 돈이 든다.

LLM 같은 대규모 모델이 가능한것은 비지도학습이 있어서 가능한것.

정확한 LLM 만들기 위해 지도학습도 한다.

 

 

정형데이터 --> 머신러닝

비정형데이터 --> 딥러닝

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

불균형한 데이터 같은 경우는 그냥 하나로 찍어도 Accuracy 높게 나올 있다.

불균형한 데이터에서는 Accuracy 보다는 f1-score 많이 사용한다.

 

 

 

random_state = random 시드를 고정. 동일한 기준으로 나누기 위함.

 

 

학습셋에서만 잘하는건 필요가 없다!

실제 데이터에 대해서도 해야 의미가 있음!

--> 테스트 집합을 맞춰야 의미가 있음.

 

 

현업에서는 과대적합을 해결하기위해 데이터의 수를 늘리기도 한다.

 

 

 

과대적합 구간에 들어가자마자 끄지말것. 에러가 다시 떨어지는 경우도 있다고 .

 

 

 

 

 

 

 

numpy array 사용하는 이유는?

    연산 속도가 빠름

    Broadcasting

 

 

코사인 유사도

    벡터의 내적으로 계산

    내적 중요!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

멘붕이 오려고한다..