[2024-05-22] ML 프로젝트 기본 이론: 머신러닝 (이종혁 강사님)

Upstage AI Lab 3기

[2024-05-22] ML 프로젝트 기본 이론: 머신러닝 (이종혁 강사님)

코코스섬 2024. 6. 2. 19:50

특히 1번.. 명심하고 좌절하지 말자.

처음에 나온 인공지능은 통계 기반.

규칙기반은 아직도 사용중이니 무시하지 말자.

딥러닝 병에 걸리지 말것.

머신러닝은 왜 이렇게 판단했는지 알 수 있다.

이유를 알아야할 필요가 있다면 딥러닝 대신 머신러닝을 사용해야함.

인코딩 : 숫자로 정해줌

임베딩 : 벡터로 바꿈.

라벨을 만드는데는 시간과 노력과 돈이 든다.

LLM 같은 대규모 모델이 가능한것은 비지도학습이 있어서 가능한것.

더 정확한 LLM 을 만들기 위해 지도학습도 한다.

정형데이터 --> 머신러닝

비정형데이터 --> 딥러닝

불균형한 데이터 같은 경우는 그냥 하나로 찍어도 Accuracy 가 높게 나올 수 있다.

불균형한 데이터에서는 Accuracy 보다는 f1-score 를 더 많이 사용한다.

random_state = random 시드를 고정. 동일한 기준으로 나누기 위함.

학습셋에서만 잘하는건 필요가 없다!

실제 데이터에 대해서도 잘 해야 의미가 있음!

--> 테스트 집합을 잘 맞춰야 의미가 있음.

현업에서는 과대적합을 해결하기위해 데이터의 수를 늘리기도 한다.

과대적합 구간에 들어가자마자 끄지말것. 에러가 다시 떨어지는 경우도 있다고 함.

numpy 의 array 를 사용하는 이유는?

연산 속도가 빠름

Broadcasting

코사인 유사도

벡터의 내적으로 계산

내적 중요!

멘붕이 오려고한다..