[2024-05-22] ML 프로젝트 기본 이론: 머신러닝 (이종혁 강사님)
특히 1번.. 명심하고 좌절하지 말자.
처음에 나온 인공지능은 통계 기반.
규칙기반은 아직도 사용중이니 무시하지 말자.
딥러닝 병에 걸리지 말것.
머신러닝은 왜 이렇게 판단했는지 알 수 있다.
이유를 알아야할 필요가 있다면 딥러닝 대신 머신러닝을 사용해야함.
인코딩 : 숫자로 정해줌
임베딩 : 벡터로 바꿈.
라벨을 만드는데는 시간과 노력과 돈이 든다.
LLM 같은 대규모 모델이 가능한것은 비지도학습이 있어서 가능한것.
더 정확한 LLM 을 만들기 위해 지도학습도 한다.
정형데이터 --> 머신러닝
비정형데이터 --> 딥러닝
불균형한 데이터 같은 경우는 그냥 하나로 찍어도 Accuracy 가 높게 나올 수 있다.
불균형한 데이터에서는 Accuracy 보다는 f1-score 를 더 많이 사용한다.
random_state = random 시드를 고정. 동일한 기준으로 나누기 위함.
학습셋에서만 잘하는건 필요가 없다!
실제 데이터에 대해서도 잘 해야 의미가 있음!
--> 테스트 집합을 잘 맞춰야 의미가 있음.
현업에서는 과대적합을 해결하기위해 데이터의 수를 늘리기도 한다.
과대적합 구간에 들어가자마자 끄지말것. 에러가 다시 떨어지는 경우도 있다고 함.
numpy 의 array 를 사용하는 이유는?
연산 속도가 빠름
Broadcasting
코사인 유사도
벡터의 내적으로 계산
내적 중요!
멘붕이 오려고한다..