본문 바로가기

패스트캠퍼스8

[Upstage AI lab 2기] 12주차 0. Introduction Home Credit이라는 회사는 대출 이력이 없는 사람에게도 대출 서비스를 제공하는 회사로, 해당 고객이 대출 상환 능력이 좋은 고객인지 예측하는 것이 중요하다. 따라서 해당 대회의 목적은 크게 2가지로 축약할 수 있다. 고객의 신용 위험을 예측하기 위한 효과적인 모델을 개발해야 한다. - 모델 성능 모델은 시간이 지나도 안정적으로 작동해야 한다. - 모델 안정성 모델 안정성을 측정하기 위해서 대회 자체적으로 도입한 metric을 사용했다. - 현재 metric issue로 대회 중단 𝑠𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦𝑚𝑒𝑡𝑟𝑖𝑐 = 𝑚𝑒𝑎𝑛(𝑔𝑖𝑛𝑖)+88.0∙min(0,𝑎)−0.5∙𝑠𝑡𝑑(𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑠) 1. Feature Engineering 상관계수를 통해 다중공선성을 발견하여 .. 2024. 2. 26.
[Upstage AI lab 2기] 11주차 ML 프로젝트로 kaggle에서 진행 중인 대회에 참여하게 되었다. 처음에는 그냥 쉬운 난이도의 대회를 선택하려고 했지만 마음이 바뀌어 일단 어려운 대회에 부딪혀보기로 마음먹었다. ML/DL 분야를 공부하고 나서 Kaggle에 대해서 여러번 들었지만 실제로 참여하는 것은 이번이 처음인만큼 그간 여러 이유로 미뤄뒀던 Kaggle에서 다른 분들이랑 함께 참여하는 기회를 허비하고 싶지 않았다는 생각이 컸다. 얼마 전에 열린 대회에 데이터 크기도 매우 크고, 도메인 지식도 부족하여 데이터를 다루는 부분부터 애를 먹었던 거 같다. 통계적 접근을 하기에는 데이터에 결측값도 많고 imbalanced dataset도 처음 다뤄봤기 때문에 너무 어려웠다. 사실 이런 어떤 결과보다도 이런 시행착오를 미리 겪어서 다행이라는.. 2024. 2. 22.
[Upstage AI lab 2기] 10주차 10주차에는 노정호 강사님의 자료구조 및 알고리즘 강의를 들었다. 사실 3일만의 코딩테스트에서 사용되는 자료구조와 알고리즘을 모두 배우기에는 어느 정도 무리이지만 그래도 3일이란 시간이 무색하게 많은 것을 배울 수 있는 시간이었다. 이번 방학부터 코테를 본격적으로 공부하기 시작했고, 매일 쉬운 문제라도 1일 1커밋 하는 습관을 들이도록 하려고 노력하는 나에게 있어서 안성맞춤인 시간이었다. 인프런에서 해당 강사님의 강의가 있는데 어느 정도 가격이 있었지만 너무 수업이 맘에 들었고 시각화를 통해 알고리즘을 바로 이해할 수 있었기 때문에 가격이 부담스럽다는 느낌은 적었다. 스택,큐, DFS/BFS, 다익스트라, 투포인터 등등 뿐만 아니라 시간 복잡도와 메모리에 대해서 시각적으로 자료가 너무 잘 준비되어서 정말.. 2024. 2. 16.
[Upstage AI lab 2기] 8주차 8주차에는 머신러닝과 관련된 여러가지 이론을 배웠다. 사실 머신러닝 이론도 데이터사이언스와 기계학습 수업에서 이미 다뤘기 때문에 어느 정도 아는 내용이 주를 이뤘다. Decision Tree가 생성되는 원리나 K-means 등의 알고리즘에 대해서 다시 복습한다는 느낌으로 강의를 들었다. XGBoost, LightGBM, CatBoost 등의 알고리즘은 이런 알고리즘이 있고 경진 대회에서 자주 사용되는 알고리즘 정도로만 알고 있었지 직접 공부해본 적은 없기 때문에 처음으로 낯선 것을 배울 수 있는 시간이었다. Gradient Boosting Machine 계열의 모델의 알고리즘과 hyper-parameter 종류, 그리고 각 parameter가 무엇을 의미하는지 알 수 있었다. 2024. 2. 2.
[Upstage AI Lap 2기] 7주차 7주차에는 안창배 강사님의 통계 강의가 진행되었다. 직전 학기 응용통계학에서 좋은 학점을 받은 만큼 패스트캠퍼스에서 제공했던 통계 강의는 수월하게 들을 수 있었다. 그래서 안창배 강사님께서는 기본적인 통계 내용보다는 보다 깊은 통계 지식에 대한 소개와 머신러닝에 대한 개괄 위주로 강의를 진행하셨다. 동아리를 하면서 배웠떤 SVD나 ALS, MF 등의 추천시스템에서 이용되는 알고리즘을 다시 접하니 반가웠다. 이외에도 다중공선성과 자유도 등의 개념을 직전 학기에 배웠는데도 낯설어서 한번 빡세게 기초를 익히고 필요할 때마다 돌아가 다시 공부하는 과정이 필요하다는 것을 새삼 느꼈다. 이론적인 부분 외에도 소개된 통계 개념을 적용해보는 실습 시간을 따로 가져서 통계적 개념이 실제로 어떤 방식으로 적용되는지 확인할.. 2024. 1. 24.
[Upstage AI Lap 2기] 5주차 5주차에는 EDA 프로젝트를 진행하기 위한 파이썬의 대표적인 라이브러리 4가지를 배웠다. 각 라이브러리의 용도를 간략하게 표현하면 다음과 같다. pandas : 데이터프레임을 다루기 위한 라이브러리 numpy : 수치 계산을 위한 라이브러리 seaborn & matpliotlib : 데이터 시각화를 위한 라이브러리 사실 직전학기에도 다뤘던 내용들이고 직전학기 뿐만 아니라 데이터사이언스와 인공지능을 공부하면서 여러번 다뤘던 라이브러리들이라 이번 주차에는 새로운 내용을 얻어가지는 못했다. 다만 필요할 때마다 사용하는 라이브러리들이라 익숙해지면 좋다는 생각에 집중하려고 노력했다. 강의 내용과 기존 지식을 바탕으로 이번 EDA 프로젝트로 축구 데이터를 분석해보기로 했다. 프로젝트를 진행하면서 나온 결과들은 다음.. 2024. 1. 11.