2024/12 22

1. 회귀 모델 - 선형 회귀, 다중 선형 회귀

회귀 모델이란?목적: 숫자(연속적인 값)를 예측하는 것.예:집 크기 → 집 가격공부 시간 → 시험 점수자동차 연비 → 주행 거리1.  선형 회귀 (Linear Regression)선형 회귀의 기본 아이디어"직선을 그려서 데이터를 설명하자!"데이터를 2차원 평면에 찍은 후, 그 사이를 통과하는 최적의 직선을 찾습니다.이 직선을 사용해 새로운 데이터를 예측합니다.예시 1) 집 크기로 집 가격 예측데이터집 크기(제곱미터)와 집 가격(천만 원)의 관계:크기 (X): 50, 60, 70, 80, 90가격 (y): 30, 40, 50, 60, 70작업데이터를 그래프에 찍습니다:X축: 집 크기 (50, 60, 70...).Y축: 집 가격 (30, 40, 50...).직선을 그립니다:직선의 방정식: y=ax+by = ..

Machine Learning 2024.12.06

내일배움캠프 본캠프 9일차 - 깃허브

1. GitHub에서 파일 업로드, 삭제GitHub Desktop을 사용하여 Jupyter Notebook 파일을 GitHub에 업로드하는 방법을 배웠다.GitHub Desktop에서 로컬 디렉토리를 저장소로 추가.변경 사항 커밋 후 원격 저장소에 푸시(Push).GitHub 웹사이트에서 업로드된 파일 확인.git clone에서 디렉토리 관련 오류 해결:- 디렉토리가 이미 존재하고 비어 있지 않으면 다른 디렉토리에 복제하거나 기존 디렉토리를 삭제해야 함.Jupyter Notebook과 함께 사용하는 Git의 기본 워크플로우를 익혔다:- 파일 추가 → 커밋 → 푸시(Push).삭제하고 커밋 누르는 걸 몰라서 왜 삭제 안되는지 의문이었다. 진짜 뭐 이런 게 다 있지 했는데 commit 안눌러서.....어이없..

TIL 2024.12.05

내일배움캠프 본캠프 8일차 - 힘들다 😭

1. Python 300제70문제 풀었다.너무 재미가 없었지만 중간중간에 까먹은 것들이 있어서 유익했다.2. Git 안된다Github 충돌 문제로 고생하고, 여전히 해결하지 못했다...문제:Git에서 충돌(merge conflict)이 발생하거나, 추적되지 않은 파일과 경로 설정 문제로 어려움을 겪음.아니 이거 어떻게 하는건지 마치고 좀 더 해봐야겠다. 동기화가 안된다..용어가 이게 맞는지도 모르겠다,,3.  파이썬 라이브러리 강의 완강듣기는 들었는데... 어렵다...과제 하면서도 따라한 느낌이 많아서... 더 실습을 해봐야한다...4. 팀원과 함께 프로그래머스 문제를 풀었다.문제가 너무 어려워!!!!!!!나의 생각과 다른 사람들의 생각을 나누고, 내 부족함을 알게 되어서 좋았다.올바른 괄호 닫기 문..

TIL 2024.12.04

새로운 챕터가 무서운 나에게 지피티가...

처음 머신러닝과 딥러닝을 배우는 것은 낯설고 두려울 수 있지만, 한 걸음씩 차근히 나아가면 생각보다 훨씬 흥미롭고 재미있는 분야라는 것을 깨닫게 될 거예요. 😊 걱정하지 말고, 아래의 팁을 참고하며 여정을 시작해 보세요!1. 기본 원리부터 천천히 이해하기수학: 선형대수, 미적분, 확률과 통계 같은 수학적 개념이 자주 등장하지만, 모든 것을 완벽히 이해하려 하지 말고 핵심 아이디어만 파악하세요.예: 행렬 연산은 뉴럴 네트워크의 기초입니다.기초 개념: 머신러닝과 딥러닝의 차이, 지도학습/비지도학습 등의 기본 용어를 익히세요.2. 실습 중심으로 학습Python과 라이브러리:머신러닝: scikit-learn딥러닝: TensorFlow, PyTorch이론을 배운 후, 간단한 코드를 따라 해보는 것이 이해를 돕는..

카테고리 없음 2024.12.04

내일배움캠프 본캠프 7일차 - Pandas라이브러리

오늘의 학습 내용1. DataFrame과 CSV, Excel 파일 다루기pandas 라이브러리를 활용해 CSV와 Excel 파일을 읽고 쓰는 작업을 수행했습니다.주요 작업:pd.read_csv()로 CSV 파일 불러오기 (index_col 설정).pd.read_excel()로 Excel 파일 불러오기..map() 메서드를 활용하여 데이터를 매핑해 새로운 컬럼 추가.join과 merge를 사용하여 DataFrame 병합.병합된 데이터를 기반으로 검거율 계산 및 정렬.주요 코드:df['구별'] = df['관서명'].map(police_to_gu).fillna('구 없음')df_merged = df_quiz.join(df_pop, how='inner')df_merged['검거율'] = (df_merged['소..

TIL 2024.12.03

데이터 전처리: 데이터 정규화와 표준화 (비선형 변환 포함)

데이터 변환 및 전처리 데이터 변환은 머신러닝과 데이터 분석에서 중요한 과정으로, 데이터가 모델 학습에 적합하도록 변환하여 성능을 향상시키는 역할을 합니다. 1. 정규화 (Normalization) 정규화는 데이터를 특정 범위(일반적으로 0과 1 사이)로 변환하여 데이터의 스케일을 맞추는 과정입니다. 1.1 Min-Max 정규화 Min-Max 정규화는 아래 공식을 사용하여 데이터를 변환합니다: $$ x' = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)} $$ 예제: import pandas as pd from sklearn.preprocessing import MinM..

Python 2024.12.03

데이터 전처리: 인코딩 (Encoding)

인코딩(Encoding)은 범주형 데이터를 숫자형 데이터로 변환하는 과정입니다. 머신러닝 모델은 대부분 숫자 데이터를 다룰 수 있기 때문에, 데이터가 문자, 텍스트, 혹은 범주형 값으로 이루어져 있다면 이를 숫자로 변환해야 합니다.왜 인코딩이 필요한가?머신러닝 모델은 수치형 데이터만 처리할 수 있습니다.범주형 데이터를 숫자로 변환하면 모델이 데이터의 패턴을 학습할 수 있습니다.데이터 분석 및 전처리 과정에서 필수적인 작업입니다.인코딩의 기본 목적데이터를 머신러닝 모델에 적합한 형식으로 변환예: '남자', '여자' → 0, 1범주 간 관계를 모델이 올바르게 이해할 수 있도록 보장예: 순서가 있는 데이터는 순서를 유지하면서 변환, 순서가 없는 데이터는 편향 없이 변환.인코딩의 종류레이블 인코딩 (Label ..

Python 2024.12.03

데이터 전처리: 데이터 정규화와 표준화

1. 데이터 정규화 (Normalization)정규화란? 데이터를 0과 1 사이의 값으로 변환하는 과정입니다. 목적: 서로 다른 범위를 가진 데이터를 동일한 스케일로 맞춰 비교 가능하게 만듭니다.1) Min-Max 정규화공식:\[X' = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}\] \( X \): 원래 데이터 값 \( X_{\text{min}} \): 최소값 \( X_{\text{max}} \): 최대값예제 코드import pandas as pdfrom sklearn.preprocessing import MinMaxScaler# 데이터 생성data = { '특성1': [10, 20, 30, 40, 50], '특성2': [..

Python 2024.12.03

데이터 전처리: 이상치 탐지 및 처리

1. 이상치(Outlier)란?이상치는 데이터의 일반적인 패턴에서 벗어난 값을 의미합니다.문제점:분석 결과에 부정적인 영향을 미침.모델 학습 과정에서 왜곡 발생 가능.해결 필요성:탐지 후 적절히 제거하거나 처리해야 합니다.2. 이상치 탐지 방법1) 기술 통계 기반 탐지describe() 함수: 데이터의 기본 통계량 확인.이상치 의심 기준:평균(mean)과 최대값(max)이 지나치게 차이 나는 경우.표준편차(std)가 지나치게 큰 경우.import pandas as pd# 데이터 생성data = { '이름': ['철수', '영희', '민수', '지수', '상수'], '나이': [25, 30, 22, 35, 120], # 120은 이상치로 의심됨 '점수': [90, 85, 95, 80, 8..

Python 2024.12.03

IQR

1. IQR(Interquartile Range)이란?데이터를 작은 값부터 큰 값까지 정렬했을 때, 전체 데이터를 4등분한 값 중 일부를 이용하는 방법입니다.Q1 (1사분위수): 데이터의 하위 25% 지점 (데이터를 4등분했을 때 첫 번째 경계).Q3 (3사분위수): 데이터의 상위 25% 지점 (데이터를 4등분했을 때 세 번째 경계).IQR: Q3 - Q1 (데이터의 중간 50% 범위).2. IQR로 이상치를 정의하는 이유대부분의 데이터는 Q1과 Q3 사이(즉, 중간 50%)에 몰려 있습니다.이상치는 이 범위를 벗어난 값으로 판단합니다.이상치 기준 공식:아래쪽 이상치: Q1 - 1.5 × IQR보다 작은 값.위쪽 이상치: Q3 + 1.5 × IQR보다 큰 값.3. 간단한 예제1) 데이터 준비data = ..

카테고리 없음 2024.12.03