Python/데이터 분석 기초

    Kaggle - [House Prices]  집값 예측 모델링 후기

    Kaggle - [House Prices] 집값 예측 모델링 후기

    학교 동아리에서 데이터 분석, 머신러닝에 관심있는 사람들끼리 모여서 시작했다! 8주 정도에 걸쳐서 진행했다. 처음에는 한 달 동안은 네이버 부스트 코스를 통해서 파이썬을 이용한 기본적인 데이터 분석 방법들을 익혔다. 나는 심심해서 네이버 부스트 코스에 있던 모든 머신러닝 관련 수업을 들었던 상태였다. 그래서 팀원들에게 부스트 코스로 공부하자고 했다. 처음에는 이왕 프로젝트를 진행하는 김에 공모전에 도전해보자고 다들 얘기를 했었다. 그래서 전주시 빅데이터 공모전에, 세부 지역별 인구 피라미드 예측 모델을 설계하려고 했다. 주 2회 회의를 진행했다. 1번은 파이썬을 통해 라이브러리 등을 공부했던 내용을 공유하는 것이었고, 다른 회의에는 공부했던 내용을 기반으로 전주시에서 제공하는, 여러 기초 데이터들을 분석..

    Multiple Linear Regression 정리 + 느낌

    Multiple Linear Regression 정리 + 느낌

    """최근 맨 땅에 헤딩하는 식으로 빅데이터를 혼자 공부했었는데, Feature Engineering 할 때, 왜 해당 피쳐를 선택해야하는지, 어떤 건 없애야하는지, 어떤 피처는 만들어서 사용해도 되는지 등에 대한 논리적 근거가 궁금했다. 다른 사람들이 수행한 EDA를 열심히 뜯어봐도 수학적 근거까지는 명시하지 않았기 때문이다. 대충 싸이킷런으로 예측과 분류의 정확도를 올리는 법을 익힌 후에, '아~ 그냥 이게 전부인가..?'라는 생각에 딥러닝에 도전했다,, 텐서플로우를 통해 잠시 공부하다가, 싸이킷런처럼 fit() 하고 결과가 나와버리는 것을 보고,,, 너무,,, 답답했다. 속 알맹이에 뭐가 들어있는지도 모르고 쓰는게 너무 찝찝해서, 모델들을 수학적으로 더 공부해야할 필요성을 느꼈다. 수학적인 부분들을..

    [머신러닝을 위한 파이썬] 3. pandas 활용 예제

    [머신러닝을 위한 파이썬] 3. pandas 활용 예제

    >> 완벽하게 알아야 하는 자료구조 Series DataFrame >> 알아야하는 문법 파일 읽어오기, 저장하기 Series 생성방법 DataFrame 생성방법 DataFrame Col : 추가, 삭제, 이름변경, 새로운 데이터 할당, 선택적 불러오기 loc / iloc Index 변경 (KEY 값 변경) Data drop Operation, BroadCasting inplace, map, apply decribe, unique Groupby & CrossTab & Pivat Table Gierarchical Index Aggregation Transformation Merge & Concat Join 1번과 2번 예제 설명은 여기를 참고 총 3개의 예제가 있다! #1. 답안코드 # 첫번째 방법 : gr..

    [머신러닝을 위한 파이썬] 2. numpy 활용 예제

    이 글은 boostcourse 강의를 듣고 작성한 글입니다. >>알아야하는 문법 numpy 배열 생성법 0 배열 / 1 배열 생성법 shape / reshape concatenate axis indexing VS slicing Operation, Comparison Boolean Index Fancy Index BroadCasting 배열 저장, pickle >>신경 써야하는 부분 numpy는 c스타일 배열 => 기존 파이썬 배열보다 빠르다. numpy 메서드가 복사된 배열을 반환하는지, 참조하는지 구분해야한다!! => 나중에 큰 데이터를 다룰 때 필요 연산 시에 BroadCasting이 어떻게 되는지 알아야된다. shape이 1차원인지 2차원인지 [1,2,3,4,5] => 1차원, [[1,2,3,4,5..

    [머신러닝을 위한 파이썬] 1.행렬 연산 구현해보기

    이 글은 boostcourse 강의를 듣고 정리한 글입니다. 밑에 나오는 구현 예제들은 모두 한줄로 작성이 가능하다! ( 과연 한 줄로 코드를 작성하는 게 더 좋을까...? ) >>완벽하게 알아야 할 자료구조 리스트 튜플 딕셔너리 >> 공부해야 할 문법들 List Comprehension / Generator Enumerate Zip Lambda Map Asterisk 예제는 여기서 확인하자 >>파이썬 답안 코드 #1. def vector_size_check(*vector_variables): return len(set([ len(vector) for vector in vector_variables])) == 1 #2. def vector_addition(*vector_variables): if vect..