[머신러닝을 위한 파이썬] 3. pandas 활용 예제

>> 완벽하게 알아야 하는 자료구조

Series
DataFrame

>> 알아야하는 문법

파일 읽어오기, 저장하기
Series 생성방법
DataFrame 생성방법
DataFrame Col : 추가, 삭제, 이름변경, 새로운 데이터 할당, 선택적 불러오기
loc / iloc
Index 변경 (KEY 값 변경)
Data drop
Operation, BroadCasting
inplace, map, apply
decribe, unique
Groupby & CrossTab & Pivat Table
Gierarchical Index
Aggregation
Transformation
Merge & Concat
Join

1번과 2번 예제 설명은 여기를 참고

총 3개의 예제가 있다!

#1. 답안코드

# 첫번째 방법 : groupby
def get_rating_matrix(filename):

    # 윈도우 \, 그 외 os에서는 /
    df = pd.read_csv('.\\'+filename)
    
    return df.groupby(['target','source'])['rating'].first().unstack(fill_value = 0)
    
# 두번째 방법 : crosstab    
def get_rating_matrix(filename):

    # 윈도우 \, 그 외 os에서는 /
    df = pd.read_csv('.\\'+filename)
    
    return pd.crosstab(index=df.target,columns=df.source,values=df.rating,aggfunc='sum').fillna(0)

#2. 답안코드

def get_frequent_matrix(filename):

    # 윈도우 \, 그 외 os에서는 /
    df = pd.read_csv('.\\'+filename)
    df['rating'] = 1 
    
    # groupby도 가능하다!
    return pd.crosstab(index = df.source,columns=df.target,values=df.rating,aggfunc='sum')

#3. 답안코드

import numpy as np
import pandas as pd

# 1번
def createarr(row,col,mean,std):
   return  np.random.normal(mean,std,row*col).reshape(row,col)

# 2번
df = pd.read_csv("./01-23-2020.csv")

# 3번
def confirmed():
    return df.groupby('Country/Region')['Confirmed'].sum()
    
# 4번    
def confirmed():
    result = pd.DataFrame()
    result['01-23-2020'] = df.groupby('Country/Region')['Confirmed'].sum().sort_values(ascending = False)
    
    
    return result
    
# 5번   
def get_wuhan_confirmed(time):
    df = pd.read_csv('.\\' + time + '.csv')
    result = pd.DataFrame()
    result[time] = df.groupby('Country/Region')['Confirmed'].sum().sort_values(ascending = False)
    return result

# 6번
def merge(x,y):
    data1 = get_wuhan_confirmed(x)
    data2 = get_wuhan_confirmed(y)
    result = pd.merge(data1,data2,on ='Country/Region',how='outer').fillna(0) 
    result['확진자 증가 수'] = result[y] - result[x]
    return result

'Python > 데이터 분석 기초' 카테고리의 다른 글

Kaggle - [House Prices] 집값 예측 모델링 후기 (0)	2021.06.06
Multiple Linear Regression 정리 + 느낌 (0)	2021.03.29
[머신러닝을 위한 파이썬] 2. numpy 활용 예제 (0)	2021.03.18
[머신러닝을 위한 파이썬] 1.행렬 연산 구현해보기 (0)	2021.03.18

'Python > 데이터 분석 기초' 카테고리의 다른 글

티스토리툴바