Summary Function
데이터 셋에 대한 기초적인 통계량을 확인 가능하다.
DataFrame 전체에 대해 describe()를 적용시, 수치형 타입에 대해서만 기초 통계를 계산한다.
수치형 | count, mean, std, min, 25%, 50%, 75%, max |
문자형 | count, unique, top, freq |
reviews.point.describe()
count 129971.000000
mean 88.447138
...
75% 91.000000
max 100.000000
Name: points, Length: 8, dtype: float64
reviews.taster_name.describe()
count 103727
unique 19
top Roger Voss
freq 25514
Name: taster_name, dtype: object
Mapping
해당하는 열의 값들을 다른 값으로 바꾸는 것"
Mapping를 하는 방법에는 map(), apply()가 있는데
map()의 경우에는 값에 하나씩 접근하고 Series에 사용하기에 column에 사용하기 좋다.
apply()는 사용자 정의합수를 사용해 DataFrame 전체를 변환할 때 유용하다.
map()
a = 3
df.col_neme_1.map(lambda x: x-a)
apply()
axis = 'columns' (or 1): 행 기준 함수 적용
axis = 'index' (or 0): 열 기준 함수 적용
df.apply(lambda x : x+3, axis= 'columns'
+Addition
값이 가장 클 때의 index 찾는 방법 : .idxmax()
max_idx = df.col_name1.idxmax()
reviews.loc[max_idx, 'col_name2']