본문 바로가기
Pandas 공부해보기

Pandas 2. Series object - 2 통계와 산술연산

by 유티끌 2022. 10. 1.

Pandas 2. Series object - 2 통계와 산술연산

통계 연산용 메소드

count()

count는 null 이 아닌 값의 갯수를 계산한다.

sum()

sum은 Series 객체가 가진 값을 모두 더한다. 이 때 결측값은 무시하는데, skipna= False 파라미터를 지정하게 되면, 결측값을 강제로 포함할 수 있다.
물론 이 경우에 계산결과는 nan 으로 노출된다.

min_count= 파라미터는 계산을 실행하기 위한 최소 갯수를 지정할 수 있다. 이 min_count의 갯수를 충족하지 않으면, nan을 리턴한다.

product()

Series의 모든 값을 곱한다. sum() 과 마찬가지로 skipna, min_count 를 지정할 수 있다.

cumsum()

누적합계를 계산한 새로운 Series 객체를 반환한다.
skipnaFalse 를 지정한다면, 결측값이 있는 부분까지만 계산하고, 결측값을 포함한 그 이후로는 전부 NaN 처리한다.

pct_change()

변동비율, 즉 증감율을 계산한다. 단, 결측값이 있는 위치는, 결측값 이전의 정상값을 기준으로 대체하여 계산한다. ( 마지막으로 유효했던 값)

결측값 이전의 정상값이 아니라, 결측값 다음의 정상값으로 대체하기 위해서는 fill_method= "bfill" 파라미터를 전달한다.

mean()

평균값을 반환한다.

median()

정렬된 Series 객체의 데이터에서 가운데 값 즉, 중앙값을 반환한다.

std()

표준편차를 반환한다.

max(), min()

최대값과 최소값을 구한다.
굳이 숫자가 아니라 문자값을 가진 객체에 대해서도 적용이 가능하다. Series는 문자열을 알파벳순으로 정렬한다.

describe()

갯수, 평균, 표준편차, 최댓값, 최소값 밑 각 분위별 값을 한번에 보여줍니다.

sample()

Series 객체가 가진 데이터값에서 임의의 값을 선택한다.

unique()

고유한 값의 넘파이 ndarray를 반환한다.
고유한 값이란, 즉 중복이 있는 데이터가 있다면 하나로 합쳐서 중복이 없는 상태의 데이터를 의미한다.

nunique()

고유한 값의 개수를 리턴한다.

산술 연산용 메소드

Series 객체에 산술연산을 하게 되면, 해당 객체가 가진 모든 데이터에 일괄적으로 적용된다.

s1 = pd.Series(
    data= [5, np.nan, 15],
    index=["A", "B","C"]
)

s1 + 3

하게되면은, 8, nan, 18 이 출력된다. 계산을 하여도 결측값은 그냥 결측값일 뿐이다.

메소드도 있다.

  • add()
  • sub()
  • mul() / multiply()
  • div() / divide()

floordiv()

나누기를 수행하고, 결과에서 소수점 이하는 버린다.

mod()

나눗셈의 나머지를 반환한다.

브로드캐스팅

한 배열의 값을 다른 배열로 파생시키는 것. 여러 Series 객체 사이의 수학적 연산.

 

반응형

댓글