본문 바로가기

판다스10

Pandas 3. Series method read_csv() csv를 읽어올 때 사용합니다. index_col Series는 csv를 읽어올때 임의의 숫자 인덱스를 부여하는데, index_col 파라미터를 이용해 임의의 컬럼을 인덱스로 지정할 수 있다. pokemon = pd.read_csv("pokemon.csv", index_col="Pokemon") sqeeze() 근데 이렇게 읽어들이면 무조건 Pandas dataframe으로 읽게 된다. 왜냐하면 dataframe은 Serise의 상위개념으로, Series는 하나의 컬럼만을 가질 수 있지만 dataframe은 여러 컬럼을 가질 수 있기 때문에, 처음부터 dataframe으로 데이터를 읽게되면 확장하기도 좋기 때문이다. 따라서 처음부터 Series객체를 생성하려면 sqeeze() 를 이용.. 2022. 10. 10.

Pandas 2. Series object - 2 통계와 산술연산 Pandas 2. Series object - 2 통계와 산술연산 통계 연산용 메소드 count() count는 null 이 아닌 값의 갯수를 계산한다. sum() sum은 Series 객체가 가진 값을 모두 더한다. 이 때 결측값은 무시하는데, skipna= False 파라미터를 지정하게 되면, 결측값을 강제로 포함할 수 있다. 물론 이 경우에 계산결과는 nan 으로 노출된다. min_count= 파라미터는 계산을 실행하기 위한 최소 갯수를 지정할 수 있다. 이 min_count의 갯수를 충족하지 않으면, nan을 리턴한다. product() Series의 모든 값을 곱한다. sum() 과 마찬가지로 skipna, min_count 를 지정할 수 있다. cumsum() 누적합계를 계산한 새로운 Seri.. 2022. 10. 1.

Pandas 2. Series object - 1 Pandas 2. Series object Pandas에서 Series 클래스는 동일한 타입의 데이터만 담을 수 있고, 레이블이 있는 1차원 배열입니다. 즉, 어떠한 하나의 컬럼을 표현할 수 있는 클래스라고 할 수 있다. 여기서 레이블이란, 인덱스의 개념이고, 특별히 별도로 지정하지 않으면 숫자인덱스를 부여한다. Constructor 생성자에서 알아봐야할 것은 index 파라미터이다. Series 객체로 생성할 데이터가 만약 딕셔너리 타입이라면, Key:value 의 값중 key값이 자동으로 인덱스로 지정되지만, 다른 데이터타입이라면 숫자인덱스가 부여된다. 임의의 인덱스를 설정하고 싶다면 아래와 같이 파라미터를 지정할 수도 있다. np.nan Series 객체를 생성할 때, NaN (Not a Numbe.. 2022. 10. 1.

Pandas 1. 기본 메소드 - 컬럼에 조건식 부여하기 컬럼에 조건 부여하기 일단 어떠한 조건식을 생성하였을 때, 조건식 그 자체는 해당 열의 데이터와 일치하지 않는지를 boolean값으로 구분한 데이터를 가지고 있다. 이것은 다시 원래의 Dataframe객체에 집어넣는 것으로, 추출해낼 수 있다. 특정 컬럼에서 특정값만 뽑아내기 예를들어서, 전체 영화목록 중에서, 스튜디오가 유니버셜인 영화만 찾아내고 싶을 때. movies[movies["Studio"] == "Universal"] 이것을 별도의 변수로 뽑아내어 사용할 수도 있다. a = movies["Studio"] == "Universal" movies[a] AND 조건 두 개 이상의 조건에 만족하는 데이터를 찾고 싶을 때. 영화제작사가 유니버셜이면서, 제작연도가 2015인 영화 목록만을 찾는다고 한다면.. 2022. 9. 25.

Pandas 1. 기본 메소드 - 컬럼의 갯수 세기 value_count SQL로 따지면 SELECT COUNT(n 와 같은 그런 것이겠습니다. value_count() 데이터프레임 객체는 단일 열을 Series 객체로 추출해볼 수 있습니다. 2022. 9. 25.

Pandas 1. 기본 메소드 - Dataframe의 각종 크기와 컬럼의 속성 확인하기 기본적으로 파이썬의 len() 을 이용하면, 데이터의 행의 갯수를 구할 수 있긴 합니다. shape shape 는 행과 열의 갯수를 튜플로 반환합니다. 데이터프레임의 모양을 구한다~ 로 이해하면 더 쉬울 것 같습니다. size size 를 이용하면 총 셀의 개수를 구할 수 있습니다. dtypes dtypes 은 컬럼의 속성을 확인할 수 있습니다. 2022. 9. 25.

Pandas 1. 기본 메소드 - iloc과 loc Pandas의 Dataframe 객체의 핵심이라고 생각하는 두 개의 메소드입니다. 이것만 잘 다루어도 꽤나 유용하다고 생각합니다. iloc iloc은 지정한 위치의 row를 column으로 바꾸어 보여줍니다. 객체는 Series 객체가 반환됩니다. 가령, 제일 첫번째의 데이터를 출력한다고 가정해봅시다. 이것을 iloc 으로 노출한다고 하면, 위와 같이 될 것입니다. 즉, 행과 열이 뒤바뀝 니다. 지정 방법으로는 배열을 지정하듯이 지정하며, 제일 첫번째 값은 0부터 시작입니다. loc 똑같은 Series 객체를 반환하지만, 반면에 row 인덱스 컬럼값을 지정할 수 있습니다. 중복된 인덱스를 가진 데이터가 있다면, 중복된 채로 보여줍니다. 데이터프레임은 기본적으로 데이터의 중복을 허용합니다. 2022. 9. 25.

Pandas 1. 기본 메소드 - head, tail head head() 는 데이터프레임의 제일 앞의 n개의 데이터를 받아옵니다. tail 반대로 tail() 은 데이터프레임의 제일 뒤의 n개의 데이터를 받아옵니다. 두 메소드 모두 숫자를 지정해주지 않으면 기본 5개가 출력됩니다. 2022. 9. 25.

Pandas 1. 기본 메소드 - read_csv 및 Index 컬럼 변경해보기 read_csv 판다스는 어떠한 파일을 읽어들이는 많은 방법들을 서포트하고 있습니다만, 그 중에서도 많이 쓰이는 것이 CSV파일 일 것 입니다. CSV파일을 읽어들일때는 아래와 같이 합니다. 기본적인 데이터들 말고, 제일 앞에 Index 컬럼이 존재하게 됩니다. 인덱스 컬럼은 0부터 시작합니다. 근데, 이렇게 기본적인 인덱스 컬럼말고, 임의의 컬럼을 인덱스컬럼으로 사용하고자 합니다. 예를 들어 Title 컬럼을 사용해볼까요? 이렇게 index_col 이라는 파라미터를 추가로 부여해서 인덱스컬럼을 바꿀 수 있습니다. 2022. 9. 25.

이전 1 2 다음

티스토리툴바