본문 바로가기

Pandas 공부해보기12

Pandas 4. Dataframe Object - 1 Pandas 4. Dataframe Object 개요 판다스의 Dataframe은 행과 열이 있는 2차원 데이터 테이블이다. Series와 맟나가지로 판다스는 인덱스 레이블과, 인덱스 위치를 각 Dataframe 행에 할당하고, 각 열에 레이블과 위치를 할당한다. 생성 city_data = { "City" : ["New York City", "Paris", "Barcelona", "Rome"], "Country":["United States", "France", "Spain", "Italy"], "Population":pd.Series([86000000, 2141000, 5515000, 2873000]) } cities = pd.DataFrame(city_data) cities 보통은 딕셔너리로 생성한다.. 2022. 10. 29.
Pandas 3. Series method read_csv() csv를 읽어올 때 사용합니다. index_col Series는 csv를 읽어올때 임의의 숫자 인덱스를 부여하는데, index_col 파라미터를 이용해 임의의 컬럼을 인덱스로 지정할 수 있다. pokemon = pd.read_csv("pokemon.csv", index_col="Pokemon") sqeeze() 근데 이렇게 읽어들이면 무조건 Pandas dataframe으로 읽게 된다. 왜냐하면 dataframe은 Serise의 상위개념으로, Series는 하나의 컬럼만을 가질 수 있지만 dataframe은 여러 컬럼을 가질 수 있기 때문에, 처음부터 dataframe으로 데이터를 읽게되면 확장하기도 좋기 때문이다. 따라서 처음부터 Series객체를 생성하려면 sqeeze() 를 이용.. 2022. 10. 10.
Pandas 2. Series object - 2 통계와 산술연산 Pandas 2. Series object - 2 통계와 산술연산 통계 연산용 메소드 count() count는 null 이 아닌 값의 갯수를 계산한다. sum() sum은 Series 객체가 가진 값을 모두 더한다. 이 때 결측값은 무시하는데, skipna= False 파라미터를 지정하게 되면, 결측값을 강제로 포함할 수 있다. 물론 이 경우에 계산결과는 nan 으로 노출된다. min_count= 파라미터는 계산을 실행하기 위한 최소 갯수를 지정할 수 있다. 이 min_count의 갯수를 충족하지 않으면, nan을 리턴한다. product() Series의 모든 값을 곱한다. sum() 과 마찬가지로 skipna, min_count 를 지정할 수 있다. cumsum() 누적합계를 계산한 새로운 Seri.. 2022. 10. 1.
Pandas 2. Series object - 1 Pandas 2. Series object Pandas에서 Series 클래스는 동일한 타입의 데이터만 담을 수 있고, 레이블이 있는 1차원 배열입니다. 즉, 어떠한 하나의 컬럼을 표현할 수 있는 클래스라고 할 수 있다. 여기서 레이블이란, 인덱스의 개념이고, 특별히 별도로 지정하지 않으면 숫자인덱스를 부여한다. Constructor 생성자에서 알아봐야할 것은 index 파라미터이다. Series 객체로 생성할 데이터가 만약 딕셔너리 타입이라면, Key:value 의 값중 key값이 자동으로 인덱스로 지정되지만, 다른 데이터타입이라면 숫자인덱스가 부여된다. 임의의 인덱스를 설정하고 싶다면 아래와 같이 파라미터를 지정할 수도 있다. np.nan Series 객체를 생성할 때, NaN (Not a Numbe.. 2022. 10. 1.
Pandas 1. 기본 메소드 - 컬럼에 조건식 부여하기 컬럼에 조건 부여하기 일단 어떠한 조건식을 생성하였을 때, 조건식 그 자체는 해당 열의 데이터와 일치하지 않는지를 boolean값으로 구분한 데이터를 가지고 있다. 이것은 다시 원래의 Dataframe객체에 집어넣는 것으로, 추출해낼 수 있다. 특정 컬럼에서 특정값만 뽑아내기 예를들어서, 전체 영화목록 중에서, 스튜디오가 유니버셜인 영화만 찾아내고 싶을 때. movies[movies["Studio"] == "Universal"] 이것을 별도의 변수로 뽑아내어 사용할 수도 있다. a = movies["Studio"] == "Universal" movies[a] AND 조건 두 개 이상의 조건에 만족하는 데이터를 찾고 싶을 때. 영화제작사가 유니버셜이면서, 제작연도가 2015인 영화 목록만을 찾는다고 한다면.. 2022. 9. 25.
Pandas 1. 기본 메소드 - 컬럼의 갯수 세기 value_count SQL로 따지면 SELECT COUNT(n 와 같은 그런 것이겠습니다. value_count() 데이터프레임 객체는 단일 열을 Series 객체로 추출해볼 수 있습니다. 2022. 9. 25.
Pandas 1. 기본 메소드 - Dataframe의 각종 크기와 컬럼의 속성 확인하기 기본적으로 파이썬의 len() 을 이용하면, 데이터의 행의 갯수를 구할 수 있긴 합니다. shape shape 는 행과 열의 갯수를 튜플로 반환합니다. 데이터프레임의 모양을 구한다~ 로 이해하면 더 쉬울 것 같습니다. size size 를 이용하면 총 셀의 개수를 구할 수 있습니다. dtypes dtypes 은 컬럼의 속성을 확인할 수 있습니다. 2022. 9. 25.
Pandas 1. 기본 메소드 - iloc과 loc Pandas의 Dataframe 객체의 핵심이라고 생각하는 두 개의 메소드입니다. 이것만 잘 다루어도 꽤나 유용하다고 생각합니다. iloc iloc은 지정한 위치의 row를 column으로 바꾸어 보여줍니다. 객체는 Series 객체가 반환됩니다. 가령, 제일 첫번째의 데이터를 출력한다고 가정해봅시다. 이것을 iloc 으로 노출한다고 하면, 위와 같이 될 것입니다. 즉, 행과 열이 뒤바뀝 니다. 지정 방법으로는 배열을 지정하듯이 지정하며, 제일 첫번째 값은 0부터 시작입니다. loc 똑같은 Series 객체를 반환하지만, 반면에 row 인덱스 컬럼값을 지정할 수 있습니다. 중복된 인덱스를 가진 데이터가 있다면, 중복된 채로 보여줍니다. 데이터프레임은 기본적으로 데이터의 중복을 허용합니다. 2022. 9. 25.
Pandas 1. 기본 메소드 - head, tail head head() 는 데이터프레임의 제일 앞의 n개의 데이터를 받아옵니다. tail 반대로 tail() 은 데이터프레임의 제일 뒤의 n개의 데이터를 받아옵니다. 두 메소드 모두 숫자를 지정해주지 않으면 기본 5개가 출력됩니다. 2022. 9. 25.
반응형