'데이터분석' 태그의 글 목록

셀레나님의 스터디 가이드 일정표에 다음과 같이 되어있다.

- 8주차: 부족한 부분 복습 또는 배운 내용을 활용해 새로운 캐글 데이터셋 분석

제일 어려운 "자율학습" ... 😅

0. Kaggle Dataset

그래서 찾아본 캐글 데이터는 다음과 같다.

- https://www.kaggle.com/datasets/undefinenull/million-song-dataset-spotify-lastfm

너무 흔한 데이터셋 말고 새로운 것으로 해서 결측치 등을 포함한 데이터셋 찾는 것도

막상 찾아보려고 하니 쉽지 않았다 ^^

위에 찾은 것은 "음악 추천 시스템 데이터셋"으로

사용자와 음악 트랙 간의 상호작용 데이터를 활용하여 개인화된 음악 추천 시스템을 구축할 수 있는 데이터셋이라고 한다.

1. 데이터 다운로드

kaggle 데이터 다운로드 받는 것도 해보자.

2. 데이터프레임

다운로드 받은 데이터셋을 가볍게 살펴보자.

데이터의 실제 모습을 살펴보려 했는데, 컬럼이 많아서 한 눈에 잘 보이지는 않는다 😅

3. 결측치 처리

info() 정보에서 보이는 것처럼 2개 column에만 결측치가 있는 것으로 보이는데,

직접 한 번 확인해보자.

데이터들이 어떤 모습인지 한 번 살펴보자.

genre의 경우 50%가 훨씬 넘는 비율을 갖기에 해당 column을 삭제하면 좋겠는데,

정말 삭제해도 되는지를 고민해봐야 하는데...

잘 모르는 상황에서도 가만히 보면 tags를 가지고 genre를 대체할 수 있을 것으로 보인다.

반면, tags의 경우에는 2.22% 비율의 결측치만 있으므로, 해당 row에 대해서 drop을 하는 것으로 하자.

맞겠지만 그래도 혹시 모르니 확인을 해보자.

4. 컬럼 분리

tags 부분을 보면 여러 데이터가 ", "으로 묶여서 표현되어 있는 것을 볼 수 있다.

이것을 One-Hot-Encoding 방식처럼 분리를 해보자.

좀 더 분석해보고 했어야 했는데, 그냥 해보다보니 tags 의 개별 아이템 개수가 엄청 많았다.

덕분에(?) 전체 column의 개수가 120개가 되었다.

5. 통계

도메인 지식이 미천하다보니.... 😥

음악 분류에 따라 뭔가 수치들이 달리 나오지 않을까 추정해본다.

6. 그래프

뭔가 다양하게 분석을 해봐야할 것 같은데,

일단 생각나는대로 하나 집어서 그래프를 그려봤다.

원하는 그래프는 아니지만, 그래도 ...

음... ChatGPT한테 일을 많이 시켜봐야겠다.

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[한빛미디어] 혼자 공부하는 머신러닝 + 딥러닝 (개정판) (3)	2025.05.18
[한빛미디어] NLP와 LLM 실전 가이드 (4)	2025.03.23
[파이썬 데이터 분석가 되기] 07 - PRJ: Medical (0)	2025.03.02
[한빛미디어] 밑바닥부터 시작하는 딥러닝 1 (Deel Learning from Scratch 1) - 리마스터판 (1)	2025.02.27
[파이썬 데이터 분석가 되기] 06 - PRJ: Netflix (0)	2025.02.23

드디어 마지막 챕터까지 왔다.

힘들었지만, 그래도 주말마다 꼬박 꼬박 해냈다.

07장 의료 데이터 분석 프로젝트

앞서 했던 "넷플릭스 데이터 분석 프로젝트"와 유사한 방식으로 진행하면 될 것 같다.

① 의료 데이터 분석 프로젝트 소개

② 의료 데이터셋 파악하기

③ 심부전 데이터셋 필터링하기

④ 심부전 데이터셋 결측치 처리하기

⑤ 심부전 데이터셋 통계 처리하기

⑥ 심부전 데이터셋 시각화하기

① 의료 데이터 분석 프로젝트 소개

앞서 진행한 넷플릭스 데이터 분석과 대부분 유사하게 진행되고

차이가 있다면 "logical indexing" 부분에 조금 더 중심을 두고 진행하는 것이라고 한다.

② 의료 데이터셋 파악하기

교재에서는 자세한 설명이 없었지만, 찾아보니 아래 데이터인 것 같다.

- https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction

직접 다운로드 받아보자.

다운로드 받은 CSV 파일을 데이터프레임으로 읽어오자.

샘플 데이터를 살펴보자.

각 columns 의미는 다음과 같다.

그런데, 교재의 데이터와는 좀 차이가 있는 것 같다.

교재에서 제공하는 데이터를 보면 일부 column에서 결측치 값이 보이는데,

Kaggle에서 내려받은 데이터에서는 결측치 값이 안보인다.

아쉽지만, 교재에서 제공받은 파일을 업로드해서 사용해야겠다.

③ 심부전 데이터셋 필터링하기

심장병 여부를 나타내는 'HeartDisease' 컬럼 데이터를 살펴보자.

결측치 값도 보이고, 0.0/1.0 데이터도 보인다.

값이 '1.0'인 데이터를 True (심장병 맞음) 로 판단하면 된다.

간단히 실습해보자.

④ 심부전 데이터셋 결측치 처리하기

결측치 값들이 얼마나 되는지 살펴보자.

그다지 큰 비율은 아니지만, 그래도 처리를 해줘야 한다.

책의 저자와는 다른 개인적인 취향으로 별도의 데이터프레임을 만들어서 작업을 진행했다.

앞서 해봤던 넷플릭스 데이터 분석과 거의 유사한 과정이다.

이렇게 진행한 결과는 다음과 같다.

⑤ 심부전 데이터셋 통계 처리하기

데이터프레임에서는 여러 통계량을 손쉽게 구할 수 있도록 다양한 함수를 제공해준다.

groupby()를 이용해서 그룹별 통계값들을 구할 수도 있다.

⑥ 심부전 데이터셋 시각화하기

여기에서 사용할 팔레트를 설정해보자.

흉통 유형을 카테고리화 한 다음 개수를 세고, 이를 파이 차트로 표현해보자.

심부전 빈도 그래프를 그려보자.

심부전증이 있을 때와 없을 때 ASY(무증상)가 압도적인지 살펴보기 바란다.

나이에 따른 HeartDisease 데이터를 한 번 살펴보자

이렇게 구한 값을 가지고 나이에 따른 심부전 여부를 살펴볼 수 있는 그래프를 그려보자.

심부전 범주형 산점도 그래프를 그려보자.

워드 클라우드도 하나 만들어보자.

예쁘게 하트 모양으로 그려졌다.

여기까지 해서 책을 한 번 살펴봤다.

추후 한 번 다시 복습하면서 곱씹어봐야겠다 ^^

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[한빛미디어] NLP와 LLM 실전 가이드 (4)	2025.03.23
[파이썬 데이터 분석가 되기] 08 - Homework (1)	2025.03.10
[한빛미디어] 밑바닥부터 시작하는 딥러닝 1 (Deel Learning from Scratch 1) - 리마스터판 (1)	2025.02.27
[파이썬 데이터 분석가 되기] 06 - PRJ: Netflix (0)	2025.02.23
[파이썬 데이터 분석가 되기] 05 - BeautifulSoup (0)	2025.02.16

이번에 공부할 것은 'Netflix Dataset'을 가지고 데이터 전처리 및 시각화를 알아보는 과정이다.

지난 포스팅에서부터 계속 말하지만,

교재를 기준으로 공부를 하긴 하지만 개인적으로 처음하는 공부는 아니기에

개인적 취향에 맞춰 필요한 부분만 정리하고 있다.

이번 스터디는 아래와 같은 순서로 공부해보도록 하겠다.

⑴ 넷플릭스 데이터 분석 프로젝트 소개

⑵ 넷플릭스 데이터셋 파악하기

⑶ Missing Value Handling

⑷ Feature Engineering

⑸ Visualization

⑴ 넷플릭스 데이터 분석 프로젝트 소개

넷플릭스의 데이터를 빠르게 살펴보고, 전처리를 수행한 다음 다양한 시각으로 데이터 분석을 하여

여러 인사이트를 도출해보는 프로젝트를 수행해보겠다.

데이터 시각화를 할 때에는 분석하는 데이터와 관련된 색상을 활용하면 완성도를 더 올릴 수 있다.

- https://www.color-hex.com/color-palette/22942

⑵ 넷플릭스 데이터셋 다운로드

캐글에 등록되어 있는 넷플릭스의 영화 및 티비쇼 8000편 정보의 데이터셋을 활용하고자 한다.

- https://www.kaggle.com/datasets/shivamb/netflix-shows

캐글에서 공개된 데이터는 Python으로도 다운로드를 받을 수 있다.

이렇게 내려 받은 파일을 pandas로 간단하게 읽어올 수도 있다.

실제 데이터를 확인해보면 다음과 같다.

각 columns 의미는 교재에 너무 잘 정리되어 있다.

⑶ Missing Value Handling

▷ 결측치 비율 別 처리 가이드

- 결측치가 데이터의 5% 미만이라면 → 행 삭제

- 결측치가 데이터의 5~20% 사이라면 → 대체

- 결측치가 데이터의 20% 이상이라면 → 열 삭제 권장

".info()"를 통해 간략하게 결측치 현황을 파악할 수 있긴 하지만, 정확한 비율을 다시 한 번 확인해보자.

교재에서는 원본 데이터(df)를 직접 수정하는 것을 권고하지만, 개인적인 취향으로 .copy()하여 작업하도록 하겠다.

값 대체할 것 대체하고, 행 삭제할 것 삭제한 뒤의 현황을 보면 다음과 같다.

8807개였던 데이터가 8790개로 변한 것을 확인할 수 있다.

그리고, 결측치도 모두 처리된 것을 볼 수 있다.

⑷ Feature Engineering

'rating' column은 '넷플릭스 등급 표시'를 해주고 있다.

즉, 일반적인 string 데이터가 아니라 category 형태로 그룹핑을 할 수가 있는 것이다.

- https://www.primevideo.com/help/ref=atv_hp_nd_cnt?nodeId=GFGQU3WYEG6FSJFJ

미국의 등급 시스템을 기준으로 묶어주면 되는데, 'age_group' 명칭의 column으로 생성해보도록 하겠다.

매핑하기 위한 딕셔너리를 작성하고, map()을 돌리면 잘 분류되어 값이 추가된 것을 볼 수 있다.

지금까지 작업한 내역들을 CSV 파일로 저장까지 하면서 일단 마무리 해보자.

⑸ Visualization

Graph를 그릴 기본 준비를 해보자.

원하는 정보를 검색하는 것을 해보자.

이번에는 'type' column의 내역을 한 번 살펴보자.

해당 데이터를 가지고 파이 차트를 그려보자.

이번에는 장르 정보를 담고 있는 'listed_in' column을 살펴보자.

여러 장르에 속하는 경우 ", "로 여러 항목이 나열되어 있는 것을 볼 수 있다.

", "로 split을 하는데 'expand=True' 옵션이기에 column을 확장한다.

그런다음 다시 'stack()'으로 세로 방향으로 변환(column 하나로 합치기)해서 value_counts() 한다.

이제 막대 그래프로 그려보자.

이 그래프를 보고 얻을 수 있는 인사이트는 다음과 같다고 한다.

"넷플릭스는 드라마와 국제 영화에 집중하고 있습니다. 글로벌한 콘텐츠 제공과 깊이 있는 스토리 라인으로 시청자들의 다양한 취향을 만족시키려 하려는 것 같습니다. 또한, 다양한 영화 장르의 제공을 통해 시청자들에게 보다 풍부한 선택지를 제공합니다. 정리하자면, 넷플릭스의 전략은 장르 다양성과 글로벌 사용자들의 요구를 동시에 충족시키기 위한 방향으로 나아가고 있음을 알 수 있습니다."

이번에는 나이 그룹별 국가별 콘텐츠를 살펴보자.

'country' column의 경우에도 ', '로 구분된 여러 나라가 입력되어 있음을 알 수 있다.

일단, split() 해보자.

pandas의 옵션을 설정하는 기능을 활용해서 출력 값의 개수 제한을 풀어봤다. (유용해 보이지는 않는다)

list 형태로 되어있는 'country' column을 기준으로 row를 분리해보자.

7번 index를 보면 row가 분리된 것을 확인할 수 있다.

더 자세히 살펴보자.

각 연령대별로 국가의 개수를 count하고 이를 표 형태로 살펴보자.

'.groupby('age_group')' 연령대로 그룹핑을 하고, '['country'].value_counts()' 국가의 개수를 센 뒤, '.unstack()'를 통해 세로로 정리된 데이터를 가로 형태로 변환을 했다.

우리가 사용할 항목들만 선별해서 정리해보자.

결측치 값이 보인다. 0으로 채우자.

지금 보이는 값으로는 서로간의 값 비교를 하기가 쉽지 않다.

비율로 값들을 변경해보자.

'.sum(axis=0)'을 통해 각 열의 합을 계산함 → 국가별 sum() 값을 구함

'.div(..., axis=1)'을 통해 각 연령대듸 값들을 국가(column)의 총합으로 나누어 비율을 계산

지금까지 진행한 내용을 가지고 히트맵을 그려보자.

위 그래프를 보고 얻을 수 있는 인사트는 다음과 같다고 한다.

"United States/Canada는 모든 나이 그룹에서 골고루 이용자를 가지고 있기에 넷플릭스가 다양한 연령층에 걸쳐 널리 사용되고 있음을 나타내고 있다. 그리고 모든 국가에서 성인 이용자가 가장 많은데, 이는 넷플릭스의 콘텐츠가 성인들의 관심사와 취향을 충족시키는 데 중점을 두고 있다는 것을 보여준다. 성인층의 높은 비율은 넷플릭스의 다양한 장르와 깊이 있는 콘텐츠가 성인 이용자들에게 특히 매력적임을 시사한다. 한편 India/Japan은 Older Kids의 비율이 꽤 높은데 이는 해당 국가들에서 넷플릭스가 어린이와 가족 단위의 콘텐츠를 많이 제공하고 있음을 나타낸다. 이러한 결과는 각국의 문화적 특성과 콘텐츠 선호도가 넷플릭스 이용 패턴에 영향을 미친다는 것을 시사한다. 이러한 분석을 통해 넷플릭스는 각 국가별로 이용자의 연령대에 맞춘 컨텐츠와 교육적인 프로그램을 강화할 수 있으며, 성인 비율이 높은 국가에서는 성인 대상의 드라마/영화/다큐멘터리 등을 더욱 강조할 수 있다."

이번에는 워드 클라우드를 한 번 그려보도록 하자.

일단 넷플릭스 로그 이미지를 확보하자.

- https://en.m.wikipedia.org/wiki/File:Netflix_2015_logo.svg

사이트에서 보이는 저 로고를 다운로드 받아봤다.

PNG 파일을 JPG 파일로 변환을 했고,

투명한 배경을 검은색이 아닌 하얀색으로 나오도록 하기 위해서 중간에 하얀색 그림을 그려서 합치도록 했다.

저 글씨 모양으로 wordcloud가 나오도록 하려는 것이다.

이제 본격적으로 wordcloud를 그려보자.

정보를 보기에 좋은 방식은 아니지만, 재미있게 표현한 결과는 다음과 같다.

지금까지 CSV 데이터 파일을 읽어들여서 결측치 값들을 적절히 처리하고

category화 할 수 있는 것들을 가공하면서 feature engineering을 한 뒤에

이를 여러 Graph로 visualization해서 인사이트를 살펴보는 과정을 해봤다.

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[파이썬 데이터 분석가 되기] 07 - PRJ: Medical (0)	2025.03.02
[한빛미디어] 밑바닥부터 시작하는 딥러닝 1 (Deel Learning from Scratch 1) - 리마스터판 (1)	2025.02.27
[파이썬 데이터 분석가 되기] 05 - BeautifulSoup (0)	2025.02.16
[파이썬 데이터 분석가 되기] 04 - Seaborn (0)	2025.02.08
[한빛미디어] '나는리뷰어다2025' 선정 (0)	2025.02.01

이번에는 웹 데이터를 수집하는 것에 대해서 알아보는 챕터이다.

1. robots.txt

- 웹 사이트를 크롤링하는 것은 불법의 여지가 있으며, 피해를 줄 수도 있음

- 최소한 해당 사이트의 robots.txt 파일을 참고해서 제약 사항들을 잘 지켜주는 것이 중요함

- 이번 실습에서 활용할 야후 파이낸스 사이트의 robots.txt 파일 내용 확인

. https://finance.yahoo.com/robots.txt

. User-agent: 크롤러 식별

. Disallow: 크롤링 금지 디렉토리/페이지 지정

. Allow (Disallow 함께 사용): 크롤링 허용 디렉토리/페이지 지정

. Sitemap: 사이트 맵 파일의 위치를 지정

2. BeautifulSoup

- HTML/XML 문서의 구문을 분석하기 위한 파이썬 패키지

- 2004년 발표 후 현재(25년 2월 16일) 기준 v4.13.2 버전까지 출시 → bs4

. https://www.crummy.com/software/BeautifulSoup/

3. CSS Selector

- CSS(Cascading Style Sheets)에서 사용되는 선택자(Selector)를 활용해 HTML 요소를 선택하는 방법

- 이 때 사용할 수 있는 여러 종류의 Selector가 있다.

① Class Selector

② Child Selector

③ ID Selector

- Selector와 별도로 그냥 텍스트만 추출할 수도 있음

. 자동으로 좌우 공백들은 제외해서 추출함

4. find() / find_all()

- CSS Selector도 충분히 좋은 방법이지만, find() / find_all() 을 이용해서도 원하는 것을 얻을 수 있다.

① Class

② Tag

③ ID

5. Web

- 이번 실습에서 사용할 야후 파이넌스 사이트에 접속을 해보자.

. https://finance.yahoo.com/

- 'Samsung Enecltronics'를 검색해서 들어가고, 왼쪽 메뉴의 'Historical Data'를 선택하자.

. https://finance.yahoo.com/quote/005930.KS/history/

- 그러면, 이제 Python으로 사이트 정보를 읽어와보자.

- 어?! 읽어오지 못한다. 그런데 왠 "Too Many Requests" ????

. 책에서는 404 에러가 발생한다고 했는데, 나는 매번 429 에러가 발생을 했다.

6. Header

- 내가 웹브라우저로 접근하는 것처럼 해야 접속이 될 것 같다.

- F12 눌러서 개발자 도구 열고 → 상단 메뉴 中 '네트워크' 선택 → F5 눌러서 사이트 리프레쉬 → "요청 헤더" 확인

- 'User-Agent' / 'accept' 2개 정보를 copy해서 넣어보자.

- 성공적이다 !!!

7. Parse

- 내가 읽어오기 원하는 정보가 있는 곳에서 마우스 오른쪽 버튼 클릭 → '검사' 선택

- 그러면, 개발자 모드 화면에 HTML Tag 코드 확인 가능

- 잘 살펴보면 특정 row를 읽어오면 될텐데, '<tr>' 태그로 되어 있는 것을 볼 수 있다.

- find_all() 사용하면 상당히 많은 내용이 잡히기 때문에, 출력은 일부분만 하도록 했다.

- 좀 더 구체적으로 원하는 정보를 찾아내기 위해서, class 값을 얻어오고 활용하는 것을 해보자.

8. Pretty Print

- 하나의 row에는 7개의 column으로 구성되었다는 것을 알고 있으니, 이를 이용해서 예쁘게 출력을 해보자.

- 사실 이런식으로 처리하는 것은 위험 부담이 크다.

. 아래와 같은 예외 데이터가 있을 확률이 아주 높기 때문이다.

9. Graph

- Matplotlib을 이용해서 그래프를 그려보자.

. date는 일반적인 날짜 형태로 바꿔주는 것이 좋다

. price는 integer 형태로 바꿔줘야 한다.

10. Pandas

- BeautifulSoup 대신에 pandas를 이용할 수도 있다.

. 하지만, 내부적으로는 BeautifulSoup 및 lxml 라이브러리를 이용한다.

간만에 다시 한 번 찬찬히 살펴볼 수 있어서 좋았다!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[한빛미디어] 밑바닥부터 시작하는 딥러닝 1 (Deel Learning from Scratch 1) - 리마스터판 (1)	2025.02.27
[파이썬 데이터 분석가 되기] 06 - PRJ: Netflix (0)	2025.02.23
[파이썬 데이터 분석가 되기] 04 - Seaborn (0)	2025.02.08
[한빛미디어] '나는리뷰어다2025' 선정 (0)	2025.02.01
[파이썬 데이터 분석가 되기] 03 - Matplotlib (0)	2025.02.01

(우쒸 !!! 포스팅 날짜를 보면 알 수도 있겠지만... 작성하던 내용을 날려먹었다 ㅠㅠ 😢 다시 작성하려니 ㅠㅠ)

지난 번에 살펴본 03장 Matplotlib 과 짝꿍으로 사용되는 seaborn 이라는 시각화 라이브러리에 대해 공부해보자.

개인적으로는 좀 더 예쁜 그래프가 필요할 때 seaborn을 사용하곤 했다 ^^

- https://seaborn.pydata.org/

1. 내장 데이터셋

pandas처럼 seaborn도 공부를 위한 내장 데이터셋을 제공해준다.

데이터셋을 불러와보자.

불러온 데이터셋은 pandas의 DataFrame 타입이기 때문에,

앞에서 공부한 pandas의 다양한 기능들을 그대로 사용할 수 있다.

제공해주는 데이터셋의 종류는 교재에서 너무나 잘 정리해주고 있다.

2. Graph

seaborn에서 제공해주는 그래프 유형은 다음과 같다.

- https://seaborn.pydata.org/examples/

전부 살펴볼 수는 없으니,

교재에서는 6종 그래프를 기준으로 설명을 해주고 있다.

① 범주형 변수 산점도 그래프

② 빈도 그래프

③ 선형 회귀선 있는 산점도

④ 히스토그램과 커널 밀도 추정 그래프

⑤ 조인트 그래프

⑥ 관계 그래프

하나씩 살펴보자.

① 범주형 변수 산점도 그래프: stripplot() / swarmplot()

연속형(Continuous) 변수가 아닌 범주형(Categorical) 변수를 위한 그래프 유형이다.

출력되는 그래프는 다음과 같다.

두 그래프는 거의 유사하지만,

swarmplot()의 경우 데이터 포인트가 겹치지 않도록 적절한 위치에 배치해준다는 차이가 있다.

② 빈도 그래프: countplot()

이번 그래프 역시 범주형(Categorical) 변수를 위한 것이다.

③ 선형 회귀선 있는 산점도: regplot()

이번에는 연속형(Continuous) 변수를 위한 것이다.

그리고 특히 두 변수 간의 선형 관계를 시각화하는 데 사용하는 그래프이다.

파악하기 어려운 파라미터가 보인다.

- scatter_kws: 산점도의 점 스타일을 지정

- line_kws: 회귀선의 스타일을 지정

- fit_reg: False로 설정하면 산점도를 그리지 않고 회귀선만 그린다.

④ 히스토그램과 커널 밀도 추정 그래프: histplot()

개인적인 생각이지만, 가장 많이 사용되는 그래프 형태이지 않을까 싶다.

이번 그래프 역시 연속형(Continuous) 변수를 위한 것인데,

Histogrm은 일정 간격으로 나누어 각 구간별 데이터 빈도를 막대그래프로 표현하는 그래프이다.

'커널 밀도 추정 그래프(Kernel Density Estimate Plot, KDE Plot)'은

막대 그래프 대신 부드러운 곡선을 사용한다는 차이가 있다.

⑤ 조인트 그래프: jointplot()

이번 그래프 역시 연속형(Continuous) 변수를 위한 것이고,

두 연속형 변수 간의 이변량 분포를 표현하며 주로 산점도와 히스토그램으로 함께 시각화하곤 한다.

파라미터 中 kind 부분에서 사용할 수 있는 결합 플롯의 유형은 다음과 같다.

- scatter: 산점도 플롯(기본값)

- kde: 커널 밀도 추정 그래프

- hex: 육각형 바이닝 플롯

- reg: 회귀선을 포함한 산점도 플롯

- resid: 회귀 분석 잔차 플롯

⑥ 관계 그래프: pairplot()

데이터셋의 모든 연속형(Continuous) 변수들 간의 산점도와 히스토그램을 한 번에 나타낸다.

파라미터 中 특이한 것만 알아보자.

- kind: 각 변수 간의 관계를 시각화 하는 방법 선택

. scatter: 산점도 플롯(기본값)

. kde: 커널 밀도 추정 그래프

. hist: 히스토그램

. reg: 회귀선을 포함한 산점도 플롯

- diag_kind: 대각선에 나타낼 그래프의 종류를 선택

. hist: 히스토그램(기본값)

. kde: 커널 밀도 추정 그래프

. None: 대각선에 아무런 그래프도 표시하지 않음

Matplotlib에 비하면 분량이 적어서 천만 다행이었다 !!! 😍

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[파이썬 데이터 분석가 되기] 06 - PRJ: Netflix (0)	2025.02.23
[파이썬 데이터 분석가 되기] 05 - BeautifulSoup (0)	2025.02.16
[한빛미디어] '나는리뷰어다2025' 선정 (0)	2025.02.01
[파이썬 데이터 분석가 되기] 03 - Matplotlib (0)	2025.02.01
[파이썬 데이터 분석가 되기] 02 - Pandas (0)	2025.01.25

ML / DS 공부를 시작하게 되면 누구나 겪는(?) 자연스러운 스터디 순서,

- Numpy → Pandas → Matplotlib

솔직히 전형적인 코더(키보드 워리어) 생활을 하던 사람으로써

이런 Visualization 영역에 대해서는 왠지 모를 거부감가 함께 두려움(?)이 있다.

하지만, 해야하는 것이니 해야겠지만.... 😥

지금까지의 공부과정은 다음과 같다.

- [파이썬 데이터 분석가 되기] 00 - 공부 시작

- [파이썬 데이터 분석가 되기] 01 - NumPy

- [파이썬 데이터 분석가 되기] 02 - Pandas

오늘 공부할 것은 다음과 같다.

03장. 데이터 시각화 라이브러리, 맷플롯립

① Matplotlib 시작하기

② 그래프 꾸미기

③ 다양한 그래프 그려보기 ⑴

④ 다양한 그래프 그려보기 ⑵

⑤ 그래프 한꺼번에 그려보기

⑥ 그래프 저장하기

① Matplotlib 시작하기

Matplotlib은 이름 그대로 파이썬 환경에서 데이터 시각화를 위한 라이브러리이다.

- https://matplotlib.org/

▷ 일단 한 번 그려보기

- plt.plot()으로 그래프를 그린다고 해서 바로 출력되지 않는다.

- plt.show()를 실행하면 앞에서 그린 그래프를 그려준다.

- [1, 3], [2, 4] 데이터가 어떻게 그래프에 그려졌는지 잘 살펴보기 바란다.

. [1, 3] 데이터는 X축의 좌표이고, [2, 4] 는 Y출의 좌표이다.

. (1, 2), (3, 4) 데이터가 출력된 것이다.

. plt.plot(x, y) 구성이므로, x 부분에 [ ] 형식으로 들어간 것이라고 생각하면 될 것 같다.

② 그래프 꾸미기

▷ 축 레이블 (label) / 범례 (legend) / 제목 (title) - 기본1

간단하게 표시하는 것을 우선 살펴보겠다.

▷ 축 레이블 (label) / 범례 (legend) / 제목 (title) - 기본2

그래프 실습을 위해 데이터들을 샘플로 생성해보자.

np.linspace(start, stop, num) : Linearly Spaced

- num 값은 생성할 값의 개수를 의미한다.

plt.show() 하기 전에는 그래프에 표현하고 싶은 것들을 계속 적어주면 된다.

plt.legend(loc=location, ncol=number of column)

▷ 축 범위 (limit)

일단 기본적으로 축 범위는 입력 데이터를 기준으로 자동 설정이 된다.

plt.xlim() / plt.ylim() 을 통해서 표현할 축 범위를 강제할 수 있다.

▷ 축 스케일 (scale)

⒜ 선형 스케일 (linear scale)

- 일반적으로 사용되는 스케일

- 값이 일정 간격으로 증가/감소 하는 경우

⒝ 로그 스케일 (logarithmic scale)

- 값의 크기 차이가 큰 경우

- 지수적으로 증가하는 데이터나 큰 범위의 데이터

⒞ 로그-선형 스케일 (log-linear scale)

- x축을 로그 스케일, y축을 선형 스케일

- x축이 시간 또는 크기인 경우 사용

⒟ 선형-로그 스케일(linear-logarithmic scale)

- x축을 선형 스케일, y축을 로그 스케일

- y축의 값 범위가 큰 경우, 대부분 작은 값 범위이고 일부 값이 매우 큰 경우

데이터를 먼저 준비하자. Exponential

여러 그래프를 묶어서 표시할 때 사용할 수 있는 것이 바로 plt.subplot()이다.

서브 그래프의 간격을 좁게 조절하기 위해서는 plt.tight_layout()을 사용할 수 있다.

실행 결과는 다음과 같다.

▷ 선 종류 (linestyle)

선 종류도 다양하게 할 수 있다.

▷ 마커 (marker)

그래프의 선 색깔을 정해줄 수도 있고,

값을 표시하는 marker도 다양하게 정해줄 수 있다.

참고로

교재에서는 plt.plot([3, 4, 5], "ro")로 제시했지만 그렇게 하면 선(line)은 표시가 안된다.

본래 "색깔-선-마커"의 순서대로 모두 정해줘야 하는데, 선 부분을 생략해서 나오지 않는 것이다.

값 위치를 표현할 여러 표식들은 다음 링크를 통해 확인할 수 있다.

- https://matplotlib.org/stable/api/markers_api.html

▷ 선 색 (color)

선의 색상을 설정하는 방법도 여러가지로 제공해준다.

⑴ 이름 (예: 'violet')

⑵ 약자 (예: 'g')

⑶ RGB (예: (0.1, 0.2, 0.3))

⑷ 16진수 (예: '#FF0000')

색상으로 사용할 수 있는 값들은 다음 링크를 통해 확인할 수 있다.

- https://matplotlib.org/stable/gallery/color/named_colors.html

▷ 제목 (title)

결국은 문자열(string)이기 때문에, 이와 관련한 설정들을 제공해준다.

다른 설정들은 익숙할 수 있는데, 조금 특이한 옵션이 바로 pad 이다.

그래프와 제목 사이의 거리인데, 이걸 잘 조절하면 예쁜 배치를 할 수 있을 것이다.

▷ 대제목 (super-title)

여러 개의 그래프를 묶어서 출력하는 경우,

전체를 대표하는 제목을 추가로 붙여줄 수 있다.

▷ 눈금 (ticks)

plot() 형식이 아니라 bar() 형식이 새롭게 등장했지만, 찬찬히 살펴보면 어렵지 않을 것이다.

xticks(눈금이 표시될 좌표, 표시할 텍스트 레이블) 형식이다.

▷ 그리드 (grid)

격자 모양의 선도 예쁘게 표시할 수 있다.

★ Helper

그런데, 지금 계속 간단하게 이런 것이 있다라는 것만 집어주고,

세부 옵션들에 대해서는 너무 안 살펴봐서 당황할 수도 있다.

이러한 옵션은 직접 보면서 필요에 따라 공부하면 충분하다.

함수 이름을 타이핑하고 "Shift + Tab" 키를 눌러주면 친절한 Docstring을 확인할 수 있다.

▷ 텍스트 (text)

굳이 이 정도까지 해야하나?! 할 수도 있지만... 그래프의 원하는 곳에 텍스트를 찍어줄 수도 있다.

옵션 중에 ha / va 부분이 낯설 수 있는데,

horizontal axis / vertical axis 즉, 수평 / 수직 정렬을 위한 옵션이라고 생각하면 된다.

③ 다양한 그래프 그려보기 ⑴

▷ 타이타닉 데이터셋 (titanic dataset)

MachineLearning 특히 Kaggle 공부를 하게 되면

누구나 만나는 아주 친숙한 타이타닉 데이터셋~!!

Pclass 기준으로 그룹화 해서 Survived 의 평균을 계산하고,

그룹화로 인해 제거된 기존 index를 대체해서 새롭게 index를 생성까지 해보자.

이 데이터들을 가지고 그래프를 그려보자.

이번에는 생존자들이 어느 항구에서 승선을 했는지를 살펴보자

이런 저런 내역들을 포함해서 그래프를 그려보자.

비슷한 방식인데, 이번에는 성별을 기준으로 데이터를 정리해보자.

이번에는 수평 막대 그래프로 그려보자.

그려보면 다음과 같다.

▷ 산점도 그래프

여러모로 자주 사용하는 산점도 그래프에 대해서 알아보자.

우선 가볍게 결측치 데이터를 살짝 걷어낸 데이터를 준비해보자.

scatter 그래프를 그려보자.

못보던 것들이 많이 보일텐데, 찬찬히 살펴보면 이해할 수 있을 것이다.

plt.figure(figsize=(12, 8)) : 12인치, 8인치 정도의 크기의 그래프로 셋팅

plt.scatter() : 산점도 그래프를 그린다.

. c : 각 데이터 포인트의 색상을 지정

. cmap : 컬러맵 지정

plt.legend() : 범례를 추가한다.

. handles : 범례 핸들을 설정하는 것인데,

scatter.legend_elements() 는 산점도 그래프에서 사용된 생상에 대한 핸들을 반환해준다.

▷ 파이 차트 (Pie Chart)

생존 여부를 가지고 간단하게 파이 차트를 그려보자.

▷ 히스토그램 (Histogram)

연속된 데이터를 구간으로 나누어 각 구간에 속하는 데이터의 빈도를 표현하는 그래프를 그려보자.

plt.hist() : 히스토그램을 그려준다.

. bins : 구간 개수, 현재는 20개로 설정

. edgecolor : 테두리 색상

④ 다양한 그래프 그려보기 ⑵

▷ 히트맵 (Heatmap)

히트맵은 2차원 데이터를 색상으로 표현하는 그래프인데, 2가지 방식의 그래프가 존재한다.

- matshow() : 정보를 명확하게 표시하고, 행/열 레이블을 추가하여 표시

- imshow() : 이미지만 표시, 행/열도 추가하지 않으며 색상도 표시하지 않음

plt.colorbar() : 오른쪽에 색상 참고를 위한 bar 표시

▷ 영역 채우기 그래프 (fill between)

데이터셋 간의 데이터 분포와 차이를 명확하게 시각화하는 데 유용하다.

일단 데이터를 준비해보자.

cut() : 연속형 변수를 구간별로 나누어 범주형 변수로 변환

(observed=False) : 데이터가 없더라도 모든 가능한 조합을 결과에 포함

.size() : 각 그룹의 빈도(크기)

.unstack() : 그룹화된 결과를 피벗 테이블 형태로 변환하여 index를 열로 포함

(0, 5] : 0 초과 5 이하

잘 활용하기 위해서는 alpha 값 등에 신경을 써야 겹치는 부분들에 대한 표현을 잘 할 수 있을 것 같다.

▷ 박스 플롯 (Box Plot)

그래프를 그리기 보다는 그냥 계산으로 사분위수를 계산하는 경우가 더 많지 않나 싶긴 하지만...

2등급/3등급 승객들은 이상치들이 보인다.

▷ 바이올린 플롯 (Violin Plot)

각 데이터 포인트의 밀도를 시각적으로 보여주는 특징

▷ 에러 바 (Error Bar)

개인적으로 처음 본 그래프 형태이다.

평균과 표준 편차를 구해서 이를 그래프로 표현하는 것이다.

Parch가 4일 때 평균 요금이 가장 높고, 길이가 긴 것으로 보아 해당 그룹의 요금이 크게 퍼져 있음을 표현한다.

Parch가 3일 때 평균 요금이 높지 않고, 에러바의 길이도 비교적 짧다.

⑤ 그래프 한꺼번에 그려보기

그래프를 표현한 결과물을 figure라고 한다.

1개의 그래프일 수도 있고, 여러 그래프일 수도 있다.

이미 앞에서 subplot()을 살짝 맛을 보긴 했는데,

실제로 여러 그래프를 한꺼번에 그리는 방법은 2가지가 있다.

⑴ .subplot()

: 개별 서브플롯을 하나씩 추가하기

⑵ .subplots()

: 개별 서브플롯을 동시에 생성하기

▷ 하나의 서브플롯에 여러 그래프 그리기 (twinx)

2개의 그래프를 그리기 위해 2개의 데이터를 준비했다.

.twinx() : X 축을 공유하는 새로운 axes 객체 생성

⑥ 그래프 저장하기

plt.savefig()를 사용해서 그림파일로 저장을 할 수 있다.

별도로 plt.show()를 실행하지 않아도 그래프가 출력된다.

그림 파일이 잘 생성되었음을 볼 수 있다.

와우... 힘들다.

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[파이썬 데이터 분석가 되기] 04 - Seaborn (0)	2025.02.08
[한빛미디어] '나는리뷰어다2025' 선정 (0)	2025.02.01
[파이썬 데이터 분석가 되기] 02 - Pandas (0)	2025.01.25
[파이썬 데이터 분석가 되기] 01 - NumPy (2)	2025.01.18
[파이썬 데이터 분석가 되기] 00 - 공부 시작 (0)	2025.01.15

데이터 분석 공부를 하게 되면

필수로 공부하게 되는 파이썬 라이브러리 코스 "Numpy → Pandas"

Numpy는 지난 번에 다음과 같이 살펴봤다.

- [파이썬 데이터 분석가 되기] 01 - NumPy

이번에 살펴볼 것은 "Pandas"

① 판다스 시작하기

② 데이터 내용 확인하기

③ 특정 열 선택하기

④ 데이터 필터링 하기

⑤ 결측치 처리하기

⑥ 데이터 통계 처리하기

⑦ 데이터프레임에 행/열 추가하거나 삭제하기

지난 포스팅에서도 말했지만 처음 공부하는 것은 아니기 때문에

기본적인 것들은 생략하고 기억하면 좋을 것들 중심으로 정리해보겠다.

책에서 언급하지 않는 내용들도 조금 더 포함했고,

설명 방법도 조금 다르게 정리한 내역도 있으니 참고하기 바란다.

실습은 local 환경에 mini-conda 설치해서

직접 Jupyter Notebook 띄워서 진행했다(당연히 Colab 환경과 별 차이는 없을 것이다).

① 판다스 시작하기

예전에는(예전이라고 해도 사실 그렇게 오래된 것은 아닐텐데, 요즘 AI 세상은 너무 빨리 변해서)

Numpy와 Pandas가 서로 상호보완적으로 많이 사용되었었던 것 같은데,

최근에는 사실 Pandas만으로도 대부분 처리할 수 있어서

굳이 Numpy 공부 후 Pandas를 공부할 필요 없이 바로 Pandas로 공부를 해도 괜찮은 것 같다.

다만, Pandas도 Numpy를 기반으로 한다고 할 수도 있기에... 뭐 같이 공부한다고 손해볼 것은 없다.

Pandas에서 제공하는 데이터 타입

- Series: 1차원 배열과 같은 형태. index와 value로 구성.

- DataFrame: 2차원 배열 형태. index와 column으로 구성. 하나의 column은 Series.

▷ List to Series

pd.Series() 함수에 List를 넣어주면 된다.

index와 value로 잘 생성된 것을 볼 수 있을 것이다.

value에 여러 형식의 데이터 타입이 포함되어 있기에 'object'로 분류 된다.

▷ Dict to DataFrame

pd.DataFrame()에 Dictionary 데이터를 넣어주면 된다.

print()로 출력을 하면 안예쁘게 나오는데,

Jupyter Notebook 환경인 점을 이용해서 그냥 해당 변수를 찍어주면 나름 예쁘게 내용을 살펴볼 수 있다.

▷ DataFrame to CSV File

Pandas DataFrame은 다양한 형태로 저장할 수도 있다.

일반적으로 많이 사용하는 CSV 파일로 저장을 하고 싶으면 .to_csv() 를 사용하면 된다.

"index=False" 파라미터를 주지 않으면 행 이름까지 저장하는 것을 막기 위한 코드이다.

왼쪽 파일 목록에 생성한 CSV 파일이 보일 것이다.

▷CSV File to DataFrame

반대로 CSV 파일을 읽어와서 DataFrame을 만드는 것은 어떻게 할 수 있을까?

정답은 ".read_csv()"

local에 있는 파일뿐만 아니라 웹에 있는 파일도 불러올 수 있다.

▷ DataType in Pandas

"int / float / object" 3종 밖에 없는 줄 알았는데, 의외로 다양한 데이터타입을 지원하고 있다.

하지만, 중요한 것은 결국 "object"

② 데이터 내용 확인하기

▷ columns

앞에서 생성한 내역을 이용해서 column 내용부터 확인해보자.

column은 기본적으로는 Index 형식이고, list 데이터 타입으로 변환해서 살펴볼 수도 있다.

▷ index

column과 마찬가지로 index에 대해서도 살펴보자.

여기에서 나오는 index는 실제 데이터 안에 포함된 정보가 아니라

일련번호로 설정되어 있다.

index 값을 명시적으로 정해주면 어떻게 될까?

내가 원하는 형태로 설정할 수가 있다.

임의로 정해준 값이 아니라, 명시적인 값이 있는 Index 형태의 데이터로 되었다는 것을 확인할 수 있다.

▷ loc[ ]

이렇게 정해진 index 값을 이용해서 특정 행을 지칭할 수도 있다.

앞서 살펴본 Numpy에서의 indexing / slicing 모두 적용 가능하다.

▷ head() / tail() / sample()

데이터의 일부 내용을 살펴보는 방법들을 알아보자.

데이터 앞부분의 내역을 살펴보는 것은 head()를 사용하면 된다.

기본적으로는 5개의 데이터를 보여주지만, 원하는 양만큼 보고 싶으면 파라미터로 전달하면 된다.

데이터의 뒷 부분을 살펴보는 것은 tail()을 살펴보면 된다.

임의의 데이터를 뽑아서 보여주는 것은 sample()이 있는데,

기본적으로 1개의 데이터를 보여주지만 원하는 양이 있으면 파라미터로 전달해주면 된다.

▷ shape

데이터의 전체 크기를 살펴보고 싶으면 shape을 찍어보면 된다.

정말 자주 사용하는 것인데, 함수 형태가 아님을 주의깊게 살펴보기 바란다.

▷ info()

DataFrame 데이터의 전체적인 내용을 살펴보고 싶으면 info()를 사용해보자.

정말 많은 정보를 깔끔하게 잘 보여주고 있다.

index 및 column 정보들을 상세하게 보여주고 있으며,

각 column의 Non-Null 정보, DataType 정보들을 모두 보여주고 있다.

심지어 차지하고 있는 메모리 크기까지도 알려준다.

모두 중요한 정보이지만, 가장 중요하게 살펴봐야 할 것은 Non-Null Count 부분이지 싶다.

결측치가 얼마나 있는지에 따라 후속으로 진행해야 할 일들이 정해지기 때문이다.

③ 특정 열 선택하기

▷ 단일 column = Series

DataFrame의 column 하나는 Series로 볼 수도 있다.

이것을 어떻게 추출할 수 있는지를 살펴보자.

"DataFrame['column_name']" 형식으로 column을 추출할 수 있다.

이렇게 추출했을 때, index 정보까지 같이 따라오는 것도 확인할 수 있다.

"DataFrame.column_name" 형식으로도 column을 추출할 수 있다.

▷ 복수 column = DataFrame

원하는 column의 조합으로 추출하고자 할 때에는

"DataFrame[['column1', 'column2', 'column#'] ]" 형식으로 수행할 수 있다.

여기에서 주의깊게 살펴봐야할 것은 "이중 대괄호"로 표기해야하는 것이다.

복수 column을 표기하려면 대괄호로 묶어서 넣어줘야 하는 것이다.

앞에서 하나의 column을 추출하면 Series라고 했는데,

1개 열로 구성된 DataFrame으로 추출할 수도 있다.

"DataFrame['column_name']" 형식으로 했을 때 Series로 추출되었음을 확인할 수 있다.

그런데, "DataFrame[['column_name']]" 형식으로 추출하면 DataFrame으로 추출할 수 있다.

이 부분은 잘 기억해둬야겠다.

▷ Boolean Indexing

특정 조건에 맞는 행을 선택하는 방법으로 'Boolean Indexing'이라는 방법이 있다.

이것을 활용해서 원하는 열들의 특정 조건에 맞는 행 데이터들을 추출하는 방법은 다음과 같다.

행의 조건을 앞에 정의하고 원하는 column을 뒤에 명시한다고 생각하면 될 것 같다.

④ 데이터 필터링 하기

여기부터는 정신 똑바로 차리고 잘 살펴봐야 한다. (빤짝!)

앞서 잠깐 살펴본 "Boolean Indexing"의 심화과정이라고 생각할 수 있을 것 같다.

DataFrame에 대해서 '비교 연산자'를 사용하면 전체 행에 대한 boolean 결과가 나온다.

이것을 DataFrame Column에 넣어주면 True 행만 추출이 되는 것이다.

▷ Operators

단순한 비교 연산자 외에 다른 연산자들을 더 알아보자.

먼저 살펴볼 것은 '부정 연산자(~, Not Operator)'이다.

다음 알아볼 것은 and(&) / or(|) 연산자를 알아보자.

조건문을 변수로 받을 수도 있다.

▷ loc[ ] / iloc[ ]

앞에서 "loc[ ]"에 대해서 간단히 맛을 봤다.

index를 명시적으로 지정해서 특정 행을 추출했었던 것인데, 이번에 좀 더 일반적인 사용법을 알아보겠다.

DataFrame.loc[ row, column ]

너무나 간단해보이지만, 정말 다양한 변형 활용이 가능하다.

DataFrame.loc[ :, [column1, column2] ]

DataFrame.loc[ [row1, row2], [column1, column2] ]

행 부분을 조금 더 알아보자.

index 값을 명시적으로 기재한 경우에는 잘 동작했으나,

slicing과 같은 방법으로는 제대로 실행이 되지 않는다.

index 숫자로 지정하고 싶은 경우에는 "iloc[]"를 사용하면 된다.

명칭 자체가 그렇다 ^^ "iloc(Integer Location)"

name을 사용하고 싶으면 loc[],

index를 사용하고 싶으면 iloc[]

▷ isin()

띄어쓰기가 생략된 문법이다 ^^

is in ()

isin() 함수 역시 결과가 Boolean 행렬로 나온다.

그렇기에 Boolean Indexing과 같은 방식으로 사용하면 된다.

여기에서 주의할 것은 파라미터로 넘길 때 하나의 요소만 사용하더라도

list 형태로(대괄호) 넘겨줘야 한다는 점이다 !!!

⑤ 결측치 처리하기

머신러닝, 데이터 분석 등을 할 때 가장 중요한 것 중 하나가 바로 결측치에 대한 관리다.

▷ NA, NaN, None

결측치라는 것은 값이 비었다는 것인데, 이것을 어떻게 표기할 것인지에 대한 문제가 있다.

Pandas에서는 "NA (Not Available)", "NaN (Not a Number)", "None" 두 가지 방식으로 표기하고 있다.

DataFrame 데이터 내역을 보다보면 "NaN"으로 되어있는 결측치를 볼 수 있다.

보다 일반적인 것은 Numpy의 "NaN" 개념이고, 실제로도 "np.nan"으로 지칭하는 것이 일반적이다.

NaN은 Numpy에서 사용하는 것이고, None은 Python 자체에서 사용하는 것이다.

NA 정도가 Pandas에 특화된 것인데, 나름의 추가적인 특성도 갖고 있다.

세가지 모두 NaN 처리가 되었지만, 조금 다른 특성들이 있긴 하다.

여러 상황을 고려하기 싫으면 np.nan을 사용하길 권장하고,

굳이 numpy 라이브러리를 import하기 싫을 때(pandas만 import 했을 때)에만 pd.NA를 사용하면 되지 않을까 한다.

이런 결측치 값을 어떻게 할 것인지에 대해서 다음의 4단계로 알아보자.

⒜ 확인하기

⒝ 대체하기

⒞ 제거하기

⒟ 추출하기/저장하기

⒜ 확인하기 - .isna() / .isna().sum() / .info()

각 값의 NaN 여부를 확인해볼 수 있다.

사실 알고 싶은 것은 각 column의 결측치 개수가 궁금하기에 .sum() 함수까지 붙여주는 것이 더 일반적이다.

한눈에 확 들어온다!

사실 .info() 만으로도 충분히 알 수는 있다.

비율을 확인해볼 수도 있다.

⒝ 대체하기 - .fillna() / .replace()

nan 값을 정해준 값으로 fill 해주는 함수이다.

셀레나 쌤(저자)이 말한 것처럼 원본을 그대로 작업하는 것이 명확하고 좋다. 또한 메모리도 보다 효율적이다.

하지만, 이것 저것 테스트해보고 공부할 때에는 원본을 그대로 놔둔채로

장난감(?)을 하나 만들어서 마음껏 뜯고 맛보고 즐기고(^^),

필요하면 다시 또 원본에서 장난감을 만들고... 하는 방식이 편해서 나는 위와 같이 해봤다.

말이 길어질 수도 있어서... 책에서도 뒤에 언급할 것으로 예상되지만,

Python의 특성상 그냥 변수에 할당하면 원본과 연결 고리가 생기므로

.copy()로 확실하게 명시적으로 연결고리가 끊긴 복사본을 만들어서 변수 할당해줘야 한다.

이번에는 .replace()를 이용해서 결측치 값을 대체해보자.

앞의 .fillna()도 그렇고, .replace()도 그렇고 자기 자신의 값을 실제 변경하지는 않는다.

변경한 결과값을 되돌려 줄 뿐이다.

그렇기에 앞에 원본에 그 결과를 반영하라고 변수 할당해줘야 변경한 값을 저장한다.

⒞ 제거하기 - .dropna(axis=#)

일단 현재까지 진행된 데이터프레임 데이터들의 상황을 확인해보자.

앞서 결측치의 값 대체를 통해서 대부분 처리를 했고, 하나의 column이 남아있다.

꼭 하나의 column에 대해서만 적용되는 것은 아니고,

결측치가 있는 column을 삭제해버리고 싶을 때 사용하는 것이 바로 .dropna(axis=1) 이다.

파라미터로 있는 axis=1 부분을 보면 알겠지만, column이 아닌 row에 대해서도 적용할 수 있다.

결측치 값이 하나라도 있는 row에 대해서는 모두 삭제를 해버렸기 때문에, 하나의 row만 남았다.

그러면, 내가 지정한 column을 기준으로만 결측치 row를 삭제하고 싶으면 어떻게 해야할까?

subset 파라미터로 column 목록을 지정해주면 된다.

※ inplace=True

앞에서 잠깐 언급했는데, pandas의 상당히 많은 함수들의 경우에 원본 값을 직접 수정하지 않는다.

그래서 지금까지처럼 함수 실행 결과를 변수에 할당하도록 작성을 했다.

하지만, pandas에서는 그냥 바로 원본에 그 결과를 반영하도록 할 수 있는 파라미터가 있다.

뭔가 편해보이지만, 사실 권장하는 방법은 아니다.

앞서서 말했지만, 원본을 수정하는 것 자체를 그다지 권장하지 않기 때문이다.

그냥 이런 방법도 있구나~ 하고 참고하기 바란다.

⒟ 추출하기/저장하기 - .to_csv()

이렇게 정제 작업을 거친 결과를 다음을 위해 파일로 저장을 해보자.

예쁘게 잘 저장된 것을 확인할 수 있다.

다음에는 정제 작업을 다시 할 필요 없이 해당 파일을 바로 불러오면 된다.

⑥ 데이터 통계 처리하기

데이터들이 모여 있으니 이에 대한 통계 정보를 확인하는 것은 당연한 수순일 것이다.

▷ 평균값(mean) / 중앙값(median) / 합계(sum) / 최댓값(max) / 최솟값(min)

가장 기본적인 통계값들을 구해보자.

너무 편하다!!

▷ 표준편차(std) / 분산(var)

표준편차와 분산도 그냥 쓰면 된다.

▷ count() / value_counts()

count()는 결측치를 제외한 row의 개수를 알려준다.

value_counts()는 값 각자가 몇 개가 있는지를 알려준다.

▷ describe()

지금까지 살펴본 통계값들을 포함해서 기본적인 통계치를 한 번에 확인할 수 있다.

앞에서 살펴보지 않은 것은 사분위수 정도 밖에 없을 것 같다.

사분위수는 나중에 이상치(outlier) 처리할 때 심도있게 살펴보지 않을까 한다.

▷ 집계(aggregate) - agg()

원하는 column의 원하는 통계치만 보고 싶을 때 agg()을 활용할 수 있다.

지정하지 않은 부분은 NaN으로 나온다.

▷ groupby()

공부해보면 사실 별것도 아닌데,

개인적으로 머리에 잘 들어오지 않는 이상한 아이라서 신경이 많이 쓰인다 ㅠㅠ

type 값이 "TV Show"인 row들에 대해서 "release_year" 값의 평균, "duration" 값의 합계를 구하려고 할 때

"groupby()"를 사용하면 손쉽게 할 수 있다.

'type'으로 그룹핑해서 'duration'의 평균을 각각 구하라는 의미이다.

좀 더 복합적인 상황을 살펴보자.

type 값이 'Movie'이고 country 값이 'United States'인 데이터의

'duration' 평균값만 추출하고 싶으면 어떻게 해야할까?!

row를 지칭하는 부분을 주의깊게 살펴보기 바란다.

list 형식이 아니라, 튜플(tuple) 형식으로 사용한다.

⑦ 데이터프레임에 행/열 추가하거나 삭제하기

▷ 행/열 추가

새로운 row를 하나 추가하는 것을 살펴보자.

일단 Dict 타입으로 추가할 row 데이터를 하나 준비하자.

새로 추가할 index(row) 값을 지정해서 값을 넣어주면 끝이다.

index 값을 가지고 새로운 row를 추가하는 것인데, iloc[]가 아닌 loc[]를 사용하고 있는 것을 조심해야 한다.

iloc[]의 경우에는 기존의 데이터 범주에 대해서만 사용할 수 있기 때문에

새로운 row를 추가하는 것에는 사용할 수 없다.

column을 추가하는 것은 변수값 지정하듯이 사용하면 된다.

▷ 행/열 삭제 - drop()

drop()에서 axis 파라미터 값을 이용해 행/열 모두 삭제할 수 있다.

np.arange(2, 5)를 통해서 2부터 4까지의 값을 얻어낼 수 있기 때문에,

2, 3, 4 행이 삭제되었음을 알 수 있다. (axis=0)

이번에는 열(column)을 삭제해보자.

Column 이름을 지정해주고 axis=1 파라미터를 전달해서 column을 삭제했다.

우와 엄청 많은 내용이었다.

힘들다.

그래서 스터디 제출 기간을 살짝 오버했다 (사실 중간에 여행가느라... ㅋㅋㅋ)

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[한빛미디어] '나는리뷰어다2025' 선정 (0)	2025.02.01
[파이썬 데이터 분석가 되기] 03 - Matplotlib (0)	2025.02.01
[파이썬 데이터 분석가 되기] 01 - NumPy (2)	2025.01.18
[파이썬 데이터 분석가 되기] 00 - 공부 시작 (0)	2025.01.15
[혼공머신] 6주차 - CH.07 딥러닝을 시작합니다 (3)	2024.08.25

사실 개인적으로 NumPy 공부가 처음이 아니기에,

너무 기본적인 부분은 skip 하고 계속 기억하면 좋을만한 것들만 추려서 포스팅하겠다.

1. Environment

뭔가 차별점을 두기 위해 실습 환경을 다음과 같이 정해서 진행해보겠다.

- Ubuntu 20.04

- Miniconda + conda-forge

- Jupyter Notebook

혹시 모를 저와 같은 삐딱한 마음을 먹으신 분들이 계시면, 아래 링크를 참고하세요 ^^

- 회사에서 Anaconda 사용하기 (Miniconda + conda-forge)

conda를 이용하여 가상환경을 생성하고,

Jupyter Notebook 패키지들을 설치하고,

Jupyter Notebook을 실행하면 된다.

그러면 아래와 같이 예쁜 웹 페이지가 짜잔~

실제 잘 동작하는지까지만 조금 더 살펴보자.

Local 환경에서는 기본적으로 numpy 라이브러리도 설치가 안되어 있기에 필요하다면 설치를 해줘야 한다.

이런 불편함(?)이 앞으로 종종 발생하겠지만, 바로 이런 부분이 know-how 이자, 역량이라고 믿는다! 😁

2. Axis

매번 방향이 헷갈려서 일단 값 넣어보고, 결과 확인 후 '어? 이게 아닌가?'하는 ... 그 악명 높은 axis !!!

왜 axis 위치가 자꾸 변하는걸까?

아래 코드를 잘 살펴보자.

shape에서 나오는 순서대로 번호가 매겨진다고 생각하면 될 것 같다.

책에서는 다음과 같이 설명해주고 있다.

같은 이야기를 하고 있으니 각자 편한 방법으로 기억하면 되겠다.

3. Data Type

사실 그리 신경을 쓰지 않았던 부분이긴 한데,

이번에 데이터 타입 코드에 대해 새롭게 알게 되어서 좋았다! (비트와 바이트를 넘나드는 표기법 왠지 싫다!)

코드를 이용해서 확인해보면 다음과 같다.

기본값으로 64비트 = 8바이트나 사용하다니! 이런 부르주아 같은 넘파이 !!!

4. Make ndarray

리스트나 튜플로부터 넘파이 배열을 만드는 것은 아래 내용 참고해보면 된다.

일련의 데이터 생성과 함께 차원을 변경하는 것까지 살펴보면 다음과 같다.

이번에는 0부터 100까지의 임의의 숫자로 3차원 넘파이 배열을 만드는 것을 살펴보자.

수학의 기본은 0과 1이다 😁

원하는 차원만 입력해주면 된다.

5. Operations

이제 본격적으로 연산에 대해서 알아보자.

행렬에서의 사칙연산은 같은 위치끼리의 연산으로 이루어진다.

위의 예시를 꼼꼼하게 살펴보기 바란다.

하지만, 행렬 연산의 꽃은 사칙 연산이 아니라 "행렬 곱셈"이다.

영어로는 'Matrix Multiply"이지만, 약자인 "matmul"로 더 많이 불리운다.

연산 기호로는 "@"가 쓰인다.

우리의 colorful한 책에서는 다음과 같이 친절하게 연산 과정을 설명해준다!

이 그림 하나면 끝이다!!! 😍

의외로 종종 사용하게 되는 비교 연산도 할 수 있다.

6. Functions

넘파이가 기본적으로 제공해주는 다양한 함수들이 있다.

넘파이 함수에 배열을 넣어주는 방법 말고,

넘파이 배열에서 바로 함수를 호출하는 방법도 있다.

그런데, 모든 함수가 이렇게 되는 것은 아닌 것 같다.

조심해서 사용해야 할 것 같다.

많이 사용하는 집계 함수들에 대해서도 알아보자.

함수의 파라미터로 axis를 넣으면 원하는 방향으로의 값을 계산할 수도 있다.

7. Indexing and Slicing

넘파이 배열의 특정 위치에 있는 값을 확인하고 싶다면? 인덱싱을 이용하면 된다!

처음에 이런 사용법을 봤을 때 깜짝 놀랐다. ","를 사용하다니????

자고로 배열이라면 "[ ]"을 이용해야지 !!!

그렇다! 배열처럼 사용할 수도 있다.

하지만, 넘파이에서 다루는 데이터 타입을 배열이라 생각하지 말고,

"행렬"이라고 생각을 하면서 ","를 사용하는 것을 기준으로 삼아야 할 것이다 😎

이번에는 slicing에 대해서 살펴보자.

"asi[0, 0:2]"에 대해서 말로 설명을 해보면,

"0 행에 있는 0부터 2 이전까지(1까지)의 컬럼에 있는 값으로 이루어진 행렬(배열)"이다.

"맨 처음부터" 또는 "맨 끝까지"와 같은 표현도 가능하다.

아무것도 명시하지 않으면 all의 의미를 갖는다.

8. Boolean Indexing

넘파이 행렬에 특정 조건에 맞는지 여부를 확인하려면 다음과 같이 할 수 있다.

행렬 크기는 유지하면서 Boolen 값으로 채워지게 된다.

이것을 이용하면 다음과 같이 할 수 있다.

특정 조건에 맞는 값만 채워져있는 새로운 행렬(배열)이 만들어진다.

당연한 이야기이지만, 조건을 굳이 변수에 담지 않고 바로 사용할 수도 있다.

단순히 출력에만 이용할 것이 아니라 값 변경에도 활용할 수 있다.

9. Integer Array Indexing

특정 행렬(배열)에 있는 값들을 이용해서 다른 행렬을 만들고자 할 때 사용할 수 있는 방법이다.

다차원 형태로 만들 수도 있다.

10. reshape

ML이나 DS에서도 많으 쓰이지만, 특히 DL에서 많이 사용되는 reshape 😍 행렬(배열)의 형태 바꾸기 !!!

당연한 것이지만, 요소 개수가 맞아 떨어져야 한다.

만약 안맞으면?

에러를 밷어낸다 😅

특이한 파라미터 "-1"은 일종의 "auto"라고 보면 될 것 같다.

정해진 값을 기준으로 알아서 값을 맞춰준다.

reshape() 함수의 사촌인 resize() 함수도 있다.

reshape()은 원본을 직접 수정하지 않고, resize()는 원본 자체를 변경한다.

DL 공부할 때 많이 사용하는 평탄화(flatten)를 해보자.

실제로는 reshape(-1)을 많이 사용하는 것 같다.

11. Transpose

행과 열을 바꾸는 전치(transpose)에 대해서 살펴보자.

두 행렬을 행렬곱 하면 어떻게 될까?

첫번째 행렬의 행의 개수와 두번째 행렬의 열의 개수가 맞지 않아 행렬곱을 할 수가 없다.

앞 또는 뒤에 있는 행렬을 전치해줘야 한다.

원본 값을 수정하지는 않는다. 원본 자체를 바꾸고 싶으면 "bt = bt.T" 와 같이 사용해야 한다.

12. stack / split

행렬을 합치는 것이 stack, 분할하는 것이 split이다.

행렬을 합칠 때에는 수평(horizontal) 방향으로 합칠 것인지,

수직(vertical) 방향으로 합칠 것인지 정해서 해야 한다.

분할도 방식은 똑같은데, 몇 조각으로 쪼갤 것인지만 추가해주면 된다.

*stack 계열과 마찬가지로 사용할 수 있는 것이 conatenate() 함수도 있다.

axis 값을 이용해서 방향을 지정할 수가 있다.

그런데, 아래와 같은 에러를 만날 수 있다.

어!? 아까 vstack()은 잘 되었는데!? 왜 에러가!?

css 행렬을 경우 1차원이기 때문이다.

같은 차원끼리만 concatenate()를 할 수가 있다.

그래서 같은 차원으로 만들어서 진행하면 된다.

*split() 함수의 경우 행렬을 나눠주는 것인데,

마지막 2개의 행만 뽑아오고 싶거나 하면 어떻게 해야할까?

그런 경우에는 slicing을 이용하면 될 것 같다.

우와아아.... 정말 길다.

연습문제까지 포함하면 총 88페이지까지의 분량이다.

연습문제는 나중을 위해 아껴 두겠다. (절대 퓌곤해서가 아니다! 정말! 정말이라구!)

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[파이썬 데이터 분석가 되기] 03 - Matplotlib (0)	2025.02.01
[파이썬 데이터 분석가 되기] 02 - Pandas (0)	2025.01.25
[파이썬 데이터 분석가 되기] 00 - 공부 시작 (0)	2025.01.15
[혼공머신] 6주차 - CH.07 딥러닝을 시작합니다 (3)	2024.08.25
[혼공머신] 5주차 - CH.06 비지도 학습 (0)	2024.08.16