'혼공' 태그의 글 목록

혼공

[혼만딥-2주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기 2025.07.13
[혼만딥-1주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기 2025.07.06
[한빛미디어] 혼자 만들면서 공부하는 딥러닝 (혼만공딥) 2025.06.24
[한빛미디어] 혼자 공부하는 머신러닝 + 딥러닝 (개정판) 2025.05.18 3
[혼공머신] 4주차 - CH05. 트리 알고리즘 2024.07.30
[혼공데분] 6주차_복잡한 데이터 표현하기 2024.02.09
[혼공데분] 5주차_데이터 시각화하기 2024.02.01
[혼공데분] 3주차_데이터 정제하기 2024.01.21 1

[혼만딥-2주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기

2025. 7. 13. 22:21

혼공학습단을 하게 되니, 일주일이 너무 빨리 지나간다.

저번 주 스터디를 한지 얼마 안된 것 같은데, 벌써 2주차 마지막 날이라니...

정말 다행인 것은 다음 챕터가 아닌 Chapter 01 실습이라 큰 부담은 되지 않았다. 😅

▶ 기본 숙제 (필수)

Ch.01(01-3) LeNet으로 Fashion MNIST 분류 실습 후 예측 결과 화면 캡쳐하기

앞서 분류되어 있는 test 데이터를 가지고 실행하도록 했고,

눈으로 좀 보고 싶어서 앞의 10개 데이터는 화면에 보여주도록 했다.

▶ 추가 숙제 (선택)

예측이 틀린 이미지를 골라 "왜 틀렸을까?" 추측해보기

실제로는 "Coat"인데, "Pullover"로 예측을 한 샘플이다.

전체적으로 예측값과 실제값 사이의 matrix를 찍어보면 다음과 같다.

예측값이 틀린 경우를 보면 주로 Shirt, T-shirt/top, Pullover, Coat에서 발생한다는 것을 알 수 있다.

실제 상당히 유사한 데이터들임을 알 수 있다.

이를 극복하기 위한 방법을 생각해보면 다음과 같다.

- 더 많은 데이터 (Augmented 포함)

- 28x28 보다 더 큰 이미지 사이즈

- 단색이 아닌 RGB 컬러 이미지 입력

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼만딥-1주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기 (0)	2025.07.06
[한빛미디어] 혼자 만들면서 공부하는 딥러닝 (혼만공딥) (0)	2025.06.24
네? 사내 시스템을 전부 혼자 관리하는 저를 해고한다구요? (9)	2025.06.15
[한빛미디어] 혼자 공부하는 머신러닝 + 딥러닝 (개정판) (3)	2025.05.18
[한빛미디어] NLP와 LLM 실전 가이드 (4)	2025.03.23

[혼만딥-1주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기

2025. 7. 6. 22:28

관심 있는 책들을 가지고 혼공 활동을 열심히 했더니,

참여할만한 것들이 없어서 쉬었던 혼공학습단 활동을 간만에 하게 되었다.

바로 이 책이 나왔기 때문이다.

- https://www.whatwant.com/entry/honman-deep

그래서, 이번 혼공학습단 14기에 지원하게 되었고,

기쁘게도 선정이 되었다.

앞으로도 계속 "만들면서" 시리즈가 나왔으면 좋겠다.

- https://hongong.hanbit.co.kr/

혼공시리즈이기에 너무나 고맙게도 동영상을 비롯해 소스코드까지 모두 제공해준다.

- https://www.youtube.com/playlist?list=PLVsNizTWUw7F1EIzSwUiPn3PFSO-aSEHi

박해선님은 나를 모르겠지만,

나는 박해선님을 애정한다 !!! ^^

- https://github.com/rickiepark

이번 첫 주 공부할 거리는 다음과 같다.

▷ 기본 숙제

- 소스코드 확인하기

. https://github.com/rickiepark/hm-dl

- '01-3.ipynb' 파일 확인

. https://github.com/rickiepark/hm-dl/blob/main/01-3.ipynb

- 'Open in Colab' 클릭

. 'Drive에 사본 저장'까지 진행

- 모두 실행

- LeNet-5 그리기

▷ 추가 숙제

- 합성곱층 (Convolution Layer)

. 이미지와 같은 2D 형식의 데이터의 특징을 추출하는 layer로써 결과물로 특성맵(feature map)을 만들어 냄

- 풀링층 (Pooling Layer)

. 중요한 특징은 유지하면서 이미지(데이터)의 크기를 줄이기 위한 layer로써, 평균값 또는 최댓값을 활용

- 밀집층 (Dense Layer)

. 결과를 도출하기 위해 이전 layer들의 feature들을 모두 1D 형태로 변환하여 처리

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼만딥-2주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기 (0)	2025.07.13
[한빛미디어] 혼자 만들면서 공부하는 딥러닝 (혼만공딥) (0)	2025.06.24
네? 사내 시스템을 전부 혼자 관리하는 저를 해고한다구요? (9)	2025.06.15
[한빛미디어] 혼자 공부하는 머신러닝 + 딥러닝 (개정판) (3)	2025.05.18
[한빛미디어] NLP와 LLM 실전 가이드 (4)	2025.03.23

[한빛미디어] 혼자 만들면서 공부하는 딥러닝 (혼만공딥)

2025. 6. 24. 21:48

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

개발자라면 누구나 알고 있을 "혼공" 시리즈.

혼자서도 공부할 수 있도록 잘 만들어진 책일 뿐만 아니라,

동영상 강의도 제공해주고 샘플 코드도 제공해주는 정말 혜자와 같은 교과서들이다.

그런데, 이제는 "혼공"이 아니라 "혼만" 시리즈가 나오고 있다.

"혼자 만들면서" 시리즈 !!!

그것도, "딥러닝" !!!

거기다가, "박해선"님 !!!

5월에 출간한 따끈따끈한 책이다.

딥러닝은 CNN 부터 시작하는 것이 국롤이기에,

이 책 역시 '합성곱 신경망(CNN)'으로 Chapter 01 시작이다.

최근 트렌드는 LLM,

트랜스포머의 디코더 기반으로 만들어진 GPT 모델도 Chapter 05에서 알려주고 있다.

트랜스포머의 인코더와 디코더를 모두 사용하는 모델인

BART와 T5까지 마지막 챕터에서 언급해주고 있다.

이론이 아니라 직접 만들어 보면서 공부할 수 있는 책이라서 정말 마음에 들었다.

그렇다고 이론적인 내용이 없는 것도 아니다. 충분히 친절하게 이론에 대한 설명도 해주고 있다.

더더욱 이 책이 마음에 드는 것은 컬러 인쇄이다!!!

눈이 안아프게 빛 반사도 적은 종이 재질이다!!!

이와같은 "혼공/혼만" 시리즈 책을 정말 제대로 공부하기 위해서는

"혼공학습단"에 지원해서 맛있는 간식을 먹으며 많은 사람들과 함께 공부하는 것이다.

이번 14기 참여 기회를 놓쳤다면.... 다음 15기에 지원하면 된다 ^^

종종 있으니 꼭 기억했다가 참여하길 바란다.

"혼공/혼만" 시리즈 책들은 많이 있으니 관심있는 다른 책도 구매해서~~~ ^^

혼공학습단 활동을 열심히 하면 많은 것들이 생긴다 !!!

혼자 공부할 수 있는 책이지만,

혼자 하다 보면 의욕이 떨어지거나 작심삼일이 되기 쉬운 분들은

이런 활동을 통해서 동기부여를 받으면 좋지 않을까 한다.

화이팅!!!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼만딥-2주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기 (0)	2025.07.13
[혼만딥-1주차] CH01 합성곱 신경망(CNN)으로 패션 상품 이미지 분류하기 (0)	2025.07.06
네? 사내 시스템을 전부 혼자 관리하는 저를 해고한다구요? (9)	2025.06.15
[한빛미디어] 혼자 공부하는 머신러닝 + 딥러닝 (개정판) (3)	2025.05.18
[한빛미디어] NLP와 LLM 실전 가이드 (4)	2025.03.23

[한빛미디어] 혼자 공부하는 머신러닝 + 딥러닝 (개정판)

2025. 5. 18. 22:59

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

"박해선"님의 명작 도서, "혼자 공부하는 머신러닝+딥러닝"의 "개정판"이 나왔다 !!!

AI 관련하여 공부를 했던 사람들이라면 아마도 모두 가지고 있을 책이 아닐까 싶은데,

물론 나도 기존 도서를 가지고 있어서 비교 사진을 찍어봤다.

동그라미도 하나 추가되었고, 페이지도 더 많아진 새로운 개정판이다.

그래서인지 정가도 2.6만원에서 3.2만원으로 인상되었다. ㅋㅋㅋ

초판 발행 뒤, 4-5년 정도가 지났으니 물가 인상을 고려하면 정가 인상에 대해서도 충분히 이해가 간다!

벌써 4-5년이 흘렀다니... 처음 이 책으로 공부했던 때가 어제 같은데...

이 책의 장점은 머신러닝에서부터 딥러닝까지 전반적인 사항을 모두 담고 있다는 것이다.

책에서도 말해주다 싶이, 반드시 순차적으로 공부해야하는 것은 아니다.

머신러닝에 대해서 공부하고 딥러닝을 살펴보는 것이 도움이 되기는 하지만,

필수는 아니기에 과감히 점프하고 딥러닝을 공부하는 것도 나쁘지는 않다.

이 책의 초판이 나오는 시점에서는 Tensorflow가 많이 사용될 때라 괜찮았지만,

최근에는 대부분 Pytorch를 많이 사용하기에 개정판에서 파이토치에 대한 내용을 추가해 준 것은 정말 반갑다.

혼공 시리즈의 책답게 동영상 강의도 멋지게 제공을 해준다.

- https://www.youtube.com/playlist?list=PLJN246lAkhQihHwcbrZp9uuwgxQen5HS-

큰 변화가 없는 챕터의 경우에는 기존 동영상 강의를 재활용하셨을거라 생각했는데, 전부 새로 등록하신 것 같다! 와우!

깃허브에 친절하게도 주피터노트북 파일들을 모두 등록해주셨다.

- https://github.com/rickiepark/hg-mldl2

"박해선"님의 블로그를 참고하면 좋다. 정오표도 확인할 수 있다.

- https://tensorflow.blog/hg-mldl2/

개인적으로 처음에 공부할 때에 이 책을 보고선 좀 당황한 적이 있었다.

다른 곳에서 설명하는 것들과는 조금 다른식으로 접근하거나 설명하는 것들이 있어서였다.

그래서 잠시 이 책을 끊고(?) 이렇게 저렇게 시간이 흘러

"혼공학습단"을 통해 다시 이 책을 공부해 보고자 시작하게 되었는데 !!!

머신러닝이나 딥러닝을 조금 공부하고 다시 이 책을 봤더니 감탄을 할 수 밖에 없었다.

아! 이래서 박해선님이 이 부분을 이렇게 설명을 하셨구나!

혼자 공부할 수 있도록 잘 정리되고 친절한 설명이 되어 있는 책이지만,

사실 이 책의 일부 챕터만 가지고도 책 한권이 나올 수가 있을만큼

크고 방대한 내용을 다루는 책이 바로 이 "혼공머신"이다.

그렇기에 이 책을 제대로 공부하기 위해서는 좀 더 꼼꼼하게 살펴보는 것을 권해본다.

이 책에 대해서 서평을 한 마디로 남겨 본다면,

"머신러닝, 딥러닝"을 공부해보고 싶다면 무조건 추천해드립니다!!!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[한빛미디어] 혼자 만들면서 공부하는 딥러닝 (혼만공딥) (0)	2025.06.24
네? 사내 시스템을 전부 혼자 관리하는 저를 해고한다구요? (9)	2025.06.15
[한빛미디어] NLP와 LLM 실전 가이드 (4)	2025.03.23
[파이썬 데이터 분석가 되기] 08 - Homework (1)	2025.03.10
[파이썬 데이터 분석가 되기] 07 - PRJ: Medical (0)	2025.03.02

[혼공머신] 4주차 - CH05. 트리 알고리즘

2024. 7. 30. 01:14

가족 여행 및 대학원 MT로 인해... 엄청난 지각 공부를 한다.

미리 하지 못했음에 대해 반성 !!!! 무릎 꿇고 반성 !!!

05-1 결정 트리 (Decision Tree)

- 로지스틱 회귀 (Logistic Regression)

- 결정 트리 (Decision Tree Classifier), 가지 치기(Prunning)

05-2 교차 검증과 그리드 서치

- 검증 세트 (validation)

- 교차 검증 (Cross Validation)

. 분할기(Splitter)를 사용한 교차 검증 : StratifiedKFold

- 하이퍼파라미터 튜닝 (Hyperparameter Optimization)

. 그리드 서치 (GridSearchCV)

. 확률 분포 선택 : uniform, randint

. 랜덤 서치 (RandomizedSearchCV)

05-3 트리의 앙상블 (Ensemble)

- 정형 데이터와 비정형 데이터

. 텍스트/오디오/이미지/영상 등의 비정형 데이터는 주로 DL 에서 취급

- 랜덤 포레스트 (RandomForest)

- 엑스트라 트리 (ExtraTrees)

- 그래디언트 부스팅 (Gradient Boosting)

- 히스토그램 기반 그래디언트 부스팅 (Histogram Gradient Boosting)

- XGBoost vs LightGBM

기본 숙제 : 교차 검증을 그림으로 설명하기

추가 숙제 : 앙상블 모델 손 코딩

- 전체를 캡처하는 것은 무의미한 것 같아, 하단부 부분만 캡처 !!!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼공머신] 6주차 - CH.07 딥러닝을 시작합니다 (3)	2024.08.25
[혼공머신] 5주차 - CH.06 비지도 학습 (0)	2024.08.16
[혼공머신] 3주차 - CH04. 다양한 분류 알고리즘 (0)	2024.07.22
[혼공머신] 2주차 - CH03. 회귀 알고리즘과 모델 규제 (0)	2024.07.14
[혼공머신] 1주차 - CH02. 데이터 다루기 (0)	2024.07.07

[혼공데분] 6주차_복잡한 데이터 표현하기

2024. 2. 9. 23:09

어느덧 6주차까지 왔다. 혼공 완주 !!!

스스로에게 칭찬해줘야지 !!! 쓰담~ 쓰담~

▶ 내용 요약

06-1 객체지향 API로 그래프 꾸미기

- pyplot 방식과 객체지향 API 방식

- 그래프에 한글 출력하기

. 한글 폰트가 필요하기 때문에, 나눔폰트를 설치해야 한다.

. 예제에서는 구글 코랩에 대해서만 설명되어 있지만, 일반적인 Ubuntu 환경에서도 적용된다.

. 사용할 수 있는 폰트 목록을 확인해볼 수도 있다.

. 사용할 폰트를 지정할 수도 있고, 크기도 정할 수 있다.

. 잘 되는지 확인해보자.

- 출판사별 발행 도서 개수 산점도 그리기

. 교재와는 다르게, 내가 이용하는 도서관의 데이터로 진행해봤다.

. 모든 데이터가 아닌 Top 30 출판사를 뽑아서 사용한다.

. 산점도를 그리면 된다!

. Marker 크기를 확인하거나 설정을 할 수도 있다.

. 그냥 점이 아니라 크기에 따라 의미를 부여해보자. (대출건수)

- 맷플롯립의 다양한 기능으로 그래프 개선하기

06-2 맷플롯립의 고급 기능 배우기

- 실습준비하기

. 한글 폰트 설치 및 도서관 CSV 파일 읽어오기 (앞에서 진행했던 내용 활용)

- 하나의 피겨에 여러 개의 선 그래프 그리기

. 대출건수 크기가 유사한 출판사 2개를 선택해서 그려보자

. 레전드를 표현하거나 모든 출판사 정보를 그려보거나 해보자.

. 피봇 테이블을 이용해서 데이터를 만들어서 stackplot으로 그려보자.

- 하나의 피겨에 여러 개의 막대 그래프 그리기

. 나란히 나오도록 할 수도 있다.

. 2개의 bar 그래프를 합쳐서 그리는 2가지 방법이 있다.

. 데이터 값 누적한 것을 그려보기 위해서 데이터를 먼저 확인해보자

. cumsum()을 이용해서 누적 데이터를 만들 수 있다.

- 원 그래프 그리기

. 10개 출판사를 뽑아서 pie를 그리면 된다.

. startangle 및 여러 옵션들을 줘서 멋진 원 그래프를 만들 수 있다.

- 여러 종류의 그래프가 있는 서브플롯 그리기

. 앞에서 살펴본 것들의 종합판이다!

. 한 방에 모두 그려진다!!!

- 판다스로 여러 개의 그래프 그리기

. DataFrame에서 바로 그래프를 그릴 수도 있다.

▶ 기본 미션

p.344의 손코(맷플롯립의 컬러맵으로 산점도 그리기)를 코랩에서 그래프 출력하고 화면 캡쳐하기

→ 코랩이 아닌 로컬 환경에서 실행해봤다 ^^

▶ 선택 미션

p.356~359의 스택 영역 그래프를 그리는 과정을 정리하기

① 기본 데이터 준비

- 작업 준비 과정이다.

② 그래프로 표현할 데이터 만들기

- Top30 출판사 기준으로 "출판사 / 발행년도 / 대출건수"를 추출하고,

- "출판사 / 발행년도" 기준으로 그룹핑을 하면서, 대출건수는 sum()을 했다.

- 전체적으로 reset_index()까지 해줬다.

③ pivot_table()

- 발행년도를 X축으로 하고, 출판사를 Y축으로 하고, 대출건수를 데이터로 하는 테이블을 만든다.

④ get_level_values()

- pivot_table()을 사용했다보니, column이 다단으로 구성되어 있다.

- 이런 경우 원하는 레벨의 값만 추출하기 위해 get_level_values()를 사용했다.

⑤ stackplot()

- 이제 그래프를 그리면 된다.

우와~~~ 다했다!!!!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼공머신] 1주차 - CH02. 데이터 다루기 (0)	2024.07.07
[혼공머신] 1주차 - CH01. 나의 첫 머신러닝 (0)	2024.07.07
[혼공데분] 5주차_데이터 시각화하기 (0)	2024.02.01
[혼공데분] 4주차_데이터 요약하기 (0)	2024.01.28
[혼공데분] 3주차_데이터 정제하기 (1)	2024.01.21

[혼공데분] 5주차_데이터 시각화하기

2024. 2. 1. 17:37

뭔가 내가 대단해진 것 같은 느낌!!! 그 이유는? 책의 절반을 넘겨서?! ^^

▶ 내용요약

5-1 맷플롯립 기본 요소 알아보기

- plt.figure(figsize=(x, y)) : 그래프 크기
- plt.figure(dpi=d) : DPI
. plt.figure(figsize=(x/d, y/d)) : 이처럼 계산하면 크기를 계산하면서 조절할 수 있다
- plt.rcParams[parameter] : 관련 속성값을 확인하거나 설정할 수 있음
- fig, axs = plt.subplots() : 그래프 묶음 관리. axs 를 통해 각 그래프를 지

5-2 선 그래프와 막대 그래프 그리기

- plt.plot() : 선 그래프

plt.plot(count_by_year.index, count_by_year.values)
plt.title('Books by year')
plt.xlabel('year')
plt.ylabel('number of books')
plt.show()

- marker='.', linestyle=':', color='red' : 꾸미기 옵션
. '*-g' : 여러 옵션을 한 방에 해치우기
- plt.xticks() : 눈금값 설정하기

plt.plot(count_by_year, '*-g')
plt.title('Books by year')
plt.xlabel('year')
plt.ylabel('number of books')
plt.xticks( range(1947, 2030, 10) )
plt.show()

- plt.annotate() : 값 텍스트 출력
. xytext : 출력 위치 보정
. textcoords : 상대값으로 위치 보정

plt.plot(count_by_year, '*-g')
plt.title('Books by year')
plt.xlabel('year')
plt.ylabel('number of books')
plt.xticks( range(1947, 2030, 10) )
for idx, val in count_by_year[::5].items():
# plt.annotate(val, (idx, val), xytext=(idx+1, val+10))
plt.annotate(val, (idx, val), xytext=(2, 2), textcoords='offset points')
plt.show()

- plt.bar() : 막대 그래프

plt.bar(count_by_subject.index, count_by_subject.values)
plt.title('Books by subject')
plt.xlabel('subject')
plt.ylabel('number of books')
plt.xticks( range(1947, 2030, 10) )
for idx, val in count_by_subject.items():
plt.annotate(val, (idx, val), xytext=(0, 2), textcoords='offset points')
plt.show()

- plt.annotate() : 값 텍스트 출력
. fontsize : 폰트 크기
. ha : 정렬

plt.bar(count_by_subject.index, count_by_subject.values, width=0.7, color='blue' )
plt.title('Books by subject')
plt.xlabel('subject')
plt.ylabel('number of books')
plt.xticks( range(1947, 2030, 10) )
for idx, val in count_by_subject.items():
plt.annotate(val, (idx, val), xytext=(0, 2), textcoords='offset points',
fontsize=9, va='center', color='green')
plt.show()

- plt.barh() : 막대 그래프 (세로)
. height : 막대의 높
. plt.annotate(va='center') : 정렬 (세로)

plt.barh(count_by_subject.index, count_by_subject.values, height=0.7, color='blue' )
plt.title('Books by subject')
plt.xlabel('subject')
plt.ylabel('number of books')
plt.xticks( range(1947, 2030, 10) )
for idx, val in count_by_subject.items():
plt.annotate(val, (val, idx), xytext=(2, 0), textcoords='offset points',
fontsize=8, ha='center', color='green')
plt.show()

그래프에 대한 용어 파악을 위해 캡쳐&편집 해봤다.

(이런 정성을 보여야 우수 혼공족이 될 것 같은 욕심이........ 😁)

▶ 기본 미션

p. 314의 손코딩(맷플롯립에서 bar()함수로 막대 그래프 그리기)을 코랩에서 그래프 출력하고 화면 캡처하기

코랩에서는 다른 분들도 많이 할테니, 나는 나만의 환경에서~ ^^

① 데이터 불러오기 및 컬럼 정리

- 지난 번에 '발행년도'를 int64로 만들기 위해 별의별 짓을 다 했는데 ... 간단히 끝냈다. 이런....

② 그래프 그리기

- 나는 왜 매번 이상한 결과가 나오지!? ㅠ

③ sort_index

- 'count_by_year' 의 index 값이 제대로 정렬이 되지 않아서 발생한 이슈이다.

- 그래서, sort_index를 해줘야 한다.

④ graph

- 이제 다시 그래프를 그려보자.

그런데, 미래에 출간된 책들은 정체가 뭘까!?

▶ 선택 미션

p. 316의 손코딩(텍스트 정렬, 막대 조절 및 색상 바꾸기)을 코랩에서 출력하고 화면 캡처하기

① 데이터 불러오기 및 컬럼 정리

- 책에 있는 내용대로 데이터를 만들었다.

② graph

- 이거... 바로 결과가 나오니 뭔가 불안하다. 뭐지 ?!

주말에 가족여행이 있어서, 조금 서둘러 공부했다 !!! 아자 !!! 아자 !!!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼공머신] 1주차 - CH01. 나의 첫 머신러닝 (0)	2024.07.07
[혼공데분] 6주차_복잡한 데이터 표현하기 (0)	2024.02.09
[혼공데분] 4주차_데이터 요약하기 (0)	2024.01.28
[혼공데분] 3주차_데이터 정제하기 (1)	2024.01.21
[혼공데분] 2주차_데이터 수집하기 (2)	2024.01.16

[혼공데분] 3주차_데이터 정제하기

2024. 1. 21. 02:23

어느덧 3주차 스터디까지 왔다! 와아 ~~~~ !!!

2주차 우수혼공족에 선정되어 간식 선물까지 받았다 ~~~ !!! 꺄아 ~~~~ !!!

▶ 요약

3-1. 불필요한 데이터 삭제하기
- *.loc[]
  . slicing(슬라이싱)
    ( *.loc[:, '번호':'등록일자'] )
  . boolean array(불리언 배열)
    ( df.loc[:, df.column != 'map'] )
- *.drop()
  . 지칭하는 column을 삭제
    ( *.drop(column_name, axis=1) )
  . 지칭하는 row를 삭제
    ( *.drop([0,1]) # 0행, 1행을 삭제 )
- *.dropna()
  . NaN 값을 1개라도 갖고 있으면 column 삭제
    ( *.dropna(axis=1) )
  . NaN 값을 모두 갖고 있으면 column 삭제
    ( *.dropna(axis=1, how='all') )
- *.duplicated()
  . 지정한 columns의 값이 동일하면 중복된 행의 값을 리턴
    ( *.duplicated(subset=['도서명','저자','ISBN'], keep=False) )
- *.groupby()
  . 지정한 columns의 값이 동일한 것들을 묶어줌
    ( *.groupby(by=['도서명', '저자', 'ISBN', '권'], dropna=False).sum() )

3-2. 잘못된 데이터 수정하기
- *.info()
  . DataFrame의 다양한 통계를 보여주는 유용한 method
- *.isna()
  . NaN 값을 갖고 있는 column을 보여줌
    ( *.isna().sum() )
- Nan
  . None
  . np.nan
- *.fillna()
  . NaN 값을 갖고 있는 columns에 지정한 값을 채움
    ( *.fillna('없음') )
    ( *['부가기호'].fillna('없음') )
    ( *.fillna( {'부가기호':'없음'} ) )
- *.replace()
  . 값 exchange
    ( *.replace(np.nan, '없음') )
    ( *.replace( [np.nan, '2021'], ['없음', '21']) )
    ( *.replace( {np.nan: '없음', '2021' : '21']) )
    ( *.replace( {'부가기호': np.nan}, '없음') )
    ( *.replace( {'부가기호': {np.nan : '없음'}, '발행년도': {'2021' : '21'}} ) )
  . 정규표현식
    ( *.replace( {'발행년도': {r'\d{2}(\d{2})' : r'\1'}}, regex=True) )

▶ 기본 미션

p. 182의 확인 문제 2번 풀고 인증하기

[문제]

1번 문제의 df1 데이터프레임에서 'col1' 열의 합을 계산하는 명령으로 올바르지 않은 것은 무엇인가요?

① df1['col1'].sum()

② df1[['col1']].sum()

③ df1.loc[:, df1.columns == 'col1'].sum()

④ df1.loc[:, [False,False,True]].sum()

※ 위 문제에서 bold 표기한 부분은 책에서 잘못된 부분을 수정한 내용입니다.

- 문제에서 "것은" 부분이 빠져있었습니다.

- 보기에서 "df"가 아니라 "df1"이라고 해야합니다.

[풀이]

④ 에서 boolean으로 표기된 내역을 보면 [False,False,True]로 되어있기에 'col1'이 아니라 'col3'의 합계가 출력된다.

그러면, 이것을 검증해보자.

일단, 데이터를 준비해봤다.

NaN 값을 처리하기 위해 Numpy의 np.nan을 사용했다.

각 보기의 값을 확인해보자.

확인 끝~

▶ 선택 미션

p. 219의 확인 문제 5번 풀고 인증하기

[문제]

다음과 같은 df 데이터프레임에서 df.replace(r'ba.*', 'new', regex=True)의 결과는 무엇인가요?

보기는 생략.

※ 위 문제에서 bold 표기한 부분은 책에서 잘못된 부분을 수정한 내용입니다.

- 문제에서 "같은" 부분이 빠져있었습니다.

[풀이]

정규식을 이용한 replace() 문제이다.

정규식을 보면 r'ba.*' 부분을 살펴보면 'ba'로 시작하는 문자열을 지칭하고 있다.

그래서 'ba'로 시작하는 문자열을 'new'로 바꿔치기하면 된다.

교재(책) 보기로 보면 ③ 번에 해당하는 결과가 정답이 된다.

이것을 검증해보자.

이번 Chapter는 비교적 수월했다.

남은 기간 스스로에게 파이팅 !!!

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼공데분] 5주차_데이터 시각화하기 (0)	2024.02.01
[혼공데분] 4주차_데이터 요약하기 (0)	2024.01.28
[혼공데분] 2주차_데이터 수집하기 (2)	2024.01.16
[혼공데분] 1주차_데이터 분석을 시작하며 (1)	2024.01.07
[혼공학습단 11기] 혼자 공부하는 데이터 분석 with 파이썬 (0)	2023.12.27

PREV 1 2 NEXT

혼공

▶ 기본 숙제 (필수)

▶ 추가 숙제 (선택)

'Books' 카테고리의 다른 글

▷ 기본 숙제

▷ 추가 숙제

'Books' 카테고리의 다른 글

'Books' 카테고리의 다른 글

'Books' 카테고리의 다른 글

05-1 결정 트리 (Decision Tree)

05-2 교차 검증과 그리드 서치

05-3 트리의 앙상블 (Ensemble)

기본 숙제 : 교차 검증을 그림으로 설명하기

추가 숙제 : 앙상블 모델 손 코딩

'Books' 카테고리의 다른 글

▶ 내용 요약

06-1 객체지향 API로 그래프 꾸미기

06-2 맷플롯립의 고급 기능 배우기

▶ 기본 미션

▶ 선택 미션

'Books' 카테고리의 다른 글

▶ 내용요약

5-1 맷플롯립 기본 요소 알아보기

5-2 선 그래프와 막대 그래프 그리기

▶ 기본 미션

▶ 선택 미션

'Books' 카테고리의 다른 글

▶ 요약

▶ 기본 미션

[문제]

[풀이]

▶ 선택 미션

[문제]

[풀이]

'Books' 카테고리의 다른 글

티스토리툴바