뭔가 흐름이 끊겼지만, 포기하기는 싫어서 달려보련다!

목차 1
목차 2

 

 

06-1 군집 알고리즘 (Clustering)

- 비지도 학습

- 이미지(gray, 2차원) 데이터 다루기

 

06-2 k-평균 (KMeans)

- 하이퍼파라미터 (k)

- 최적의 k 찾기 : inertia

 

06-3 주성분 분석 (PCA)

- 차원축소

- PCA

- 설명된 분산 (explained variance ratio)

 

혼공학습 숙제

 

[ 기본 숙제 : k-평균 알고리즘 작동 방식 ]

- 비지도 학습(Unsupervised Learning)의 가장 대표적인 사례가 바로 군집화(Clustering)이다.

- 군집화(Clustering)의 가장 대표적인 알고리즘이 바로 K-평균(K-Means) 알고리즘이다.

 

- centroid(중심점)을 기준으로 데이터들과의 거리를 최소화하는 것을 목표로 한다.

- 거리를 계산하는 여러 방법이 있으나 보통 유클리드 거리(Euclidian Distance) 방식을 사용한다.

 

- 이를 이용하여 K-Means 알고리즘은 다음과 같은 방식으로 최적화 한다.

 

 

[ 추가 숙제 : Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기 ]

 

1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇 개일까요?

→ 주성분 분석(PCA)라는 것은 차원 축소 방법 중 하나로써, 원본 데이터의 특성 개수와 같거나 적을 수 있다.

     그러므로 정답은 ②번이긴 할텐데.... 사실 ①번이라고 해도 틀렸다고 하기 힘들지 않을까 한다.

     "이 데이터셋에서 찾을 수 있는 최대 주성분 개수는 몇 개일까요?"라고 하는 것이 맞을 것 같다.

 

2. 샘플 개수가 1,000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?

→ 10개의 주성분을 찾아 변환했다고 했으니 당연하게도 ①번이 정답이다.

 

3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?

→ 분산이 큰 것부터 정렬되므로 ①번 첫 번째 주성분의 분산이 가장 크다.

 

그냥 문제 풀기만 하니까 아쉬워서 직접 코드로 증명을 해봤다.

 

 

여기까지~!!

반응형

첫 주는 조금 여유로울줄 알았는데, 공부할게 많다.

 

 

02-1. 훈련 세트와 테스트 세트

확인 문제를 통해 이 부분을 공부해보자.

 

1. 머신러닝 알고리즘의 한 종유로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습방법은 무엇인가요?

- 머신러닝은 크게 지도학습과 비지도학습으로 구분할 수 있고, 정답을 알고 있는 경우 지도학습을 적용한다.

→ ① 지도학습

 

2. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?

- 훈련 세트와 테스트 세트를 만들 때 전체적인 데이터 분포를 유지하는 것이 중요하며 그렇지 못한 경우 편향을 보인다.

→ ④ 샘플링 편향

 

3. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?

- 문제 해석이 조금 오해의 여지가 있어 보이지만, 특성은 열(column)로 나열되어 있고 데이터의 구분은 행으로 된다.

→ ② 행: 샘플, 열: 특성

 

 

 

02-2. 데이터 전처리

이 책은 초보자를 위한 수준은 아닌 것 같고, 기본 지식이 좀 있어야 따라갈만한 것 같다.

어쩐지 처음 이 책으로 공부할 때 왠지 자괴감이 좀 들더라니..... ㅠㅠ

 

분산 = 기대값(평균)으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자

표준편차 = 분산의 제곱근

 

 

표준화(Standardization) = 평균을 0, 분산을 1로 만들어주는 스케일링 기법 (Z-Score 활용)

 

기본이 될만한 것들을 같이 정리하면서 공부해봐야겠다.

반응형

 

파이썬으로 자연어 처리를 하고 싶다면

공부해볼만한 책 한 권을 소개하고자 한다.

 

표지

 

원서 제목은 다음과 같다.

"Blueprints for Text Analytics Using Python"

 

초판

 

발행한지 얼마 안된 따끈따끈한 책이다.

 

원서는 2020년 12월에 출간되었으니

약 2년의 시차가 있어서 조금 아쉽기는 하지만

지금 공부하기 해서 활용하는데에는 부족함이 없다.

 

독자

 

이 책은 텍스트 분석에 대해서 처음 접하는 분들이 아니라

텍스트 분석을 실제 구현하고자 하는 분들을 위한 책이다.

 

제약

 

다만, 기본적으로 영어를 기반으로 하기 때문에

한글 텍스트 분석을 위해서는

추가적인 학습이 필요하긴 하다.

 

원서와 2년의 차이가 있는데,

이왕이면 실습 코드만이라도 한글 지원을 추가해줬으면

훨씬 더 좋았을 것 같다.

 

챕터 개요

 

각 챕터(장)에서 어떤 데이터셋을 사용하고

어떤 라이브러리를 이용했는지

깔끔하게 정리를 해줘서

필요할 때 손쉽게 찾아볼 수 있다.

 

추천 도서

 

이 책에서는 기본적인 이론 등에 대해서 설명해주지 않기 때문에

추가적으로 공부하면 좋을 책들을 추천해주고 있다.

 

심지어 한빛미디어 출판이 아닌 책도 추천을 해준다 ^^

 

본문

 

책은 아쉽게도 흑백이다.

컬러 추종자로써 조금 아쉽다 ^^

 

원서 eBook을 보면 컬러로 나오던데...

 

구성

 

각 챕터(장)별로

학습목표와 데이터셋에 대한 설명을 해준다.

 

해당 챕터에서 뭘 하고자 하는 것인지

어떤 데이터를 가지고 하는 것인지

설명을 해주기에 공부할 때 많은 도움이 된다.

 

 

그리고, 중요한 실습 코드 !!!

 

https://github.com/blueprints-for-text-analytics-python/blueprints-text

 

실습 코드

각 챕터별로

README.md

내용을 너무나 예쁘게 잘 작성해줘서 기분이 좋았다.

 

JupyterNotebook

 

JupyterNotebook 파일도 깔끔하게 작성되어 있다.

 

사실 책 내용을 보면 책에서 설명하고 있는 내용이

JupyterNotebook 파일에 작성되어 있으면

공부할 때 훨씬 더 손쉽게 접근할 수 있을 것 같지만...

그것까지 바라는 것은 욕심인 것 같기도 하고...

 

 

NLP에 대해서 기본적인 사항을 공부한 다음

실제 코드로 만져보고 싶은 분들에게는

엄청 유용한 도움이 될 책이다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

 

표지

 

최근 전세계적인 어려운 경제 상황에

운명처럼 만나게 된 책

 

"파이썬 기반 금융 인공지능 (Artificial Intelligence in Finance)"

 

초판 1쇄

 

받아본 책은

이제 태어난지 갖 1달 된 따끈따끈한 책이지만...

원서는 2020년에 첫 출간되었었다.

 

First Edition

 

2년이 지난 책이라 조금 아쉬움은 있지만,

그래도 이렇게 번역서가 나온 것만으로도 정말 고마운 일이다.

 


예전에 퀀트 투자 관련된 책을 살짝 살펴본 적이 있었는데

그래서인지 이 책 제목을 보고

제일 먼저 든 생각은

"이 책도 퀀트 투자 관련된 것이겠구나!"

였다.

 

 

그래서 살펴본 목차는 다음과 같다.


[PART I 기계지능]

CHAPTER 1 인공지능
CHAPTER 2 초지능

[PART II 금융과 머신러닝]

CHAPTER 3 규범적 금융
CHAPTER 4 데이터 기반 금융
CHAPTER 5 머신러닝
CHAPTER 6 인공지능 우선 금융

[PART III 통계적 비효율성]

CHAPTER 7 밀집 신경망
CHAPTER 8 재귀 신경망
CHAPTER 9 강화 학습

[PART Ⅳ 알고리즘 트레이딩]

CHAPTER 10 벡터화된 백테스팅
CHAPTER 11 리스크 관리
CHAPTER 12 집행 및 배포

[PART Ⅴ 전망]

CHAPTER 13 인공지능 경쟁
CHAPTER 14 금융 특이점

[PART Ⅵ 부록]

APPENDIX A 상호작용형 신경망
APPENDIX B 신경망 클래스
APPENDIX C 합성곱 신경망

 

 

퀀트 투자 책인 것은 맞지만,

금융 데이터들을 어떻게 AI를 활용하면 좋을지에 대해서

포커스가 맞춰진 책이다.

 

목차 설명

각 목차 앞에서는 어떤 의도로 작성되었는지,

어떤 내용인지에 대해서 설명을 먼저 해주고 있다.


정말 친절하게도 학습 플랫폼도 제공을 해주고 있다.

 

https://aiif.pqp.io/

 

학습 플랫폼

 

이메일 주소를 가지고 계정을 등록해야하는 불편함은 있다.

이메일 인증 후 로그인 하면 다음과 같은 플랫폼을 사용할 수 있다.

 

Jupyter Notebook

 

커널도 제공을 하고 있는 것 같지만,

뭔가 설정을 필요로 하는 것인지...

실제 실행을 하면 에러가 발생했다.

 

커널 에러

 

다운로드 받아서 colab에서 실행을 해보니

잘 된다.

 

colab


금융데이터를 가지고 어떻게 인공지능(AI/ML)을 이용해서

다뤄야 할지 공부할 수 있는 좋은 책이다.

 

이 책에서 다루는 라이브러리는 다음과 같은데,

 

python / scikit-learn / tensorflow / keras

 

일반적으로 많이 사용되는 라이브러리들이기에

많은 분들에게 쉽게 다가설 수 있을 것이다.

 

다만, 소스코드를 제공하는 방식이

사실 조금 불편하긴 하다.

 

본래 플랫폼까지 제공해주려는 의도인 것 같기는 하지만

그냥 GitHub로 제공을 해주고

Colab을 사용하도록 가이드하는 것이

훨씬 더 접근성이 좋지 않았을까 한다.

 

소스코드가 업데이트 된지도 2년이 되었던데,

독자적인 플랫폼 제공이 어떤 의미가 있는지는....

 

언젠가 퀀트 투자를 이용해서 용돈벌이를 할 수 있기를 꿈꾸며

여기까지 서평을 마치겠다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

 

컴퓨터공학을 전공한 코딩쟁이로써

머신러닝, 딥러닝을 공부하면서 항상 수학이라는 엄청난 장벽에 어려움을 겪고 있다.

(공돌이라고 누구나 수학을 잘하지 않아요 !!! 😥)

 

나는 엔지니어(Engineer)이지 사이언티스트(Scientist)가 아니다.

사실 GPT-3에서 사용된 Transformer가 어떤 특징이 있는지 그런건 별로 궁금하지 않다. 😑

 

내가 관심있는 것은 그것을 어떻게 구현했는지 이고,

그걸 사용하려면 어떻게 해야하는지 그런 것이 훨씬 더 궁금하다.

 

그런데, 역시 오레일리에서는 나같은 코딩쟁이들을 위한 책을 내놨고,

멋진 한빛미디어에서 존경스러운 박해선님이 번역한 책을 출간해주셨다 !!! 😍

 

표지

 

말 그대로 "개발자를 위한 (For Coders)" 책이다 !!!

 

한글판은 나온지 얼마 안된 따끈따끈한 책이지만, 원서는 2020년 10월 1일에 출간했으니 시간이 좀...

하지만, 머신러닝 번역서의 장인이신 박해선님이 예제를 비롯하여 내용들을 모두 살펴봐주셨으니, 믿습니다 !!! 😎

 

초판

 

다시 한 번 말하지만, 이 책은 개발자를 위한 책이다.

모델의 수학적 배경을 알고 싶다거나 머신러닝 자체에 대해서 공부하기를 원한다면 다른 책을 찾아봐야 한다.

 

아! 그리고, 이 책은 텐서플로(Tensorflow)를 사용하고 있다.

파이토치(PyTorch)를 원한다면 역시 다른 책을 ... 🙄

 

대상 독자

 

이 책은 크게 `모델구축``모델 사용`의 두 묶음으로 구분이 되어 있다.

 

`모델 구축`에 있어서도 (비전, 자연어, 시퀀스) 3가지 유형에 대해서 모두 설명해준다.

 

모델 구축

 

`모델 사용` 부분에서는 모바일 환경에서 사용할 수 있는

`텐서플로 라이트(Tensorflw Lite)`를 설명해주고 있으며 심지어 iOS 앱으로 구현하는 것까지도 알려준다.

 

모델 사용

 

그리고, 20장을 보면

짧게나마 윤리/공정성/개인정보에 대한 이야기도 해준다.

 

 

책의 전체적인 내용에 대해서

박해선님이 직접 설명해주신 그림도 있다.

 

[출처] https://tensorflow.blog/aiml4coders/

 

 

'이론과 실습' 측면에서 바라보면 이 책은 '실습'에 충실한 책이다.

뒤늦게 머신러닝을 공부하고자 하는 개발자에게는 속시원한 책이지 않을까 한다.

 

 

책의 정오표는 아래 링크에서 확인할 수 있다.

  - https://tensorflow.blog/aiml4coders/

 

 

예제 파일(쥬피터 노트북)은 아래 링크에서 확인할 수 있다.

  - https://github.com/rickiepark/aiml4coders

 

예제 파일은 원서의 것을 그대로 공유하는 것이 아니라

박해선님이 확인하고 다듬어서 올려주신 것으로 알고 있다.

 

주석이 별도로 없는 것은 조금 아쉽지만, 그래도... !!! 😋

 

 

마지막으로,

개인적인 취향으로 ... 이 책은 Coloful 하다 !!! 😁

 

그림

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

반응형

 

제목 그대로

사용자 친화적인 케라스(Keras)로 딥러닝(Deep Learning)을 공부할 수 있는 책이다.

 

책표지

 

4월에 출간된 따끈따끈한 책이다.

 

발행일

 

책을 볼 때에는 새하얀 종이에 컬러풀한 인쇄로 보기에 아주 좋은데,

조명 아래에서 책 사진을 찍었더니 아래처럼 빛 반사가 좀 있다(사실 책 볼 때에도 조명 반사가 좀...).

 

구성 1

 

정말 친절하게도 책의 구성에 대해서 서술형으로 설명을 해주고 있다.

 

책의 목차만 가지고 전체적인 흐름을 파악하거나 각 챕터에 대해서 이해를 하기에는 어려울 때가 있는데

이렇게 친절하게 책의 구성에 대해서 이야기 해주는 것처럼 설명이 있어서 정말 좋았다. 

 

구성 2

 

책이 쉬운 것 같으면서도 어려운데,

신경망(Neural Network)의 전체적인 내용을 책 한 권에 모두 담고 있다보니 뒷부분은 사실 좀 어려웠다.

 

(사실 내가 딥러닝에 대해 깊이 알지 못하고 앞부분만 알고 있다보니 뒷부분이 마냥 어렵게 느껴졌을 것이다!)

 

신경망

 

처음에 책을 접했을 때 좀 당황했던 것이 "ANN"이라는 용어였다.

 

ANN (Artificial Neural Network, 인공신경망) 이라는 명칭은 보통

생물학적인 신경망, 즉 Neuron(뉴런)에서 영감을 얻어 발발된 통계학적인 학습 알고리즘을 지칭하는

일반적인 용어로 알고 있었다.

 

그런데, 이 책에서는 SNN(Shallow Neural Network, 얕은 신경망), 2-layer Neural Network,

또는 그냥 NN(Neural Network)이라고 부르는 제일 단순한 NN을 지칭하는 용어로 ANN을 사용하고 있다.

 

물론, 이런 내용은 책에서 잘 설명해주고 있다.

 

그리고 이론적인 내용도 너무나 잘 설명해주고 있다.

 

ANN

 

책에서 기대하는 대상 독자는 광범위 하다.

Deep Learning을 공부하는 모두가 대상 독자이다.

 

대상 독자

 

예제 소스 코드도 너무나 잘 제공해주고 있다.

 

   - https://github.com/jskDr/keraspp_2022

 

GitHub

 

책을 살펴본 개인적인 의견으로 말하자면,

이 책은 Deep Learning을 공부하면서 직접 코드로 구현을 어떻게 하는지 살펴보고 싶은 초급자에게 적합할 것 같다.

 

책도 그렇고, 제공해주는 예제 소스도 보면

옆에서 강사님이 친절하게 설명해주는 느낌처럼 쓰여져 있다.

 

이 부분이 어떤 용도인지 왜 그렇게 되는 것인지 설명해주듯이 쓰여져 있어서

혼자서 공부하기에 적합한 것 같다.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

 

사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

Introduction to Machine Learning with Python

파이썬 라이브러리를 활용한 머신러닝 (번역개정2판)

 

표지

 

C / C++ / Java 등의 프로그래밍 언어를 공부하고

Linux, Server, Network 등에 대해서 경험을 쌓아오며 지금까지 밥벌이를 해온 나에게

머신러닝 / 딥러닝 이라는 신문물이 등장하면서 상당한 당혹감을 느낄 수 밖에 없었다.

 

그래서 먹고 살기 위해 머신러닝에 대해 공부를 시작할 수 밖에 없었는데,

벡터, 행렬, 접선, 미분 ... 나를 괴롭히는 수학 !

이과생이지만 사실 수포자인 나에게 정말 가혹한 현실이 아닐 수 없다.

 

지금까지 Software Engineer로 먹고살아온 나로써는

이러한 수학적인 접근 보다는

라이브러리를 이용한 활용 중심으로도 접근해보고 싶다는 생각이 있었다.

 

이에 걸맞는 책이 바로 이 책이 아닐가 싶다.

 

번역개정2판 1쇄

 

나와 같은 Needs가 있는 사람이 적지 않았던 것 같다.

2017년 초판에 이어 개정판을 한 번도 아니고 두 번째나 발행 한 것을 보면 말이다.

 

번역개정2판 특징

 

그런데, 개정을 해주는 것만으로도 감지덕지인데, 그냥 그저 그런 수정판이 아니다.

scikit-learn 1.x 버전에 맞춰 업데이트 된 것 뿐만 아니라 내용도 더 추가가 되었다.

 

구성

 

오래된 이미 검증된 책이라 그런지

책의 전체적인 구성도 너무나 잘 요약해서 설명해주고 있다.

 

저자 인터뷰

 

한국어판을 위한 저자 인터뷰도 실려있다.

형식적인 인터뷰가 아니라 독자들의 질문에 대한 답까지 포함된

저자의 솔직한 심경도 그대로 담겨진 그런 인터뷰다.

 

한국어판 부록

 

목차를 보면 한국어판에서 추가된 항목을 볼 수 있다.

Chapter 한 개당 하나 정도씩 추가 되어 있고, 그 내용도 정말 충실하다.

 

술술

 

개조식 서술 방식이 아니라 이야기 하는 방식으로 풀어나가는 책 내용도 정말 마음에 든다.

말 그대로 술술 읽어나가며 공부할 수 있기에 책에 대한 부담감이 훨씬 적게 느껴지기 때문이다.

 

 

그리고 이 책의 가장 큰 장점 중 하나라고 꼽고 싶은 예제 파일 !!!

  - https://github.com/rickiepark/intro_ml_with_python_2nd_revised

 

옮긴이 박해선님이 훨씬 더 좋게 업그레이드 해준 내용을 담고 있다.

 

 

최근 딥러닝의 인기에 조금 버림받은 것 같은 느낌이 들긴하지만

사실 대부분의 문제는

scikit-learn으로 구현되는 머신러닝으로 해결하는 것이 훨씬 더 효율적이지 않을까 한다.

 

머신러닝 또한 수학적인 배경을 갖고 깊이 공부하는 것이 중요하긴 하지만

활용을 중심으로 scikit-learn 라이브러리 활용에 대해 공부하는 것도 괜찮은 접근일 것이다.

 

 

요즘 공부할 것이 너무 많아 걱정이긴 하지만

꼭 공부해야할 책 목록에 이 책을 꼭 포함시킬 것이다 !!!

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

 

최근 많은 분들이 관심을 갖고 있는 "MLOps"는

"Machine Learning"과 "DevOps"가 합쳐진 것으로 지속적인 학습과 배포가 이루어지도록 하는 것을 의미한다.

 

이런 `MLOps`를 공부하기에 앞서서 먼저 알아야 할 것이

바로 "머신러닝 엔지니어링 (MachineLearning Engineering)"이다.

 

그리고, "머신러닝 엔지니어링 (MachineLearning Engineering)"에 대해서

제대로 공부할 수 있는 책이 나왔다.

 

표지

 

책 표지가 너무 깔끔하게 잘 나온 것 같다~^^

 

1쇄

 

21년의 마지막날 하루 앞두고 발행되었다!!!

 

 

MachineLearning에 대한 책들을 보면 거의 대부분 Modeling에 집중되어 있다.

하지만, 실제 이를 적용하기 위해서는 Modeling만 알아서는 충분하지 않다.

이를 어떻게 응용할 것인지, 어떻게 적용할 것인지가 중요하다.

 

그렇기에 책의 서두를 보면, 이 책의 정체성에 대해서 잘 설명해주고 있다.

 

"Applied MachineLearning"

 

applied machinelearning

 

책의 구성을 보면 프로젝트의 시작 전부터 하나씩 친절하게 설명을 해주고 있다.

 

Chapter 2

 

기술적인 부분에 대해서만 설명해주는 것이 아니라

어떤 데이터가 좋은 데이터인지, 어떤 전략으로 샘플링을 해야하는지와 같이

정말 꼼꼼하게 잘 설명해주고 있다.

 

Chapter 3

 

당연한 이야기이지만, MachineLearning에서 가장 중요한 것은 데이터이기에

데이터에 대해서 상당한 분량을 투자해서 잘 설명해주고 있다.

 

Chapter 9

 

데이터들을 수집해서 잘 정리하고 모델링을 해서

잘 만들어진 모델을 멋지게 서빙까지 하는 과정에 대해서 설명을 잘 해준다.

 

 

하지만, 이 책에서는 ML Engineering에 대한 이론적인 측면에서 설명을 해주고 있지

실제 사용되는 도구들을 통해 구현적인 측면에서는 언급해주고 있지 않다.

 

서빙

 

머신러닝 파이프라인에 있어서 각 단계별로 어떤 것들을 염두에 두어야 하는지

어떤 것들을 알고 있어야 하는지에 대한 이론을 설명해주고 있다.

 

즉, 그래서 실제로 어떤 도구들을 어떻게 구축해야할지를 고민하시는 분들에게는 적합하지 않고

머신러닝을 실제 업무에 적용하기 위해 어떤 단계들로 구성이 되어있는지

각 단계별로 어떤 것들을 고민하고 조심해야하는지를 알고 싶으신 분들에게 적합할 것 같다.

 

 

※ 제이펍 서평단 활동을 위해 지급 받은 도서에 대한 리뷰입니다.

 

반응형

+ Recent posts