개인적으로 뭘 해보고자 하는게 있어서 요즘 잠깐 잠깐 만들고 있는 프로젝트가 있다.

- NAVER API를 이용해서 블로그 검색하기 (with Python)

 

그런데, 검색된 블로그 포스팅들을 화면에 출력만 할 것이 아니라 저장을 해놓고 싶은데,

그냥 JSON 형태로 저장하거나 CSV 형태로 저장하기엔 싫어서 SQLite를 이용해보려고 한다.

 

SQLite에 대한 기본적인 사항은 다음 포스팅을 참고하기 바란다.

- SQLite에 대해서 알아보자

 

 

0. 개발 환경

- OS: Ubuntu 20.04

- Lang: Python 3.10.9

 

 

1. 기본 코드

블로그 포스팅을 검색하는 코드는 이미 아래와 같이 살펴봤다.

- NAVER API를 이용해서 블로그 검색하기 (with Python)

 

 

2. SQLite 활용

기본 작성한 코드에서 이것 저것 좀 많이 업그레이드 시켰다.

 

에러메시지는 log로 남기도록 했고,

태그를 지우는 것은 BeautifulSoup 패키지를 활용하도록 했다.

 

import requests
import os
import sqlite3
from bs4 import BeautifulSoup
import logging

# 로깅 설정
logging.basicConfig(level=logging.ERROR)

class BlogPost:
    def __init__(self, title, description, link, postdate):
        self.title = self.clean_html(title)
        self.description = self.clean_html(description)
        self.link = link
        self.postdate = postdate

    def clean_html(self, text):
        if text:
            return BeautifulSoup(text, "html.parser").get_text()
        return ""

    def __str__(self):
        return f"Title: {self.title}\nDescription: {self.description}\nURL: {self.link}\nPost Date: {self.postdate}\n"

class NaverBlogSearcher:
    def __init__(self):
        self.client_id = os.getenv("NAVER_CLIENT_ID")  # 환경변수에서 Client ID 읽어오기
        self.client_secret = os.getenv("NAVER_CLIENT_SECRET")  # 환경변수에서 Client Secret 읽어오기

        # 환경변수 값이 없을 때 예외 처리
        if not self.client_id or not self.client_secret:
            logging.error("NAVER_CLIENT_ID and NAVER_CLIENT_SECRET must be set as environment variables.")
            raise ValueError("NAVER_CLIENT_ID and NAVER_CLIENT_SECRET must be set as environment variables.")

    def get_blog_posts(self, query, display=10):
        # 요청 URL 및 헤더 구성
        url = f"https://openapi.naver.com/v1/search/blog.json?query={query}&display={display}&sort=date"
        headers = {
            "X-Naver-Client-Id": self.client_id,
            "X-Naver-Client-Secret": self.client_secret,
        }

        # 네이버 API에 요청 보내기
        try:
            response = requests.get(url, headers=headers)
            response.raise_for_status()
        except requests.exceptions.RequestException as e:
            logging.error(f"Network error occurred: {e}")
            return []
        
        if response.status_code == 200:
            return self.parse_response(response.json())
        else:
            print(f"Error: {response.status_code}, {response.text}")
            return []

    def parse_response(self, data):
        # 응답 데이터 파싱
        blogs = data.get("items", [])
        blog_posts = [BlogPost(blog.get("title"), blog.get("description"), blog.get("link"), blog.get("postdate")) for blog in blogs]
        return blog_posts

class BlogPostDBHandler:
    def __init__(self, db_name="blog_posts.db"):
        self.db_name = db_name
        self.create_table()

    def create_table(self):
        # SQLite 데이터베이스 연결
        with sqlite3.connect(self.db_name) as conn:
            cursor = conn.cursor()

            # 테이블 생성
            cursor.execute('''
                CREATE TABLE IF NOT EXISTS BlogPosts (
                    id INTEGER PRIMARY KEY AUTOINCREMENT,
                    title TEXT,
                    description TEXT,
                    link TEXT UNIQUE,
                    postdate TEXT
                )
            ''')

    def save_to_db(self, blog_posts):
        # SQLite 데이터베이스 연결
        with sqlite3.connect(self.db_name) as conn:
            cursor = conn.cursor()

            # 데이터 삽입 (중복 확인)
            for post in blog_posts:
                cursor.execute('''
                    SELECT COUNT(*) FROM BlogPosts WHERE link = ?
                ''', (post.link,))
                if cursor.fetchone()[0] == 0:
                    cursor.execute('''
                        INSERT INTO BlogPosts (title, description, link, postdate) 
                        VALUES (?, ?, ?, ?)
                    ''', (post.title, post.description, post.link, post.postdate))

    def get_all_posts(self):
        # SQLite 데이터베이스 연결
        with sqlite3.connect(self.db_name) as conn:
            cursor = conn.cursor()

            # 저장된 블로그 포스팅의 모든 필드 가져오기
            cursor.execute('''
                SELECT title, description, link, postdate FROM BlogPosts
            ''')
            rows = cursor.fetchall()

        # 필드명을 갖는 dict 형태로 변환
        posts = [
            {"title": row[0], "description": row[1], "link": row[2], "postdate": row[3]} 
            for row in rows
        ]
        return posts

if __name__ == "__main__":
    # "동탄" 검색어로 최신 블로그 정보 가져오기
    try:
        searcher = NaverBlogSearcher()
        blog_posts = searcher.get_blog_posts("동탄")
        
        # 검색 결과 출력
        # for post in blog_posts:
        #     print(post)
        
        # 검색 결과를 SQLite 데이터베이스에 저장
        db_handler = BlogPostDBHandler()
        db_handler.save_to_db(blog_posts)

        # 저장된 블로그 포스팅의 제목 출력
        posts = db_handler.get_all_posts()
        for post in posts:
            print(f"Title: {post['title']}")
    except ValueError as e:
        print(e)

 

TABLE이 존재하지 않으면 create 하도록 했으며,

블로그 포스팅을 insert 하기 전에 기존에 있는지 미리 확인한 후에 없을 때에만 insert 하도록 했다.

 

아직은 PoC 성격의 스크립트 이기에,

SQLite에 저장한 이후에 전체 포스팅 목록을 SQLite로부터 읽어와서 제목들을 출력하도록 했다.

 

그리고,

추가 설치해야할 패키지들이 있기에 requirements.txt 파일도 업데이트 되었다.

 

beautifulsoup4==4.12.3
requests==2.32.3

 

 

3. Execute

실행 결과도 확인 해보고, database 내용도 살펴보자.

 

> dotenvx run -f .env -- python main.py

 

 

이렇게 저장을 하면 database 파일이 하나 생성되는 것을 확인할 수 있다.

- blog_posts.db

 

 

 

4. Check

db 파일을 확인해보기 위해서 "DB Browser for SQLite"를 사용해보겠다.

 

 

설치는 그냥 패키지 설치하면 된다.

 

> sudo apt-get install sqlitebrowser

 

잘 설치되어 있는 것을 볼 수 있다.

 

 

실행하고, "데이터베이스 열기" 하고 db 파일을 선택해주면 된다.

 

 

"데이터 보기" 탭을 선택하면 저장된 내역을 볼 수 있다.

 

 

 

오늘은 여기까지~

반응형

IT 뉴스를 읽다가 발견한 재미난 뉴스가 하나 있었다.

  - https://news.hada.io/topic?id=16044

출처: GeekNews

 

 

어!? SQLite는 그냥 가벼운 맛에 사용하는 database 아니었나!?

 

SQLite에서 발표한 내용이라 믿지 못할 수 있지만, 테스트한 내용을 보면 믿을만한 것 같다.

  - https://sqlite.org/fasterthanfs.html

출처: SQLite

 

그런데, 정말 드라마틱한 속도 차이를 보이는 것은

read latency 그래프에서 보이는 것처럼 Win10과의 비교이다. 빠르다 !!!

 

하지만, 어디까지나 제한적인 상황에서만 SQLite 사용을 추천하고,

대용량이거나 MSA와 같은 상황에서는 Postgres를 사용하는 것이 훨 나은 선택이다.

  - https://news.hada.io/topic?id=6498

 

가만히 생각해보니 SQLite라는 것을 내가 처음 들어본 것은

Android 초창기에 플랫폼 컴파일 및 App 개발해본답시고 깔짝 깔짝 거릴 때이다.

그렇다! Android에서 지금도 사용하는

튼튼한 안정성을 갖고 있는 훌륭한데이터베이스인 것은 분명하다.

  - https://www.epicweb.dev/why-you-should-probably-be-using-sqlite

  - https://news.hada.io/topic?id=11561

 

SQLite에 대한 재미있는 히스토리를 알고 싶으신 분은 다음 인터뷰 내용을 한 번 살펴보기 바란다.

  - https://corecursive.com/066-sqlite-with-richard-hipp/

  - https://news.hada.io/topic?id=4558

 

재미있는 사실 중 하나는

토발즈 아저씨(?)가 Linux Kernel 개발을 위해 Git이라는 소스코드 버전관리 도구를 만든 것처럼

리차드 힙(Richard Hipp) 아저씨도 SQLite 개발을 위해 Fossil이라는 소스코드 버전관리 도구를 만들었다!!!

  - https://fossil-scm.org/

 

 

이제 SQLite를 직접 건드려보자.

 

 

1. SQLite 확인

어떤 버전을 어떻게 설치하면 되는지 공식 사이트를 통해서 확인해보자.

https://www.sqlite.org/

 

Download 메뉴에서 제일 앞에 Android를 위한 binary 파일부터 확인된다는 것이 조금 재미있었다 ^^

https://www.sqlite.org/download.html

 

 

2. Serverless Architecture

SQLite는 Server-Client Architecture가 아닌 Serverless Architecture 방식이다.

  - https://www.sqlite.org/serverless.html

출처: https://www.whatwant.com

 

그렇기 때문에 별도의 Server 설치 과정이 없다.

 

어!? 그러면 위에서 살펴본 SQLite의 다운로드 페이지는 뭐지!?

그냥 Command-Line Tool이다.

 

 

3. SQLite Tools in Ubuntu

① Install

Ubuntu 환경에서는 그냥 패키지 설치를 하면 된다.

> sudo apt install sqlite3

출처: https://www.whatwant.com

 

② Create database

설치된 tool 버전 확인 및 database 생성은 다음과 같이 실행할 수 있다.

> sqlite3 --version

> sqlite3 test.db

 

 

 

③ Create table and example

TABLE 생성 및 간단한 사용 예시는 다음과 같다.

sqlite> CREATE TABLE TEMP (
   ...> id INTEGER PRIMARY KEY,
   ...> name VARCHAR(10),
   ...> number VARCHAR(10));


sqlite> INSERT INTO TEMP(name, number) VALUES('whatwant', '123456789');


sqlite> SELECT * FROM TEMP;

1|whatwant|123456789


sqlite> .exit

 

 

생성된 database file도 확인할 수 있다.

 

④ command

중요한 명령어 몇 가지를 보자면 다음과 같다.

Command Comments
sqlite3 {database filename} 데이터 베이스 생성하면서 접속 (기존 데이터베이스가 있으면 읽어들임)
.open {database filename} 접속된 상태에서 데이터베이스 생성. 읽기 또는 변경
.help 도움말
.database 데이터베이스 파일 위치 보기
.table 테이블 목록 보기
.show 현재 설정 보기
.clone {database filename} 데이터베이스 복제
.mode {option} select 결과 출력 방식 (list / column) column 방식 추
.quit / .exit 프롬프트 종료

 

 

4. SQLite Tools in Python

Python을 이용해서 SQLite 사용하는 예시를 확인해보자.

 

일단 패키지 관리를 위해서 가상환경 설정부터 해놓자.

> python -m venv .venv

> source .venv/bin/activate

 

 

소스코드는 다음과 같이 작성했다.

import sqlite3

conn = sqlite3.connect('test.db')
cursor = conn.cursor()

cursor.execute('SELECT * FROM TEMP')
print(cursor.fetchall())

cursor.close()

 

실행해보면 다음과 같이 예쁘게 잘 나온다.

 

 

SQLite 활용에 대해서 공부하고 싶으신 분은 다음 링크 자료를 참조하면 좋다.

  - https://wikidocs.net/book/1530

 

file-system 사용해서 데이터를 처리하는 경우

SQLite 사용에 대해서도 같이 검토해보면 좋을 것 같다.

반응형

+ Recent posts