PDF, DOCX, PPTX 같은 문서 파일이나 이미지, HTML 등을
여러 용도로 사용하기 좋게 Markdown, Json 형식으로 변환해주는 도구를 찾았다.
사실 너무 유명해서 알만한 사람들은 이미 다 알고 있는 것 같지만 ^^
- https://ds4sd.github.io/docling/
MIT 라이선스인 오픈소스 프로젝트이다.
- https://github.com/DS4SD/docling
파이썬 패키지이기 때문에 파이썬 개발 환경이 필요하다 ^^
다양한 버전의 파이썬 활용을 위한 pyenv 환경이 필요하다면 아래 포스팅을 참고하기 바란다.
- https://www.whatwant.com/entry/pyenv
1. Installation
가상환경 생성 후 docling 설치까지 진행해보자.
cuda, torch 및 의존성 있는 패키지들이 엄청 많이 설치되고 용량도 커서 시간도 좀 걸린다.
> python -m venv .venv
> source .venv/bin/activate
> pip install docling
2. Usage
공식적으로 알려주는 샘플 코드를 작성 후 실행해보자.
- https://ds4sd.github.io/docling/usage/
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "### Docling Technical Report[...]"
우쒸... GPU 환경이 필수인가보다.
그런데, Colab 환경에서도 정상적인 결과가 나오진 않는다.
3분 정도가 소요되어 정상 완료한 것처럼 나오지만,
출력되는 내용이 없다.
잘못된 것인줄 알았는데, 출력 결과 전체 화면 보기를 하니 제대로 보였다.
엔터(줄바꿈) 없이 너무 길게 string이 나와서 출력 결과가 안보였던 것이다.
뭐 일단, Colab으로 테스트를 해볼 수는 있었다.
음... 재미있긴 하지만,
속도가 그다지 빠르지 않아서... (A100이나 H100 환경에서는 조금 빠르려나!? 함 해볼까...!?)
자주 사용할 아이는 아닐 것 같다.
'Programming > Python' 카테고리의 다른 글
응 아저씨와 함께하는 파이썬 공부 (AI Python for Beginners) (1) | 2024.12.29 |
---|---|
NAVER API를 이용해서 블로그 검색하기 (with Python) (0) | 2024.11.23 |
FastHTML - 파이썬으로 웹앱 만들기 (0) | 2024.09.23 |
날씨 정보 API 활용하기 (Python) (0) | 2024.08.11 |
Python으로 어디까지 해봤니? - 1탄 (0) | 2024.06.28 |