오뚝이개발자

[Python] 파이썬 구글 이미지 크롤링 본문

Language/파이썬

[Python] 파이썬 구글 이미지 크롤링

땅어 2020. 8. 12. 16:45
728x90
300x250

AI를 구현하다보면 많은 이미지 데이터들이 필요한데 크롤링을 통해 손쉽게 이미지를 저장할 수 있다. 물론 request를 사용하여 html 구조를 분석한 뒤 해당 이미지를 긁어오는 방법도 있지만 이미 만들어진 google_images_download라는 편리한 모듈이 있다. 여기선 해당 모듈의 설치방법과 사용예시를 설명한다.

참고로 pip install google_images_download를 사용해 이미 해당 모듈을 설치했다면 pip uninstall로 삭제를 한뒤 아래의 설치를 진행해야 한다.(업데이트로 인해 기존의 방법으로 설치했을 경우 크롤링이 안되는 에러가 발생한다)

 

설치하기


커맨드 창에 "pip install git+https://github.com/Joeclinton1/google-images-download.git" 입력

 

Joeclinton1/google-images-download

Python Script to download hundreds of images from 'Google Images'. It is a ready-to-run code! - Joeclinton1/google-images-download

github.com

 

사용예시


from google_images_download import google_images_download   #importing the library

response = google_images_download.googleimagesdownload()   #class instantiation

arguments = {"keywords":"Polar bears,baloons,Beaches","limit":20,"print_urls":True,"format":"jpg"}   #creating list of arguments
paths = response.download(arguments)   #passing the arguments to the function
print(paths)   #printing absolute paths of the downloaded images

위와 같이 작성한 test.py 파일을 만들고 실행시키면 download라는 폴더 안에 polar bears, ballons, beaches라는 세 개의 폴더가 생성되고 각 폴더 안에는 해당 키워드로 검색한 사진들이 크롤링을 통해 다운받아지게 된다. 키워드에 본인이 원하는 검색어를 적절히 수정해 넣어주면 된다. 한글도 가능하다. limit은 한 키워드당 다운받을 사진의 갯수이고, format은 다운받을 사진파일의 확장자를 지정해주는 옵션이다.

아래에 접속하면 arguments 종류와 사용법들을 알 수 있으니 필요에 따라 참고하면 된다.

https://google-images-download.readthedocs.io/en/latest/arguments.html

 

Input Arguments — Google Images Download documentation

Input Arguments Link to GitHub repo Link to Documentation Homepage Argument Short hand Description config_file cf You can pass the arguments inside a config file. This is an alternative to passing arguments on the command line directly. Please refer to the

google-images-download.readthedocs.io

 

728x90
300x250
Comments