일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 코딩 테스트
- 네트워크
- dp
- google coding competition
- DFS
- nlp
- 프로그래밍
- kick start
- 운영체제
- 딥러닝
- BFS
- 알고리즘
- CSS
- OS
- 프로그래머스
- 동적프로그래밍
- 그래프
- 백준
- PYTHON
- 코딩
- linux
- 구글 킥스타트
- 동적 프로그래밍
- 브루트포스
- 순열
- 파이썬
- 리눅스
- 코딩테스트
- 킥스타트
- AI
- Today
- Total
오뚝이개발자
[Python] 파이썬 구글 이미지 크롤링 본문
AI를 구현하다보면 많은 이미지 데이터들이 필요한데 크롤링을 통해 손쉽게 이미지를 저장할 수 있다. 물론 request를 사용하여 html 구조를 분석한 뒤 해당 이미지를 긁어오는 방법도 있지만 이미 만들어진 google_images_download라는 편리한 모듈이 있다. 여기선 해당 모듈의 설치방법과 사용예시를 설명한다.
참고로 pip install google_images_download를 사용해 이미 해당 모듈을 설치했다면 pip uninstall로 삭제를 한뒤 아래의 설치를 진행해야 한다.(업데이트로 인해 기존의 방법으로 설치했을 경우 크롤링이 안되는 에러가 발생한다)
설치하기
커맨드 창에 "pip install git+https://github.com/Joeclinton1/google-images-download.git" 입력
사용예시
from google_images_download import google_images_download #importing the library
response = google_images_download.googleimagesdownload() #class instantiation
arguments = {"keywords":"Polar bears,baloons,Beaches","limit":20,"print_urls":True,"format":"jpg"} #creating list of arguments
paths = response.download(arguments) #passing the arguments to the function
print(paths) #printing absolute paths of the downloaded images
위와 같이 작성한 test.py 파일을 만들고 실행시키면 download라는 폴더 안에 polar bears, ballons, beaches라는 세 개의 폴더가 생성되고 각 폴더 안에는 해당 키워드로 검색한 사진들이 크롤링을 통해 다운받아지게 된다. 키워드에 본인이 원하는 검색어를 적절히 수정해 넣어주면 된다. 한글도 가능하다. limit은 한 키워드당 다운받을 사진의 갯수이고, format은 다운받을 사진파일의 확장자를 지정해주는 옵션이다.
아래에 접속하면 arguments 종류와 사용법들을 알 수 있으니 필요에 따라 참고하면 된다.
https://google-images-download.readthedocs.io/en/latest/arguments.html
'Language > 파이썬' 카테고리의 다른 글
[Python] 파이썬 sorted() 정렬 조건, 다중 조건 (0) | 2020.09.15 |
---|---|
[Python] 파이썬 리스트 정렬, sort()와 sorted() 차이 (0) | 2020.09.15 |
[파이썬] set - 집합 자료형 (0) | 2020.08.06 |
[파이썬] np.random 모듈 정리 (0) | 2020.06.21 |
[파이썬] 숫자 판별 함수(isdigit(), isdecimal(), isnumeric()) (0) | 2020.05.30 |