300x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 리눅스
- dp
- OS
- 운영체제
- 동적 프로그래밍
- google coding competition
- 프로그래머스
- 딥러닝
- 구글 킥스타트
- 코딩테스트
- 코딩
- BFS
- 그래프
- 네트워크
- nlp
- 킥스타트
- 순열
- 동적프로그래밍
- 브루트포스
- AI
- linux
- 파이썬
- 백준
- 코딩 테스트
- DFS
- PYTHON
- kick start
- CSS
- 프로그래밍
- 알고리즘
Archives
- Today
- Total
오뚝이개발자
텍스트를 문장 단위로 분할하기(nltk, sentence tokenizing) 본문
728x90
300x250
"Hello, David. I made some cookies. Do you want som?"
위와 같은 영어 텍스트를 문장 단위로 분할하려면 어떻게 해야할까?
자연어 처리 toolkit인 NLTK에 바로 이러한 기능이 있다.
먼저 커맨드 창에 아래의 명령어를 입력하여 nltk를 설치해주어야 한다.
pip install nltk
python -m nltk.downloader all
from nltk import sent_tokenize
text = "Hello, David. I made some cookies. Do you want som?"
tokenized_text = sent_tokenize(text)
print(tokenized_text)
# ['Hello, David.', 'I made some cookies.', 'Do you want som?']
nltk의 sent_tokenize 메소드는 위와 같이 파라미터로 주어진 텍스트에 대해 문장 단위로 끊어 리스트로 반환해준다.
728x90
300x250
'AI > AI 개발' 카테고리의 다른 글
1초 단위로 GPU 사용량과 메모리 확인하기(GPU 모니터링) (0) | 2022.06.28 |
---|---|
허깅페이스(Huggingface) 모델 inference(pipeline) GPU로 돌리기 (2) | 2022.06.26 |
허깅페이스(Huggingface) transformers로 early stopping 사용하기 (0) | 2022.03.28 |
텍스트로부터 키워드 추출하기(KeyBERT) (0) | 2022.02.21 |
허깅페이스(Huggingface) custom loss로 Trainer 학습시키기 (0) | 2022.01.28 |
Comments