일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 파이썬
- 코딩
- PYTHON
- 순열
- google coding competition
- 구글 킥스타트
- 코딩테스트
- 동적 프로그래밍
- AI
- 프로그래밍
- 운영체제
- 그래프
- linux
- 네트워크
- CSS
- kick start
- dp
- 킥스타트
- 브루트포스
- 코딩 테스트
- nlp
- 알고리즘
- 동적프로그래밍
- BFS
- 백준
- 딥러닝
- DFS
- 리눅스
- OS
- 프로그래머스
- Today
- Total
목록2022/05 (3)
오뚝이개발자
요즘 내가 연구하고 있는 분야가 NLP에서 low resource환경에서 사용할 수 있는 data augmentation이다. NLP 분야에서 사용되는 data augmentation은 vision 분야와 약간 다른 특성을 갖는다. 이에 대해 종합적으로 잘 정리해둔 블로그가 있어 링크를 달아둔다. 문맥적인 변화를 주는 것인지, 외형적인 변화를 주는 것인지와 같은 큰 틀에 따라 방법을 나누고 그 안에서 다시 세부적인 방법론에 따라 내용을 나누어 설명한다. https://amitness.com/2020/05/data-augmentation-for-nlp/?fbclid=IwAR11MkccCti-2cD93RYftNPHb7Wxdj7AlZG7NNG4EhPaBkmiJkcBPtdl1eo A Visual Survey o..
쉘 스크립트에서 반복문을 사용하면 일일히 입력하지 않고도 편하게 실행시킬 수 있다. 단순히 반복문을 필요로 하는 구현(예컨대, 구구단 같은)뿐 아니라 특정 실행 파일에 다양한 인자를 input으로 주어 실행하는 것도 자동화시킬 수가 있다. 그렇다면 shell 스크립트(sh 파일)를 작성하는데 내부에서 반복문을 사용하려면 어떻게 해야 할까? 기본 반복 아래와 같이 in 다음에 띄어쓰기 구분된 숫자의 리스트를 넣어주면 해당 숫자들을 돌면서 순회한다. for num in 1 2 3 4 5 do echo "The num is ${num}" done # 출력결과 # The num is 1 # The num is 2 # The num is 3 # The num is 4 # The num is 5 여기서 주의할 점은..
"Hello, David. I made some cookies. Do you want som?" 위와 같은 영어 텍스트를 문장 단위로 분할하려면 어떻게 해야할까? 자연어 처리 toolkit인 NLTK에 바로 이러한 기능이 있다. 먼저 커맨드 창에 아래의 명령어를 입력하여 nltk를 설치해주어야 한다. pip install nltk python -m nltk.downloader all from nltk import sent_tokenize text = "Hello, David. I made some cookies. Do you want som?" tokenized_text = sent_tokenize(text) print(tokenized_text) # ['Hello, David.', 'I made som..