일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- google coding competition
- 코딩테스트
- 코딩 테스트
- 프로그래머스
- 리눅스
- AI
- DFS
- BFS
- 킥스타트
- 네트워크
- 그래프
- 구글 킥스타트
- dp
- 코딩
- nlp
- OS
- 백준
- 운영체제
- 브루트포스
- CSS
- kick start
- linux
- PYTHON
- 동적프로그래밍
- 딥러닝
- 프로그래밍
- 알고리즘
- 순열
- 파이썬
- 동적 프로그래밍
- Today
- Total
목록nlp (9)
오뚝이개발자
OpenAI의 ChatGPT가 공개되었다. 사실 공개된지 좀 되었지만.... 논문쓰고 제출하느라 이제야 사용해본 나... 이미 미디어에 많이 노출이 되어서 다들 알겠지만 간단히 설명하자면 ChatGPT는 챗봇 형식의 AI이다. 구글, 네이버, 다음에 검색하듯이 키워드나 명사형으로 검색을 하는 것이 아니라 그냥 사람과 대화하듯이 질문하면 답을 찾아주는 것이다. 음... 좀 더 쉽게 비유하자면 미래를 그린 SF 영화에 나오는 AI 비서 같은 거라고 생각하면 된다. "이거이거 찾아줘~", "이거이거 알려줘~"와 같은 질문에 대답해주는 AI이다. 관련된 분야를 연구하고 있어서 한 번 사용해보았는데 성능이 꽤 괜찮은 것 같았다. 내가 놀랐던 점은 말을 꽤나 잘한다는 것이다. 지금까지의 챗봇들은 response를 ..
요즘 내가 연구하고 있는 분야가 NLP에서 low resource환경에서 사용할 수 있는 data augmentation이다. NLP 분야에서 사용되는 data augmentation은 vision 분야와 약간 다른 특성을 갖는다. 이에 대해 종합적으로 잘 정리해둔 블로그가 있어 링크를 달아둔다. 문맥적인 변화를 주는 것인지, 외형적인 변화를 주는 것인지와 같은 큰 틀에 따라 방법을 나누고 그 안에서 다시 세부적인 방법론에 따라 내용을 나누어 설명한다. https://amitness.com/2020/05/data-augmentation-for-nlp/?fbclid=IwAR11MkccCti-2cD93RYftNPHb7Wxdj7AlZG7NNG4EhPaBkmiJkcBPtdl1eo A Visual Survey o..
"Hello, David. I made some cookies. Do you want som?" 위와 같은 영어 텍스트를 문장 단위로 분할하려면 어떻게 해야할까? 자연어 처리 toolkit인 NLTK에 바로 이러한 기능이 있다. 먼저 커맨드 창에 아래의 명령어를 입력하여 nltk를 설치해주어야 한다. pip install nltk python -m nltk.downloader all from nltk import sent_tokenize text = "Hello, David. I made some cookies. Do you want som?" tokenized_text = sent_tokenize(text) print(tokenized_text) # ['Hello, David.', 'I made som..
paper link : https://aclanthology.org/2021.acl-long.471.pdf Overview Dialogue summarization에서 일반적인 text summarization과 비교했을 때 어려운 점은 바로 training data가 부족하다는 것이다. 이 논문은 이러한 문제를 unsupervised 학습으로 해결하고자 시도하였다. 논문의 핵심 아이디어는 다음과 같다. Superior summary approximates a replacement of the original dialogue, and they are roughly equivalent for auxiliary tasks. 즉, 좋은 요약본은 원문의 데이터들을 충분히 가지고 있으므로 여러 task에서 원래의..
대회 개요 11월 19일 ~ 12월 3일까지 열린 WISENUT이 주최한 2021 AI 텍스트 요약 해커톤에 참가했다. 해당 대회는 온라인으로 이루어졌는데 AI factory(http://aifactory.space/)측에서 운영을 담당하여 해당 사이트를 통해 참가 접수가 가능했다. 간단히 말하면 주어진 데이터셋을 가지고 모델을 학습 시켜 텍스트 요약 성능을 겨루는 대회였다. 데이터는 소설, 문화, 뉴스, 브리핑, 드라마, 역사 텍스트로 이루어져 있었다. 제출한 요약문의 성능은 Rouge-L F1 score의 평균 값으로 채점되었다. 쉽게 말하면 핵심적인 내용들은 담겨 있으면서도 원문의 내용과 긴 시퀀스로 겹치는 부분이 많은 요약문을 생성해내는 것이 관건이었다. 1차 시도 우선 주어진 학습 데이터를 살펴..
원논문 링크 : https://arxiv.org/pdf/2010.01672.pdf 본 논문은 dialogue summarization에서 multi-view seq-to-seq model을 제안한 논문이다. 핵심적인 내용으론 unstructured daily chat으로부터 다양한 관점에서의 conversational structure를 추출해 보다 정확한 대화 요약을 생성해낸다는 점이다. 본 모델은 automatic 그리고 human evaluation 모두에서 기존의 SOTA(State-Of-The-Art)를 능가하였다. Dialogue data set의 특징 dialogue data는 기존의 structured date와는 다른 특징을 갖고 있다. informal(사람 간의 chit-chat은 설명..
오늘 리뷰할 논문은 구글 리서치팀에서 발표한 "Attention is all you need"(링크)이다. 해당 논문은 현대 NLP의 중요한 backbone으로 사용되는 Transformer에 관한 논문이다. 사실 원논문의 제목보다 Transformer라는 이름으로 더 많이 알려져 있다. NLP model history 그 동안 ML분야에선 vision과 관련된 분야들이 눈에 띄는 발전을 이루어 온 것에 비해 NLP 분야의 발전은 더딘 편이었다. 그러나 최근 들어 좋은 성능을 보이는 다양한 모델들이 나오면서 NLP 분야에서도 급진적인 발전이 이루어지고 있다. 이러한 NLP의 발전을 이끈 모델들의 변천사는 대략 아래와 같다. 오늘 리뷰할 Transformer 논문은 2017년에 발표된 것이다. What d..
Sub-tasks of NLG Machine Translation Summarization Dialogue : task-oriented system, open-domain system(social dialogue) Creative writing : storytelling, poetry-generation Freeform Question Answering Image captioning Language Model(LM) Language Modeling : 특정 time-step까지의 words sequence가 주어졌을 때, 해당 time-step 이후의 word를 predict하는 것 Language Model : 확률 분포 P(yt|y1,...,yt-1)를 producing하는 system Conditi..