반응형

2023/05 3

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS 논문 리뷰

안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 현재 저는 '초등학생도 이해하는 자연어 처리'라는 주제로 자연어 처리(NLP)에 대해 포스팅을 하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 자연어 처리(NLP)에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 이번 시간에 알아볼 내용은 'ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS' 논문입니다. Abstract 자연어처리 task에서 pretraining시 모델의 크기를 늘리면 downstream task에서 성능이 향상되는 경우가 많음 그러나 모델의 크기가 늘어날수록 GPU 등의 메모리 제한과 ..

REFORMER: THE EFFICIENT TRANSFORMER

안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 현재 저는 '초등학생도 이해하는 자연어 처리'라는 주제로 자연어 처리(NLP)에 대해 포스팅을 하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 자연어 처리(NLP)에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 이번 시간에 알아볼 내용은 'REFORMER: THE EFFICIENT TRANSFORMER' 논문입니다. Introduction 원래의 NN 모델에서 연산의 중간 결과물(b1, b2)들을 연전파(back propagation) 전까지 따로 저장해야 함 따라서 위와 같이 모델의 배치 사이즈, 싶이, 넓이, 문장 길이 등이 커지면 중간 결과물들의 크기가 증가하여 메모리도 증가함 위의 ..

Big Bird: Transformers for Longer Sequences 논문 리뷰

안녕하세요 '코딩 오페라'블로그를 운영하고 있는 저는 'Master.M'입니다. 현재 저는 '초등학생도 이해하는 자연어 처리'라는 주제로 자연어 처리(NLP)에 대해 포스팅을 하고 있습니다. 제목처럼 진짜 핵심 내용을 쉽게 설명하는 것을 목표로 하고 있으니 자연어 처리(NLP)에 입문하고 싶은 분들은 많은 관심 부탁드립니다. 이번 시간에 알아볼 내용은 'Big Bird: Transformers for Longer Sequences' 논문입니다. Abstract Transformer 구조는 현재 NLP에서 가장 혁신적인 구조로 가장 성능이 좋음 그럼에도 불구하고 연산량이 문장의 길이의 제곱(quadratic) 하게 된다는 단점을 가지고 있음 이 논문에서는 이러한 이차원 적인 연산량을 선형적(일차원)으로 줄..

반응형