NLP (๋๋ ์์ฐ์ด ์ฒ๋ฆฌ) ๋ 2016๋ ์ฏค ์ฑ๋ด์ด ์ฑํํ๋ฉด์๋ถํฐ ๋ง์ ๊ด์ฌ์ ๋์๋ ํค์๋์๋ค.
๋ค์ ์ค๋๋ ๋ฏํ ์ด ํค์๋๋ฅผ ๋ค์ ๊บผ๋ด๋ ์ด์ ๋, LLM (Large Language Model) ๊ธฐ์ ์ด ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ฉด์ NLP ์ ๋ํด ๋ค์ ์ฒ์๋ถํฐ ์ดํดํ๊ณ ์ ํจ์ด๋ค.
NLP (= ์์ฐ์ด์ฒ๋ฆฌ) ๋, ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ผ๋ก ์ธ๊ฐ์ ์ธ์ด๋ฅผ ์ปดํจํฐ๊ฐ ์ ์ดํดํ๋๋ก ํ๊ณ ์ ํ๋ ์ธ์ดํ์ ์์ญ ์ค ํ๋์ด๋ค.
์ฌ๊ธฐ์ ์ค์ํ ๊ฒ์, ๋จ์ด ์์ฒด์ ๋ป์ ์ดํดํ๋ ๊ฒ์์ ๊ทธ์น์ง ์๊ณ , ๋จ์ด์ ๋ฌธ์ฅ ๊ฐ์ ๋ฌธ๋งฅ ๊ทธ ํ๊ฐ์ ์๋๋ฅผ ์ดํดํ๋๋ก ํ๋ ๊ฒ์ด ํต์ฌ์ด๋ค. (๋ฌธ๋งฅ!)
๋ํ์ ์ธ NLP Task ๋:
- ๋ถ๋ฅ (Classification)
- ์ ์ฒด ๋ฌธ์ฅ ๊ฐ ๋ถ๋ฅ : ๋ฆฌ๋ทฐ์ ๊ธ์ /๋ถ์ ์ฌ๋ถ, ์ด๋ฉ์ผ์ด ์คํธ์ธ์ง, ๋ ๋ฌด์ฅ ๊ฐ์ ์ฐ๊ด์ฑ์ด ์ผ๋ง๋ ๋์์ง
- ๋ฌธ์ฅ ๋ด ๋จ์ด๋ค์ ๋ถ๋ฅ : ํ ๋ฌธ์ฅ ๋ด์์์ ๋ฌธ๋ฒ์ ์ธ ๊ตฌ์ฑ ์์๋ฅผ ๊ตฌ๋ถํ๊ฑฐ๋ (๋ช ์ฌ, ๋ถ์ฌ, ๋์ฌ ๋ฑ), ์ํฐํฐ ๊ตฌ๋ถ (์ฅ์, ์ฌ๋, ์ฌ๋ฌผ ๋ฑ)
- ์์ฑ (Generation)
- ์๋ก์ด ํ ์คํธ๋ฅผ ์์ฑ - ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํด์ ํ ์คํธ๋ฅผ ์๋์์ฑํ๊ฑฐ๋, masking ๋ ๋จ์ด๋ฅผ ๊ฐ์ง๊ณ ๋น์นธ์ ๋จ์ด ์ฑ์ฐ๊ธฐ
- ์ ๋ ฅ ํ ์คํธ๋ก๋ถํฐ ์๋ก์ด ๋ฌธ์ฅ ์์ฑํ๊ธฐ - ์ ๋ ฅ ํ ์คํธ๋ฅผ ์์ฝํ๊ฑฐ๋ ๋ฒ์ญ
- ์ ์ถ/์ถ์ถ (Extract)
- ํ ์คํธ๋ก๋ถํฐ ๋ต๋ณ ์ถ์ถํ๊ธฐ - ๋ฌธ๋งฅ๊ณผ ์ง๋ฌธ์ด ํจ๊ป ์ฃผ์ด์ก์ ๋, ๋ฌธ๋งฅ์ ๊ธฐ๋ฐ์ผ๋ก ์ง๋ฌธ์ ๋ํด ์๋ตํ๊ธฐ
NLP ๊ฐ ๊ทธ๋์ ๋ง์ด ๋ฐ์ ํด์๊ณ , ๋ฒ์ญ ๋ฑ ์ด๋ ์ ๋์ Task ๋ ์ ์ํํ๋ ๊ฒ ๊ฐ์๋ฐ ์ NLP ๊ฐ ์ด๋ ต๋ค๊ณ ํ๋ ๊ฒ์ผ๊น?
์์ฐ์ด ์ฒ๋ฆฌ๊ฐ ์ด๋ ค์ด ์ด์ ๋, ์ปดํจํฐ๊ฐ ํ ์คํธ๋ฅผ ์ธ์ํ๊ณ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด ์ธ๊ฐ์ ์ฒ๋ฆฌ๋ฐฉ์๊ณผ๋ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋์ "์ง์ ๊ฐ๊ณ ์ถ๋ค" ๋ ๋ฌธ์ฅ์ ๋ณด๋ฉด, ์ด ๋ฌธ์ฅ์ ์ ์ ์ธ ๋ป์ ๋์ด ๊ทธ ๋ฌธ์ฅ์ ๋ด๊ธด "์๋ฏธ" ์ "์๋" ๋ฅผ ์ฝ๊ฒ ํ์ ํ ์ ์๋ค. ์ง์ด ๋๋ฌด ์ข์์ ์ง์ด ๊ทธ๋ฆฝ๋ค๋ ๊ฒ์ธ์ง, ์๋๋ฉด ์ง๊ธ ์ด ์ํฉ์ด ์ง๋ฃจํด์ ์ฌ๊ธธ ์ผ๋ฅธ ๋ ๋๊ณ ์ถ๋ค๋ ์๋ฏธ์ธ์ง ๋ง์ด๋ค. ํ์ง๋ง ์ปดํจํฐ๋ "์ง์ ๊ฐ๊ณ ์ถ๋ค" ๋ ๋ฌธ์ฅ์ ๋จ์ํ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ํ ์คํธ๋ฅผ ๋ฒกํฐ, ๊ทธ๋ฆฌ๊ณ ๋นํธ๋ก ์ดํดํ๊ธฐ ๋๋ฌธ์, ์ด ๋ฌธ์ฅ ๋์ด์ ์๋ ์๋๋ ํ๊ฐ์ ์๋ฏธ๋ฅผ ์ธ์งํ๋๋ก ํ๊ธด ์ฝ์ง ์๋ค.
์ด ๋ถ๋ถ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํด ์ฐ๋ฆฌ๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ปดํจํฐ๊ฐ ์ธ๊ฐ๊ณผ ๊ฐ์ด ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์ฌ๊ณ ํ๊ณ ์ฒ๋ฆฌํ ์ ์๋๋ก, ๋ชจ๋ธ์ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ํ์ต์ํจ๋ค. ์ด๋ฐ ์๋ฏธ์์, ๋ ๋ง์ ๋ฌธ๋งฅ์ ์ดํด์ํค๋๋ก ๊ฑฐ๋ํ ์ธํ๋ผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ํค๋ pretrained model ์ ์ค์์ฑ์ด ๋์์ง๊ณ ์๊ณ , ํ ์คํธ๋ฅผ ๋ชจ๋ธ์ ์ธ์ด๋ก ๋ณํํ ๋์๋ ๋ฌธ์ฅ์ ๋ฌธ๋งฅ์ ์ ๋ด์์ ๋ณํํ ์ ์๋๋ก ํ๋ ์๋ฒ ๋ฉ ๊ธฐ์ ๋ํ NLP ์์ญ์ ์์ด ๋งค์ฐ ์ค์ํ ์์๊ฐ ๋๋ ๊ฒ์ด๋ค.
NLP๊ฐ ์ผ๋ง๋ ์ด๋ ค์ด๊ฐ๋ฅผ ๋ฐ์ถํด๋ณด๋ฉด, ์ฐ๋ฆฌ ์ธ๊ฐ์ด ์ฌ๊ณ ํ๋ ๊ฒ์ด ์ผ๋ง๋ ์๋ํ ๊ฒ์ธ๊ฐ ์๊ฐํด๋ณด๊ฒ ๋๋ค.
์ธ์ด๋ฅผ ํตํด ์ฐ๋ฆฌ์ ์๊ฐ๊ณผ ์๋๋ฅผ ์ ์ ํ ํํํด๋ด๊ณ , ๊ทธ ํํ์ ์๋๋ฐฉ์ด ์ ์ฝ์ด๋ด์ด ์์ฌ์ํตํ๋ค๋ ๊ฒ, ์ฐธ ์๋ํ ์ผ์ด ์๋ ์ ์๋ค.
์์ผ๋ก NLP ์ ๊ด๋ จ๋ ๋จธ์ ๋ฌ๋์ ์ฌ๋ฌ ์์๋ค์ ์ฐจ๊ทผ์ฐจ๊ทผ ์์๋ณผ ์์ ์ด๋ค.
'๐งโ๐Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Hugging Face NLP Course] #1 Transformer Models (38) | 2024.05.12 |
---|