You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 자연 언어 처리 on Google, you do not find the information you need! Here are the best content compiled and compiled by the Toplist.maxfit.vn team, along with other related topics such as: 자연 언어 처리 자연어처리 전망, 자연어처리 분야, 자연어 뜻, 자연어처리 대학원, 자연어처리 예시, 자연어처리 책, 자연어 처리란, 자연어처리 종류
자연어 처리(NLP)는 머신러닝을 사용하여 텍스트의 구조와 의미를 파악합니다. 자연어 처리 애플리케이션을 사용하면 조직에서 텍스트를 분석하고 사람, 장소, 사건에 대한 정보를 추출하여 소셜 미디어 감정과 고객 대화를 더욱 정확하게 이해할 수 있습니다.
자연어 처리란? | Google Cloud
- Article author: cloud.google.com
- Reviews from users: 24042 Ratings
- Top rated: 5.0
- Lowest rated: 1
- Summary of article content: Articles about 자연어 처리란? | Google Cloud Updating …
- Most searched keywords: Whether you are looking for 자연어 처리란? | Google Cloud Updating Google 머신러닝을 기반으로 하는 자연어 처리(NLP)가 텍스트의 구조와 의미에 대한 정보를 어떻게 제공하는지 알아보세요.
- Table of Contents:
자연어 처리의 용도는 무엇인가요
관련 제품 및 서비스
자연어 처리 – 위키백과, 우리 모두의 백과사전
- Article author: ko.wikipedia.org
- Reviews from users: 21166 Ratings
- Top rated: 3.1
- Lowest rated: 1
- Summary of article content: Articles about 자연어 처리 – 위키백과, 우리 모두의 백과사전 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공 … …
- Most searched keywords: Whether you are looking for 자연어 처리 – 위키백과, 우리 모두의 백과사전 자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공 …
- Table of Contents:
형태소 분석[편집]
품사 부착[편집]
구절 단위 분석[편집]
구문 분석[편집]
01. 자연어 처리(natural language processing) 준비하기 – 딥 러닝을 이용한 자연어 처리 입문
- Article author: wikidocs.net
- Reviews from users: 6118 Ratings
- Top rated: 4.3
- Lowest rated: 1
- Summary of article content: Articles about 01. 자연어 처리(natural language processing) 준비하기 – 딥 러닝을 이용한 자연어 처리 입문 자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 … …
- Most searched keywords: Whether you are looking for 01. 자연어 처리(natural language processing) 준비하기 – 딥 러닝을 이용한 자연어 처리 입문 자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 … 온라인 책을 제작 공유하는 플랫폼 서비스
- Table of Contents:
[스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은? < 칼럼 < OPINION < 기사본문 - 인공지능신문
- Article author: www.aitimes.kr
- Reviews from users: 42492 Ratings
- Top rated: 4.4
- Lowest rated: 1
- Summary of article content: Articles about [스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은? < 칼럼 < OPINION < 기사본문 - 인공지능신문 자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. ...
- Most searched keywords: Whether you are looking for [스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은? < 칼럼 < OPINION < 기사본문 - 인공지능신문 자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구되기 시작했다.1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류를 이뤘다. 하지만 최근에는 딥러닝과 딥러닝기반의 자연어처리가 방대한 텍스트로부터 의미 있는 정보를 추출하고 활용하기 위한 언어처리 연구 개발이 전 세계적으로 활발히 진행되고 있다.
- Table of Contents:
상단영역
본문영역
하단영역
전체메뉴
[스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은? < 칼럼 < OPINION < 기사본문 - 인공지능신문
- Article author: www.sas.com
- Reviews from users: 24420 Ratings
- Top rated: 3.8
- Lowest rated: 1
- Summary of article content: Articles about [스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은? < 칼럼 < OPINION < 기사본문 - 인공지능신문 자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 해석하며 조작하도록 돕는 인공지능( artificial intelligence)의 한 분야입니다. NLP에는 인간의 의사 소통 ... ...
- Most searched keywords: Whether you are looking for [스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은? < 칼럼 < OPINION < 기사본문 - 인공지능신문 자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 해석하며 조작하도록 돕는 인공지능( artificial intelligence)의 한 분야입니다. NLP에는 인간의 의사 소통 ... 자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구되기 시작했다.1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류를 이뤘다. 하지만 최근에는 딥러닝과 딥러닝기반의 자연어처리가 방대한 텍스트로부터 의미 있는 정보를 추출하고 활용하기 위한 언어처리 연구 개발이 전 세계적으로 활발히 진행되고 있다.
- Table of Contents:
상단영역
본문영역
하단영역
전체메뉴
왜 ‘한국어’의 자연어 처리는 유독 어려울까? | 패스트캠퍼스
- Article author: fastcampus.co.kr
- Reviews from users: 38931 Ratings
- Top rated: 3.7
- Lowest rated: 1
- Summary of article content: Articles about 왜 ‘한국어’의 자연어 처리는 유독 어려울까? | 패스트캠퍼스 이를 ‘자연어 처리’ 기술이라고 하죠. 자연어 처리(Natural Language Processing)는 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 변환하는 과정입니다. …
- Most searched keywords: Whether you are looking for 왜 ‘한국어’의 자연어 처리는 유독 어려울까? | 패스트캠퍼스 이를 ‘자연어 처리’ 기술이라고 하죠. 자연어 처리(Natural Language Processing)는 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 변환하는 과정입니다. 자연어처리의 기본과 한국어 자연어처리의 원리를 알려주는 아티클미디어블로그
- Table of Contents:
자연어처리
nlp
자연어 처리의 4가지 단계 • DIYA blog
- Article author: blog.diyaml.com
- Reviews from users: 29377 Ratings
- Top rated: 4.1
- Lowest rated: 1
- Summary of article content: Articles about 자연어 처리의 4가지 단계 • DIYA blog 자연어 처리는 한국어, 영어, 중국어 등 인간의 언어를 컴퓨터가 분석하고 의미 있는 정보를 추출하여 처리하는 작업을 통칭합니다. 자연어 처리는 문서 … …
- Most searched keywords: Whether you are looking for 자연어 처리의 4가지 단계 • DIYA blog 자연어 처리는 한국어, 영어, 중국어 등 인간의 언어를 컴퓨터가 분석하고 의미 있는 정보를 추출하여 처리하는 작업을 통칭합니다. 자연어 처리는 문서 … 이 포스트는 Stanford의 CS224n 강의에서 배운 내용을 바탕으로 인공지능을 이용한 자연어 처리 방법의 개요를 정리해본 내용을 담고 있습니다.NLP
- Table of Contents:
목차
1 자연어 처리 솔루션
2 자연어 처리의 4가지 단계
3 정리 및 요약
References
일상적인 자연어 처리(NLP) 예 8가지
- Article author: www.tableau.com
- Reviews from users: 33400 Ratings
- Top rated: 4.6
- Lowest rated: 1
- Summary of article content: Articles about 일상적인 자연어 처리(NLP) 예 8가지 자연어 처리의 일반적인 예 8가지와 소통에 미치는 영향 · 이메일 필터 · 스마트 어시스턴트 · 검색 결과 · 텍스트 자동 완성 · 언어 번역 · 디지털 전화 통화 · 데이터 분석. …
- Most searched keywords: Whether you are looking for 일상적인 자연어 처리(NLP) 예 8가지 자연어 처리의 일반적인 예 8가지와 소통에 미치는 영향 · 이메일 필터 · 스마트 어시스턴트 · 검색 결과 · 텍스트 자동 완성 · 언어 번역 · 디지털 전화 통화 · 데이터 분석. 자연어 처리(NLP)와 NLP를 사용하는 AI의 예는 비즈니스 인텔리전스부터 음성 인식 비서까지 우리 주변 어디에나 있습니다.
- Table of Contents:
이메일 필터
스마트 어시스턴트
검색 결과
텍스트 자동 완성
언어 번역
디지털 전화 통화
데이터 분석
텍스트 분석
Tableau 무료 체험
See more articles in the same category here: https://toplist.maxfit.vn/blog/.
위키백과, 우리 모두의 백과사전
자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다. 구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다. 정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어지고 있다.
형태소 분석 [ 편집 ]
자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절을 최소의 의미 단위인 ‘형태소’로 분석하는 것을 의미한다. (형태소는 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다.) 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용한다. 형태소 분석 단계에서 문제가 되는 부분은 미등록어, 오탈자, 띄어쓰기 오류 등에 의한 형태소 분석의 오류, 중의성이나 신조어 처리 등이 있는데, 이들은 형태소 분석에 치명적인 약점이라 할 수 있다. 복합 명사 분해도 형태소 분석의 어려운 문제 중 하나이다. 복합 명사란 하나 이상의 단어가 합쳐서 새로운 의미를 생성해 낸 단어로 ‘봄바람’ 정보검색’ ‘종합정보시스템’ 등을 그 예로 들 수 있다. 이러한 단어는 한국어에서 띄어쓰기에 따른 형식도 불분명할 뿐만 아니라 다양한 복합 유형 등에 따라 의미의 통합이나 분해가 다양한 양상을 보이기 때문에 이들 형태소를 분석하는 것은 매우 어려운 문제이다. 기계적으로 복합명사를 처리하는 방식 중의 하나는, 음절 단위를 기반으로 하는 bi-gram이 있다. 예를 들어, ‘복합 명사’는 음절 단위로 ‘복합+명사’, ‘복+합명사’, ‘복합명+사’의 세 가지 형태로 쪼갤 수 있고, 이 중 가장 적합한 분해 결과를 문서 내에서 출현하는 빈도 등의 추가 정보를 통해 선택하는 알고리즘이 있을 수 있다. 일반적으로, 다양하게 쪼개지는 분석 결과들 중에서 적합한 결과를 선택하기 위해, 테이블 파싱이라는 동적 프로그래밍 방법을 사용한다.
나는 → 나(대명사) + 는(조사)
나는 → 날(동사) + 는(관형형어미)
품사 부착 [ 편집 ]
형태소 분석을 통해 나온 결과 중 가장 적합한 형태의 품사를 부착하는 것을 말한다. 보통 태거라고 하는 모듈이 이 기능을 수행한다. 이는 형태소 분석기가 출력한 다양한 분석 결과 중에서 문맥에 적합한 하나의 분석 결과를 선택하는 모듈이라 할 수 있다. 분석 시 문맥 좌우에 위치한 중의성 해소의 힌트가 되는 정보를 이용해서 적합한 분석 결과를 선택한다. 보통 태거는 대규모의 품사부착 말뭉치를 이용해서 구현하는데 은닉 마르코프 모델(HMM)이 널리 사용되고 있다.
‘나는’이라는 어절에 대한 형태소 분석이 다음과 같다면
나는 → 나(대명사) + 는(조사)
나는 → 날(동사) + 는(관형형어미)
다음과 같이 적절한 품사를 부착하는 것이 품사 부착이다.
나는 오늘 학교에 갔다’ → ‘ 나(대명사)+는(조사) 오늘 학교+에 가다+았+다’
오늘 학교+에 가다+았+다’ 하늘을 나는 새를 보았다’ → ‘하늘+을 날(동사)+는(관형형어미) 새+를 보다+았+다’
구절 단위 분석 [ 편집 ]
구 단위 분석은 명사구, 동사구, 부사구 등의 덩어리를 의미한다. 서울시 서초구 서초동에 있는 가장 유명한 회사는 어디인가요? → 서울시 서초구 서초동 에 있는 가장 유명한 회사는 어디인가요? 이 해결책은 정말이지 여기에는 적합하지 않아 → 이 해결책 은 정말이지 여기에는 적합하지 않아
절 단위 분석은 중문, 복문 등의 문장을 단문 단위로 분해하는 역할을 수행한다. 이 영화는 재미있었는데, 저 영화는 흥미 없었다 → 이 영화는 재미있었는데 , 저 영화는 흥미 없었다 어제 내가 본 그 영화는 아주 재미있었다 → 어제 내가 본 그 영화 는 아주 재미있었다. 나는 오늘 하늘을 나는 새를 보았다 → 나는 오늘 하늘을 나는 새 를 보았다
이와 같이, 구 단위 분석을 먼저 수행하고 절 단위 분석을 해서 보다 큰 단위로 만든다. 이러한 분석은 다음 단계인 구문 분석에서의 중의성을 해소하는 데 아주 중요한 역할을 수행한다고 할 수 있다.
01. 자연어 처리(natural language processing) 준비하기
자연어(natural language)란 우리가 일상 생활에서 사용하는 언어를 말합니다. 자연어 처리(natural language processing)란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말합니다.
자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야입니다.
최근 딥 러닝의 뛰어난 성능이 괄목할만한 성과를 얻으면서, 인공지능이 IT 분야의 중요 키워드로 떠오르고 있습니다. 자연어 처리는 기계에게 인간의 언어를 이해시킨다는 점에서 인공지능에서 가장 의미있는 연구 분야이면서도 아직도 정복되어야 할 산이 많은 분야입니다.
이 책에서는 자연어 처리에 필요한 전처리 방법, 딥 러닝 이전 주류로 사용되었던 통계 기반의 언어 모델, 그리고 자연어 처리의 비약적인 성능을 이루어낸 딥 러닝을 이용한 자연어 처리에 대한 전반적인 지식을 다룹니다.
이번 챕터는 자연어 처리 공부를 시작하기에 앞서 기본적인 셋팅 방법과 앞으로 공부하게 될 머신 러닝에 대한 전체적인 워크플로우에 대해서 다룹니다.
[스페셜리포트] 자연언어처리(NLP) 무엇인가… 그 기술과 시장은?
자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구되기 시작했다.
1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류를 이뤘다. 하지만 최근에는 딥러닝과 딥러닝기반의 자연어처리가 방대한 텍스트로부터 의미 있는 정보를 추출하고 활용하기 위한 언어처리 연구 개발이 전 세계적으로 활발히 진행되고 있다.
NLP 기술은 기계번역, 대화체 질의응답 시스템 대화시스템, 정보검색, 말뭉치 구축, 시맨틱웹, 텍, 딥러닝, 그리고 빅데이터 분석 분야뿐만 아니라 인간의 언어정보처리 원리와 이해를 위한 언어학과 뇌인지 언어정보처리 분야까지 핵심적인 요소로 작용하고 있다.
특히 2018년 구글이 공개한 BERT(버트)는 종래보다 우수한 성능을 발휘한다. BERT는 자연언어 처리 태스크를 교육 없이 양방향으로 사전 학습하는 첫 시스템이기 때문이다. ‘교육 없음’이란 BERT가 보통의 텍스트 말뭉치만을 이용해 훈련되고 있다는 것을 의미한다. 이것은 웹(Web) 상에서 막대한 양의 보통 텍스트 데이터가 여러 언어로 이용 가능하기 때문에 중요한 특징으로 꼽는다. (본지 보도 참조: 인공지능(AI) 언어모델 ‘BERT(버트)’는 무엇인가?)
구글 버트 이미지(본지DB)
또한 NLP에는 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 사용된다. 자연어 분석은 그 정도에 따라 형태소 분석(morphological analysis), 구문 분석(syntactic analysis), 하나로써 문장의 의미에 기저(基底)하여 그 문장을 해석하는 시멘틱 분석(semantic analysis)과 문장이 실제로 무슨 의미를 내포하는지 결정하는 실용 분석(pragmatic analysis) 등으로 크게 나누어 구분할 수 있다.
최근 NLP 솔루션은 전 산업에서 활용돼 혁신을 가속하고 있다. 특히 은행, 금융 서비스 및 보험 등에서는 고객을 유지하고 비용을 절감하며, 수익을 높이고 변화하는 규칙과 규정 등을 준수해야 한다. 이에 솔루션은 기업의 정보 검색, 의도 분석, 고객 서비스 등과 규정 준수 프로세스 자동화 및 응용 프로그램을 효율적으로 수행하고 그에 따르는 위험을 완화하도록 돕고 있다.
또 NLP 솔루션을 사용해 프로세스를 자동화하면 은행, 금융 서비스 및 보험 등의 기업은 생산성을 향상시키는 데 도움이 될 뿐만 아니라 해석 프로세스의 오류 발생 가능성을 현저히 낮추고 회사가 구조화되고 구조화되지 않은 데이터를 처리하는 방식을 최적화 한다.
이 시장 또한 치열하다. 지난달 30일(현지시간) 발표된 리서치앤마켓의 보고서에 따르면 2019년 102억 달러(약 11조8천억원)에서 2024년 264억 달러(약 30조5천억원) 시장으로 예측 기간 동안 21.0 %의 CAGR로 성장한다고 예상했다.
이 시장의 주요 성장 요인으로는 스마트 기기 사용 증가와 클라우드 기반 솔루션 채택 증가, 고객 서비스 개선을 위한 NPL 기반 애플리케이션의 증가, 의료 산업에 대한 기술 투자 증가 등을 꼽았다.
사진:본지DB
그럼 NLP 시장은 어떻게 구성되는지 살펴보자.
우선, 구성 요소별로 솔루션과 서비스로 분류된다. 서비스를 통해 조직은 전문적이고 관리되는 건강한 소비자 관계를 유지할 수 있다. 또 이러한 서비스는 기업이 자원 사용을 최대화하고 활동을 효과적으로 실행해 비즈니스 운영을 향상시키는 데 도움을 준다.
또 솔루션은 유형, 배포 모드 등으로 분류된다. 업종별 NLP 시장은 은행, 금융 서비스 및 보험, 소매 및 전자 상거래, 제조, 의료 및 생명 과학, 정부 및 국방, 미디어 및 엔터테인먼트, IT 및 통신, 여행, 연구, 교육, 에너지 및 유틸리티 등으로 구분된다.
컴포넌트 세그먼트는 솔루션과 서비스로 구성되며, 솔루션은 소프트웨어 도구와 플랫폼으로 구분되지만 서비스는 관리 서비스와 전문 서비스(지원 및 유지 관리, 컨설팅, 배포 및 통합)로 구분된다.
배포 모드 별 NLP 시장은 클라우드 및 온-프레미스로 조직 규모에 따라 시장은 대기업과 중소기업으로, 응용 프로그램 별 NLP 시장은 기계 번역, 정보 추출, 자동 요약, 질문 답변, 텍스트 분류, 감정 분석 및 기타(스팸 인식 및 언어 감지 등)로 분류된다.
이처럼 NLP 솔루션의 채택이 증가함에 따라 지원 및 유지 보수와 같은 새로운 서비스의 필요성도 증가할 것으로 예상된다. 또 NLP의 진화는 기업과 소비자 모두에게 여러모로 중요한 영향을 미칠 것이며, 인간 언어의 의미와 뉘앙스를 이해할 수 있는 알고리즘으로 진화하면서 의료 산업이나 법률, 교육계 등 다양한 분야에서 어떤 파급 효과를 가져올 것인지 상상이 가능해진다.
한국어 언어모델 ‘코버트(KorBERT)’ 이미지(사진:ETRI)
그럼 국내 시장 상황은 어떤가. 시장을 말하기 보다는 국내 NLP 배경을 살펴보자.
특히 시장과 NLP 응용 솔루션에 기반이 되는 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료 ‘말뭉치(말모둠, 글모둠)’는 양이 클수록 AI가 인식(이해)할 수 있는 자연어의 정확도가 높아지며, AI가 얼마나 많이 학습하느냐에 그 성능을 좌우한다.
이에 따라 각국은 국가 경쟁력 차원에서 사업을 추진하고 있으며, 일본의 경우 150억 어절, 중국은 300~800억 어절, 미국은 300억 어절을 구축, 응용 솔루션이나 AI 개발에 힘쓰고 있다.
이에 반해 우리는 주요 경쟁국에 비해 1%도 채 안되는 실정이다.
국내에서는 지난 1998년부터 정부가 ‘21세기 세종계획’을 통해 ‘세종 말뭉치’를 구축해왔다. 하지만 2007년 이후로 사업이 중단돼 있다. 이런 상태에서 정부도 자연어처리 등 AI의 핵심기술 개발을 위한 국어 자료 구축이 필요하다고 판단해 2017년을 시작으로 지난해 국립국어원 예산 중 말뭉치 구축만을 위한 예산 204억원을 별도로 책정해 10억 어절을 말뭉치로 구축하는 사업을 진행하고 있다.
이를 관련 기술 개발 등을 추진하는 기관이나 기업 등에 제공한다. 오는 2022년까지 150억 어절 규모의 말뭉치를 구축하는 것이 목표이다. 꼭 10년 만에 정부 주도의 말뭉치 구축 사업을 재개하는 셈이다.
지난해 6월 과기정통부의 소프트웨어 분야의 국가 혁신기술 개발형 연구개발 과제인 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 공개했다. 공개한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 ‘교착어’ 특성까지 반영해 만든 언어모델이다.
공공인공지능 오픈 API‧데이터 서비스 포털 메인 화면 캡처
이 기술은 지난해 3월 한컴오피스 지식검색 베타버전에 탑재되기도 했다.
또 언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 버트(BERT)를 사용했다.
버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 이 방식은 2017년 11월 처음 공개되었을 때 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았다.
그동안 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발해 왔다. ETRI 연구진은 여기에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.
하지만 구글과 ETRI의 언어모델 개발에 활용한 BERT 방식은 현재, 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못한다.
또한 단순히 입력한 데이터양만을 늘리는 것은 언어모델 고도화에 한계가 있다. 아울러, 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어로 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는데 심혈을 기울였다.
특히 ETRI는 한국어에 최적화된 언어모델이 ‘전처리 과정에서 형태소를 분석한 언어모델’, ‘한국어에 최적화된 학습 파라미터’, ‘방대한 데이터 기반’ 등이 구글과 차별성 있는 것이 특징이다.
개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했다고 한다. 특히, 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.
아울러 지난해 6월 공개된 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 딥러닝 연구, 교육 등의 목적으로 대학, 기업, 기관의 개발자들의 많은 활용이 이루어지고 있다. 개발된 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며, 공공인공지능 오픈 API‧데이터 서비스 포털(바로가기)에서 쉽게 찾아볼 수 있다.
카카오 khaiii 깃허브 화면 캡처 및 편집
카카오는 2018년 말부터 딥러닝 기반 형태소(形態素, morpheme) 분석기 ‘카이(khaiii)’를 오픈소스로 제공하고 있다. 딥러닝을 통해 학습한 데이터를 활용해 형태소를 분석하는 모델이다. 딥러닝 기술 중 하나인 콘볼루션 신경망(CNN, Convolutional Neural Network)을 이용해 음절기반으로 형태소를 분석하는 방법을 채택했다.
세종 코퍼스를 기반으로 데이터의 오류를 수정하고 카카오에서 자체 구축한 데이터를 추가해 85만 문장, 1003만 어절의 데이터를 학습하여 정확도를 높였다. 또 딥러닝 과정에서 C++ 언어를 적용해 일반적으로 딥러닝에 쓰이는 GPU(그래픽처리장치)를 사용하지 않고도 빠른 분석 속도를 구현했다.
형태소 분석 기술은 2개 이상의 글자로 이루어진 단어 혹은 문장을 입력 시, 의미를 가진 언어 단위 중 가장 작은 단위인 형태소 단위로 자동으로 분리하는 기술이다. 예를 들면, ‘학교에 간다’라고 입력하면 ‘학교/명사 + 에/조사 + 가/동사 + ㄴ다/어미’ 로 형태소 단위와 품사를 파악해 분류해내는 기술이다.
깃허브(GitHub)에서 확인할 수 있으며, 누구나 무료로 이용 가능하며(깃허브 바로가기), 주로 자연어처리 응용 서비스의 기반 기술로 사용되며, 정보 검색, 기계 번역, 스마트 스피커나 챗봇 등 여러 서비스에서 사용할 수 있다.
네이버는 업계에서 가장 먼저 선도적으로 NLP의 중요성을 인식하고 개발과 투자로 축적한 기술력과 서비스 노하우를 바탕으로 네이버 검색이 자연어 처리 분야에서 검색 이용자의 의도를 더욱 잘 이해하는 검색으로 진화하고 있다.
HCLT 행사 이미지 및 본지편집
또 모바일 상에서의 검색이 일상화된 이용자들을 위해 AI 기술 기반 검색어 교정 시스템인 ‘AIQSpell’ 개발에 힘써왔다. 딥러닝을 비롯한 최신의 AI 기술을 활용해 기존의 검색어 교정 시스템을 대체했으며, 최근 이에 대한 유의미한 성과가 나타나고 있다.
먼저, 오타 질의들에 대한 검색어 교정량이 43% 증가했다. 예를 들어 ‘목포에세 군산깢 가는버’라고 검색을 했을 때 ‘목포에서 군산까지 가는 법’으로 교정하거나, ‘꿰양성 대장염치료제는 업는지’를 검색하면 ‘궤양성 대장염 치료제는 없는지’로 자동 변환하여 제공하는 방식으로, 비교적 긴 질의에서 발생하는 오타를 알맞은 검색어로 교정하는 비율이 대폭 증가했다.
특히 맞춤법 오류나 오타 등으로 인해 검색결과가 0건으로 나타나는 ‘검색결과 0건 질의’ 역시 크게 감소했다. 이와 함께 최신 AI 기술의 적용으로 자동완성 서비스 역시 대폭 개선되었다. 지난해 9월 개편된 네이버 자동완성에는 빅데이터 분석기술을 활용한 시스템이 도입되었다.
해당 모델은 오타가 발생했을 가능성, 순서가 뒤집혔을 가능성, 그리고 사용자가 많이 찾는 검색어일 가능성 등을 조합해 추천 검색어 후보들의 최종 점수를 계산하여 적절한 검색어를 제공한다.
이를 통해 이용자는 단어 순서를 바꾸어 입력해도, 구체적인 검색어가 기억나지 않더라도 기존에 비해 적은 타이핑으로 더욱 정확한 검색 결과를 얻을 수 있다.
또 NLP 연구 성과에서도 지난해 11월 3일에서 7일까지 5일간 홍콩에서 진행된 세계 최고 권위의 자연어처리 분야 학회(EMNLP-IJCNLP 2019)에서 네이버는 주요 성과를 공개했다. 다국어 읽기 이해도를 위한 제한된 데이터 학습으로 충분한 학습데이터가 존재하지 않는 언어에 대해 기계번역 및 자동 레이블링을 통해 데이터를 자동으로 구축하는 방법 등을 소개했다.
또 DB 정보가 불명확한 상황에서도 적용가능한 자연질의-SQL 변환 방법을 제안하는 ‘부족한 자연어 질문에서 의사 SQL 쿼리 생성’, 보다 다양한 문장 생성을 위한 모델을 제시하는 ‘다양한 생성을 위한 혼합 콘텐츠 선택’, 사용자 질의 자동완성 품질을 향상시키는 방법을 제시하는 ‘쿼리 자동 완성을 위한 하위 단어 언어 모델’ 등을 발표하기도 했다.
So you have finished reading the 자연 언어 처리 topic article, if you find this article useful, please share it. Thank you very much. See more: 자연어처리 전망, 자연어처리 분야, 자연어 뜻, 자연어처리 대학원, 자연어처리 예시, 자연어처리 책, 자연어 처리란, 자연어처리 종류