Top 8 문자 인코딩 291 Most Correct Answers

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 문자 인코딩 on Google, you do not find the information you need! Here are the best content compiled and compiled by the Toplist.maxfit.vn team, along with other related topics such as: 문자 인코딩 문자 인코딩 변환, 문자 인코딩 변환 사이트, 문자 인코딩 뜻, Base64 인코딩, 한글 인코딩, URL 인코딩, 인코딩이란, 인코딩, 디코딩

문자 인코딩(영어: character encoding) 또는 텍스트 인코딩(text encoding) 또는 줄여서 인코딩은 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것을 말한다.


[볼륨주의] 문자 인코딩, 유니코드, UTF-8이 뭔가요?
[볼륨주의] 문자 인코딩, 유니코드, UTF-8이 뭔가요?


문자 인코딩 – 위키백과, 우리 모두의 백과사전

  • Article author: ko.wikipedia.org
  • Reviews from users: 16102 ⭐ Ratings
  • Top rated: 4.9 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 문자 인코딩 – 위키백과, 우리 모두의 백과사전 Updating …
  • Most searched keywords: Whether you are looking for 문자 인코딩 – 위키백과, 우리 모두의 백과사전 Updating
  • Table of Contents:

문자열 세트의 종류[편집]

문자 인코딩의 구성[편집]

퍼센트 인코딩[편집]

문자깨짐 현상[편집]

같이 보기[편집]

각주[편집]

외부 링크[편집]

문자 인코딩 - 위키백과, 우리 모두의 백과사전
문자 인코딩 – 위키백과, 우리 모두의 백과사전

Read More

[인코딩] 문자 인코딩이란? (Character Encoding)

  • Article author: limvo.tistory.com
  • Reviews from users: 45096 ⭐ Ratings
  • Top rated: 3.0 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [인코딩] 문자 인코딩이란? (Character Encoding) 문자 인코딩 (Character Encoding) … 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것. 컴퓨터는 모든 정보를 0과 1인 … …
  • Most searched keywords: Whether you are looking for [인코딩] 문자 인코딩이란? (Character Encoding) 문자 인코딩 (Character Encoding) … 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것. 컴퓨터는 모든 정보를 0과 1인 … 문자 인코딩 (Character Encoding) 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것. 컴퓨터는 모든 정보를 0과 1인 바이너리, 즉 숫자로 저장한다. 그러나 우리는 문서작업, 코딩, 메..
  • Table of Contents:
[인코딩] 문자 인코딩이란?  (Character Encoding)
[인코딩] 문자 인코딩이란? (Character Encoding)

Read More

[인코딩] 문자 인코딩이란? (Character Encoding)

  • Article author: medium.com
  • Reviews from users: 30707 ⭐ Ratings
  • Top rated: 4.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [인코딩] 문자 인코딩이란? (Character Encoding) 문자 인코딩은 사람이 사용하는 문자를 컴퓨터에 표현하기 위해 약속된 규칙에 따라 변환하는 과정을 말한다. 초창기 컴퓨터에서는 0과 1, 즉 기계어만을 사용하였으니 … …
  • Most searched keywords: Whether you are looking for [인코딩] 문자 인코딩이란? (Character Encoding) 문자 인코딩은 사람이 사용하는 문자를 컴퓨터에 표현하기 위해 약속된 규칙에 따라 변환하는 과정을 말한다. 초창기 컴퓨터에서는 0과 1, 즉 기계어만을 사용하였으니 … 문자 인코딩 (Character Encoding) 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것. 컴퓨터는 모든 정보를 0과 1인 바이너리, 즉 숫자로 저장한다. 그러나 우리는 문서작업, 코딩, 메..
  • Table of Contents:
[인코딩] 문자 인코딩이란?  (Character Encoding)
[인코딩] 문자 인코딩이란? (Character Encoding)

Read More

문자 집합(Character Set)과 인코딩(Encoding)

  • Article author: nuli.navercorp.com
  • Reviews from users: 6507 ⭐ Ratings
  • Top rated: 4.2 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 문자 집합(Character Set)과 인코딩(Encoding) 영문 문자 인코딩. 영문 알파벳 26자와 숫자, 기호, 특수문자등 128자를 7비트의 이진수로 부호화한 ASCII(American Standard Code for Information … …
  • Most searched keywords: Whether you are looking for 문자 집합(Character Set)과 인코딩(Encoding) 영문 문자 인코딩. 영문 알파벳 26자와 숫자, 기호, 특수문자등 128자를 7비트의 이진수로 부호화한 ASCII(American Standard Code for Information …
  • Table of Contents:

접근성메뉴

메인 메뉴

소개 및 관련 사이트

커뮤니티

정의

영문 문자 인코딩

한글 문자 인코딩

유니코드(Unicode) 프로젝트

UTF (Unicode Transformation Format)

EUC

CP949

KSC5601 vs EUC-KR vs CP949

KSC5601 vs Unicode

결론

공유하기

삭제하기

문자 집합(Character Set)과 인코딩(Encoding)
문자 집합(Character Set)과 인코딩(Encoding)

Read More

문자 인코딩에 대해서 알아보자 – 1편 문자 인코딩 개념(수정)

  • Article author: giraffeb.tistory.com
  • Reviews from users: 14893 ⭐ Ratings
  • Top rated: 4.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 문자 인코딩에 대해서 알아보자 – 1편 문자 인코딩 개념(수정) 문자 인코딩 테이블은 0부터 255까지의 정수를 표현하는 ‘단일 옥텟’이라고 불리는 일련의 비트들이 특정한 문자와 결합하여 도표화(mapping)한 것이다. …
  • Most searched keywords: Whether you are looking for 문자 인코딩에 대해서 알아보자 – 1편 문자 인코딩 개념(수정) 문자 인코딩 테이블은 0부터 255까지의 정수를 표현하는 ‘단일 옥텟’이라고 불리는 일련의 비트들이 특정한 문자와 결합하여 도표화(mapping)한 것이다.  # 문자 인코딩(character encoding) 문자 인코딩은 크게 이렇게 3가지로 구성된다. ## 1. 문자 집합 또는 문자셋(chracter set, charset) 표현하고자 하는 언어의 문자들을 코드화 해놓은 것으로 볼 수 있다. “..
  • Table of Contents:

태그

관련글

댓글0

공지사항

최근글

인기글

최근댓글

태그

전체 방문자

문자 인코딩에 대해서 알아보자 - 1편 문자 인코딩 개념(수정)
문자 인코딩에 대해서 알아보자 – 1편 문자 인코딩 개념(수정)

Read More

문자 인코딩이란?

  • Article author: vigli.tistory.com
  • Reviews from users: 32218 ⭐ Ratings
  • Top rated: 4.7 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 문자 인코딩이란? 어쨌든 문자 인코딩은 문자 코드표를 어떤 방식으로 변환하는 읽고 쓰는 것에 대한 방법이다. 그럼 왜 동일한 문자 코드표에 대해 표현 방식이 다를까? 예 … …
  • Most searched keywords: Whether you are looking for 문자 인코딩이란? 어쨌든 문자 인코딩은 문자 코드표를 어떤 방식으로 변환하는 읽고 쓰는 것에 대한 방법이다. 그럼 왜 동일한 문자 코드표에 대해 표현 방식이 다를까? 예 … 글 내용이 많지만 문자 인코딩이 궁금하다면 꼭 읽기 바란다. 우선 인코딩을 위키 백과에 나온 설명으로 보면 ‘정보의 형태나 형식을 변환하는 처리나 처리 방식이다.’ 라고 정의 되어 있다. (출처 : https://k..
  • Table of Contents:
문자 인코딩이란?
문자 인코딩이란?

Read More

문자열 인코딩 완벽 정복하기(for 개발자) :: 붉은섬의 프로그래밍

  • Article author: redisle.tistory.com
  • Reviews from users: 41012 ⭐ Ratings
  • Top rated: 4.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 문자열 인코딩 완벽 정복하기(for 개발자) :: 붉은섬의 프로그래밍 프로그래머가 만든 프로그램들간에는 햇님 표준 인코딩 방식이 적극적으로 사용되었고 13442를 컴퓨터에 표시해야 하는 시점에 햇님 표준전산 문자집합인 … …
  • Most searched keywords: Whether you are looking for 문자열 인코딩 완벽 정복하기(for 개발자) :: 붉은섬의 프로그래밍 프로그래머가 만든 프로그램들간에는 햇님 표준 인코딩 방식이 적극적으로 사용되었고 13442를 컴퓨터에 표시해야 하는 시점에 햇님 표준전산 문자집합인 … 문자열 인코딩! 어느날 친구가 물어봅니다. “OO아~ 문자열 인코딩이 뭐야?” 갑자기 머릿속이 하얗게 변합니다. 문자열 인코딩… 분명 들어본적은 있는데 말이죠. 기억을 마구 더듬어봅니다. 예전에 인코딩을 찾아..어려운 걸 쉽게 쉬운 걸 더 쉽게
  • Table of Contents:

문자열 인코딩!

개발자가 문자열 인코딩을 모른다면 생길 수 있는일

컴퓨터에서 문자를 표현해야 하는 이유

인코딩디코딩(부호화복호화)이란

문자 집합과 문자열 인코딩은 다르다

태초에 ASCII가 있었다

한글을 표현하기 위한 눈물나는 노력

이 혼돈의 카오스를 끝내러 왔다 유니코드의 등장

유니코드는 전세계 모든 문자를 표현하는 문자집합이다

유니코드의 크기는 얼마나 될까

유니코드의 구조

보조평면 SMP(Supplementary Multilingual Plane)

유니코드에서 한글의 비중은 어떻게 될까

유명한 문자 집합과 그 인코딩 방식을 정리한 표

유니코드 인코딩에 대하여 설명하기에 앞서

TAG

관련글 관련글 더보기

인기포스트

문자열 인코딩 완벽 정복하기(for 개발자) :: 붉은섬의 프로그래밍
문자열 인코딩 완벽 정복하기(for 개발자) :: 붉은섬의 프로그래밍

Read More

[Web] 비트와 바이트, 문자 인코딩이란?

  • Article author: overcome-the-limits.tistory.com
  • Reviews from users: 30728 ⭐ Ratings
  • Top rated: 5.0 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [Web] 비트와 바이트, 문자 인코딩이란? Text Encoding. 예전에는 각 나라별로, 언어마다 다양한 텍스트 인코딩이 존재했습니다. 그러다 보니 자국 언어에 맞는 인코딩 방식을 택하다 보니, 다른 … …
  • Most searched keywords: Whether you are looking for [Web] 비트와 바이트, 문자 인코딩이란? Text Encoding. 예전에는 각 나라별로, 언어마다 다양한 텍스트 인코딩이 존재했습니다. 그러다 보니 자국 언어에 맞는 인코딩 방식을 택하다 보니, 다른 … 들어가며 누군가 홈페이지에서 “뛣뷁꿇꼶꺎….”와 같은 이상한 문자가 나오는 것은 왜 그런 것인가 저에게 물었던 적이 있습니다. 개발을 하면서 아주 간단한 부분조차 제대로 설명할 수 없다는 것을 깨달을 때..
  • Table of Contents:

들어가며

비트와 바이트

Mega Mebi

ASCII와 Unicode

Text Encoding

마치며

출처

태그

Web Related Posts

티스토리툴바

[Web] 비트와 바이트, 문자 인코딩이란?
[Web] 비트와 바이트, 문자 인코딩이란?

Read More

파일을 열거나 저장할 때 텍스트 인코딩 선택

  • Article author: support.microsoft.com
  • Reviews from users: 2574 ⭐ Ratings
  • Top rated: 4.2 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 파일을 열거나 저장할 때 텍스트 인코딩 선택 인코딩 표준은 문자 집합의 각 텍스트 문자를 숫자 값에 할당하는 번호 매기기 … 텍스트 파일 인코딩 및 디코딩과 관련한 문제를 방지하려면 유니코드 인코딩을 … …
  • Most searched keywords: Whether you are looking for 파일을 열거나 저장할 때 텍스트 인코딩 선택 인코딩 표준은 문자 집합의 각 텍스트 문자를 숫자 값에 할당하는 번호 매기기 … 텍스트 파일 인코딩 및 디코딩과 관련한 문제를 방지하려면 유니코드 인코딩을 … 사용할 수 있는 인코딩 표준을 이해하고 파일을 열거나 저장할 때 인코딩 표준을 선택해야 합니다.
  • Table of Contents:

실행할 작업

텍스트 인코딩 이해

파일을 열 때 인코딩 표준 선택

파일을 저장할 때 인코딩 표준 선택

Word에서 사용할 수 있는 인코딩 표준 찾기

이 정보가 유용한가요

의견 주셔서 감사합니다!

파일을 열거나 저장할 때 텍스트 인코딩 선택
파일을 열거나 저장할 때 텍스트 인코딩 선택

Read More


See more articles in the same category here: toplist.maxfit.vn/blog.

위키백과, 우리 모두의 백과사전

두벌식 한글 자판.

문자 인코딩(영어: character encoding) 또는 텍스트 인코딩(text encoding)[1] 또는 줄여서 인코딩은 사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것을 말한다. 넓은 의미의 컴퓨터는 이러한 신호를 입력받고 처리하는 기계를 뜻하며, 신호 처리 시스템을 통해 이렇게 처리된 정보를 사용자가 이해할 수 있게 된다.[2] 이 신호를 입력하는 인코딩과 문자를 해독하는 디코딩을 하기 위해선 미리 정해진 기준을 바탕으로 입력과 해독이 처리되어야 하는데, 이를 문자열 세트 또는 문자셋이라고 한다. 초기 보급형 컴퓨터의 문자열 세트는 아스키나 EBCDIC이 표준이었으나, 이러한 문자열 세트는 세계 곳곳에 인터넷이 보급되며 표현해야 할 문자가 증가하면서 이러한 문자셋들을 표준화하기 위해 많은 대체 방식이 개발되었다. 표준 문자셋을 개발하는 것에 대한 논의가 이어졌고, 후에는 유니코드가 등장하게 되었다.[3]

문자열 세트의 종류 [ 편집 ]

문자 인코딩의 구성 [ 편집 ]

문자 정보는 정보를 표현하기 위한 글자들의 집합을 정의한 것으로, 직접적으로 사용되지 않을 수도 있고 한 문자 집합을 여러 문자 인코딩에서 쓸 수도 있다. 특히 집합 안의 문자들에 음수가 아닌 정수들을 배정한 것을 부호화된 문자 집합(coded character set, CCS)라 한다. 문자 집합은 ASCII와 같이 더 이상의 문자가 추가될 수 없기도 하고, 유니코드와 같이 문자가 계속 추가될 수 있기도 하다.

일반적으로 문자 집합과 문자 인코딩은 어떤 문자를 사용할 수 있으며 어떤 식으로 표현되는지를 나타낸다는 데서 동의어로 취급되기도 한다. 역사적인 이유로 MIME이나 그에 기반한 시스템은 문자 집합(“charset”)을 문자 인코딩을 나타내는 데 사용한다.

문자 인코딩 형태(character encoding form, CEF)는 특정한 문자 집합 안의 문자들을 컴퓨터 시스템에서 사용할 목적으로 일정한 범위 안의 정수(코드값)들로 변환하는 방법이다. 여기에는 유니코드 코드 포인트를 8비트 숫자의 집합으로 나타내는 UTF-8이나, 16비트 숫자의 집합으로 나타내는 UTF-16, 그리고 대부분의 일반적인 문자 인코딩들이 포함된다.

문자 인코딩 구조(character encoding scheme, CES)는 문자 인코딩 형태로 변환된 코드값을 옥텟 기반의 시스템에서 사용하기 위하여 옥텟들로 변환하는 방법이다. 대부분의 문자 인코딩 형태는 이 과정에서 아무런 일도 일어 나지 않으며, 8비트 이상의 숫자를 사용하는 UTF-16과 같은 문자 인코딩 형태의 경우 엔디안을 지정해 주는 것으로 충분하다. 여기에는 ISO 2022와 같은 복합 인코딩이나, SCSU와 같은 압축 방법 등이 속한다.

퍼센트 인코딩 [ 편집 ]

이 부분의 본문은 이 부분의 본문은 퍼센트 인코딩 입니다.

퍼센트 인코딩(percent-encoding)은 URL에 문자를 표현하는 문자 인코딩 방법이다. 이 방법에 따르면 알파벳이나 숫자 등 몇몇 문자를 제외한 값은 옥텟 단위로 묶어서, 16진수 값으로 인코딩한다.

문자깨짐 현상 [ 편집 ]

이 부분의 본문은 이 부분의 본문은 문자깨짐 입니다.

utf-8이나 euc-kr같은 서로 다른 문자 인코딩 방식은 텍스트나 문자의 깨짐 현상을 일으키는 주요 원인중 하나이다.

같이 보기 [ 편집 ]

각주 [ 편집 ]

[인코딩] 문자 인코딩이란? (Character Encoding)

문자 인코딩 (Character Encoding)

사용자가 입력한 문자나 기호들을 컴퓨터가 이용할 수 있는 신호로 만드는 것.

컴퓨터는 모든 정보를 0과 1인 바이너리, 즉 숫자로 저장한다.

그러나 우리는 문서작업, 코딩, 메시지 등 컴퓨터에서 문자를 사용하여 입력하고 저장하며 처리하고 있다.

우리가 메모장에 한글로 문자열을 입력하여 저장하게 되면 컴퓨터가 한글을 어떻게 이해할 수 있을까?

입력된 한글을 컴퓨터가 이해할 수 있는 신호로 변환하는 과정이 일어났기 때문이다.

여기서 컴퓨터가 이해할 수 있는 신호란 앞서 말한 바이너리 데이터를 의미한다.

역으로, 디코딩이란 0과 1로 구성된 바이너리 데이터를 다시 문자로 복구하는 것이다.

문자 셋 (Character Set) = 코드표

바이너리 데이터로 변환하는 인코딩과 다시 문자로 변환하는 디코딩은 미리 정해진 규칙에 의해서 수행된다.

이렇게 미리 정해진 규칙을 문자 셋이라고 하며, 초기 표준 문자열 셋은 ASCII, EBCDIC … 이었다.

그러나 인터넷이 전세계적으로 보급되며 표현해야 할 문자가 증가하면서 문자 셋들을 표준화 할 필요성이 대두되었다.

이후 등장하게 된 것이 유니코드이다.

문자 인코딩과 문자 셋

문자 인코딩과 문자 셋은 약간 다른 개념이다.

문자 인코딩 : 문자를 컴퓨터가 이해할 수 있는 신호로 만드는 것

문자 셋 : 인코딩과 디코딩을 위해 미리 정해진 규칙

문자 인코딩이란, 컴퓨터가 이해할 수 있는 바이너리로 어떤 방법을 사용해도 상관없는 방법론이고

문자 셋이란, 문자를 숫자로 매핑해주는 표이다.

예를 들어, base64 인코딩은 문자열을 아스키코드로 인코딩한 후 다시 base64 코드표를 통해 인코딩을 수행한다.

이미 컴퓨터가 이해할 수 있는 아스키 코드로 인코딩된 문자열을 새로운 base64 코드표로 인코딩한다는 것이다.

위의 예시와 같이 인코딩이란 바이너리를 생성하기 위한 과정이라고 볼 수 있다.

또한 아스키 인코딩과 같이 문자 셋과 문자 인코딩이 동일한 경우도 있기 때문에

인코딩이 문자 셋을 포함하고 있다고 생각할 수 있다.

ASCII (American Standard Code for Information Interchange, 미국 정보 교환 표준 부호)

아스키 코드는 문자 그대로 미국에서 정의하고 있는 표준, 영문 알파벳을 사용하는 대표적인 문자 인코딩이다.

초창기 컴퓨터를 기계어만을 사용하여 개발하는것에 어려움이 있어 문자를 코드화하기 위해

아스키 코드가 탄생하게 되었고 대부분의 인코딩이 아스키에 기초하고 있다.

아스키는 7bit 인코딩으로 총 1byte(8bit)에서 7bit를 사용하여 128개의 문자를 표현할 수 있다. (0 ~ 127)

나머지 1bit는 에러 검출을 위한 Parity bit로 비워두어 총 1byte로 문자를 표현한다.

* 7개의 비트 중 1의 개수가 홀수면 1, 짝수면 0으로 설정된 Parity bit를 함께 전송함.

확장아스키코드(Extended ASCII) = ANSI 코드

앞서 말했듯이 컴퓨터와 인터넷이 전세계적으로 보급되며 영어권이 아닌 나라에서도 문자열 셋을 사용해야 했다.

그래서 기존 아스키 코드의 7bit가 아닌 8bit를 문자를 표현하는데 사용하여 총 256개의 문자를 표현할 수 있게 되었다. (128 ~ 255)

아래 사진은 메모장을 통해 알파벳과 한글 문자열들을 저장한 것이다.

HxD라는 프로그램을 통해 위의 TXT 파일이 어떻게 저장되는지 확인할 수 있다.

HxD : 바이너리 파일을 읽을 수 있는 무료 에디터 프로그램

아래 그림은 메모장에 저장된 문자열을 ANSI로 디코딩한 모습을 보여준다.

HxD를 통해 나온 결과물을 한번 살펴보자!

아스키코드표를 통해 A라는 심벌은 41이라는 HEX 값을 가짐을 확인할 수 있다.

여기서 HEX는 16진수로 결국 (4 X 16) + (1 X 1) = 65의 DEC(10진수)를 나타내는 것이다.

4bit의 값이 16개의 숫자를 나타낼 수 있기 때문에 HEX 값 하나는 4bit임을 알 수 있다.

위에서 살펴보았듯이 아스키코드는 총 8bit로 이루어져 있기 때문에 HxD에서 한칸이 아스키코드임을 알 수 있다.

결과적으로 우리가 입력한 A라는 문자열은 DEC로 65, HEX로 41이라는 숫자로 표현하기로 약속한 것이고,

컴퓨터에서는 BIN인 01000001로 저장된다는 것을 알 수 있다.

아스키코드표 : https://www.ascii-code.com/

멀티바이트 인코딩(Multibyte Encoding)

처음 멀티바이트 인코딩이 사용된 것은 CJK(Chinese-Japanese-Korean) 멀티바이트 인코딩으로

한국어, 중국어, 일본어는 문자의 수가 매우 많기 때문에 확장아스키코드 영역의 128개로도 부족했기 때문이었다.

따라서 1byte가 아닌 여러 byte를 통해 문자를 표현한 것이 멀티바이트 인코딩이다.

한국의 인코딩 방식은 여러 인코딩 방식을 거쳐왔다.

한글의 자음과 모음을 조합해서 표현할 수 있는 조합형 한글 인코딩

자음과 모음을 합쳐서 완성된 문자로 표현하는 완성형 한글 인코딩

완성형 인코딩에서는 EUC-KR : 2350자 / CP949(MS949) : 11172자 를 사용하게 되었고,

조합형 인코딩에서는 2byte 조합, 3byte 조합, N byte 조합과 같은 여러 방식을 사용하게 되었다.

많은 인코딩 방식을 사용하면서 서로 다른 인코딩 방식을 사용한 프로그램이나 문서 사이에서는 정상적으로 디코딩되지 않는 호환성 문제가 발생할 수 밖에 없었다는 것을 알 수 있다.

유니코드 (UNICODE)

멀티바이트 인코딩의 문제는 한국에 국한되는 문제가 아니었다.

한글뿐만 아니라 중국어, 일본어도 마찬가지로 각자의 언어를 표현할 수 있는 인코딩 방식과 다른 문자열 셋을 사용하기 때문에 모든 언어를 동시에 표현할 수는 없었다.

결국 전세계의 모든 문자를 하나의 문자 셋으로 표현할 수 없을까?라는 문제가 등장하게 된 것이다.

이러한 문제를 해결하기 위해 전세계적으로 사용되는 모든 문자 집합을 하나로 모아 탄생시킨 것이 유니코드이다.

유니코드의 목적은 현존하는 문자 인코딩 방법들을 모두 유니코드로 교체하려는 것이다.

유니코드는 존재하는 모든 문자들을 2byte(16bit)로 표현하려고 했으며, 이론적으로 65536개의 문자를 표현할 수 있다.

그러나 한글의 조합과 수 많은 한자들, 그리고 히라가나등, 중앙 아시아의 문자들을 2byte에는 모두 담지 못했다.

그래서 유니코드에서는 2byte를 가지는 평면을 여러개 만들어 이를 해결하고자 하였다.

평면을 나누기 위해 추가적으로 1byte를 사용할 수 있기 때문에 총 2~3byte를 통해 유니코드를 표현할 수 있다.

유니코드를 나타내는 U+와 16진수를 합쳐 U+0000에서 U+FFFF 까지 문자를 표현할 수 있으며,

앞에 평면을 위한 1byte인 U+00에서 U+FF를 추가할 수 있다. (총 256개의 평면 가능)

[예시] 1번 평면 U+01XXXX, 2번 평면 U+02XXXX 등

[0번] 유니코드 기본평면 (BMP : Basic Multilingual Plane)

앞서 말한 17개의 평면 중에 0번 평면이다.

기본평면에는 거의 모든 근대 문자와 특수 문자가 포함되어 있으며 한중일이 거의 대부분의 영역을 차지함을 확인할 수 있다.

기본 평면은 총 2byte로 U+0000 에서 U+FFFF로 표시한다.

[출처] 위키피디아/유니코드평면

[1 ~ 16번] 평면

1번 평면 : 보조 다국적 평면 / 옛 문자, 음악 기호, 수학 기호를 표현

2번 평면 : 보조 상형 문자 평면 / 초기 유니코드에 포함되지 않은 한중일 통합 한자를 주로 담고 있음

3번 평면 : 3차 상형문자 평면 / 갑골 문자, 금문 등의 문자와 한중일 통합 한자, 기타 옛 상형 문자를 위해 예약된 영역

4번 ~ 13번 : 미지정 평면

14번 평면 : 보조 특수 목적 평면 / 소수의 제어용 문자

15 ~ 16번 : 사용자 영역 / 특정 업체나 사용자 별로 할당하여 씀

한글 유니코드 : http://www.unicode.org/charts/PDF/UAC00.pdf

유니코드 : https://home.unicode.org/basic-info/overview/

문자 집합(Character Set)과 인코딩(Encoding)

안녕하세요. 이건준입니다.

간혹, 개발자들로부터 한글이 깨진다는 문의를 받을 때가 있습니다.

인터넷에 검색을 해보면 캐릭터셋을 바꾸거나 제대로 된 인코딩으로 파일을 새로 저장하라는 등의 답변을 얻을 수 있는데, 여기서 나오는 캐릭터셋, 인코딩이라는 용어를 우리는 자주 들어왔지만 정확히 어떤 것인지, 어떤 관계가 있는지, utf-8과 euc-kr이 어떻게 다른 것인지 잘 알지 못했습니다.

euc-kr로 작업한 파일이 MS949에서 깨진다는 문의를 받으면 당황하지 않고 친절히 설명할 수 있도록, 이제 캐릭터셋과 인코딩의 정확한 의미와 여러 인코딩의 종류를 알아볼 차례입니다.

정의

문자 집합은 정보를 표현하기 위한 글자나 기호들의 집합을 정의한 것입니다.

이런 문자나 기호의 집합을 컴퓨터에서 저장하거나 통신에 사용할 목적으로 부호화 하는 것을 문자 인코딩(부호화)이라 하고 인코딩 된 문자 부호(Character code)를 다시 디코딩(복호화)하여 본래 문자나 기호로 표현할 수 있습니다.

그림 1. 대표적인 문자 부호는 모스 부호가 있다

영문 문자 인코딩

영문 알파벳 26자와 숫자, 기호, 특수문자등 128자를 7비트의 이진수로 부호화한 ASCII(American Standard Code for Information Interchange) 부호가 현재도 널리 사용되고 있으며, 실질적인 영문자의 국제 표준 부호입니다.

그림 2. 128개의 ASCII 부호

한글 문자 인코딩

컴퓨터가 한글을 표현하기 시작하던 1980년대에는 2바이트 조합형 한글을 주로 사용하였습니다. 조합형 한글의 원리는 초, 중, 종성에 해당하는 문자를 각각 부호화하여 문자에 따라 부호를 조합하여 만드는 방식입니다.

그러나 초, 중, 종성을 조합하는 부호표가 각 업체마다 달라서 A사의 컴퓨터에서 작성한 프로그램이 B사의 컴퓨터에서는 한글이 깨지는 문제가 발생하게 됩니다.

정부는 한글 전자 문자 표준의 제정의 필요성을 느끼고 표준을 제정하게 되는데, 당시 학계에서는 조합형 한글이 한글 창제의 원리에 부합하고 모든 활자를 표현 가능하므로 조합형을 표준으로 제안하였으나 정부는 완성형 한글을 표준(KS_C_5601_1987)으로 제정합니다.

그림 3. 한글 문자집합은 총 11172자이다

완성형(KSC5601-87)의 표준 채택 이유

ISO-2022(2바이트 이상의 문자 부호를 사용할 때 지켜야 하는 확장 방법에 관한 국제 표준)에 따르고 있으므로 외국의 네트워크나 SW 사용에 유리하다.

현재의 한글 사용 실태를 조사해 보았을 때 2,350자의 한글만으로도 충분히 모든 표현이 가능하다.

정렬 작업에 있어서 한글 변환 테이블을 통해서 가능함으로 크게 문제가 될 것이 없다.

완성형(KSC5601-87)에 대한 반론

한글 창제의 원리 초, 중, 종성의 구별이 없는 단순한 부호에 불과하다.

모든 한글을 표기 할 수 없으므로 문학 작품을 집필하거나 신조어를 표현할 때 문제가 된다.

우리 언어의 영역이 제한 받는 결과를 가져온다.

한글이라 붙여진 코드에 한글보다 한자가 더욱 많다. 또한 필요 없는 특수 문자가 너무 많고 외국의 문자집합까지 포함하고 있어 오히려 한글 사용 영역이 줄어들었다.

음소의 분석이 어려우므로 형태소 해석이 불가능하여, 차후 음성 인식에서 사용할 수 없는 부호이다.

ISO-2022를 따르고 있다고 하지만 ISO의 인증은 받지 못한 부호이다.

한글 오토마타(automata) 구현에 있어서 한글 키 입력에 의해 조합형 코드가 만들어지면 이를 테이블을 통해 완성형 코드로 변환하여 호출하므로 부담이 된다.

KSC5601이 표준으로 제정되자 기업들은 앞다투어 완성형 한글만을 탑재하기 시작했으나 이로 인해 워드프로세서에서 한글 표기가 제대로 되지 않는 문제(고어나 독음)가 발생하여 워드프로세스의 내부에서 코드를 조합하여 표현이 가능하도록 하는 등의 기형적인 구현사례가 늘어나게 됩니다.

이후 KSC5601-87에 1930자의 한글을 추가한 KSC5657을 발표하였으나 여전히 근본적인 문제가 해결되지 않은 부호로 거의 사용되지 않았고, 결국, 정부는 1992년 기존 KSC5601 완성형과 함께 조합형 한글을 함께 수용할 수 있는 KSC5601-92를 표준으로 제정하여 현재까지 사용하고 있습니다.

그림4. 2바이트 조합형 한글 부호표 (KSC5601-92)

유니코드(Unicode) 프로젝트

유니코드는 전세계의 모든 문자를 동일하게 표현하기 위한 산업표준으로 유니코드협회(Unicode Consortium)가 제정하며, 유니코드에는 ISO-10646에 포함된 문자집합, 문자 부호화와 문자를 표시하기 위한 복호화 알고리즘이 포함되어 있습니다.

ISO-10646은 문자 표시에 관한 국제 표준으로 초기 ISO-10646과 유니코드는 서로 다른 독자적인 표준이었으나. ISO-10646-1이 제정되면서, ISO실행위원회와 유니코드컨소시엄의 협의로 문자 표시 방법이 통합되어 현재의 국제 표준은 유니코드라고 할 수 있습니다.

(ISO-10646에는 KS X 1001(KSC5601), EUC-KR, ISO-2022-KR의 한글 문자 부호가 포함되어 있다.)

UTF (Unicode Transformation Format)

UTF는 유니코드 형태의 문자를 변환하기 위한 공식이다. 유니코드는 4byte 구성되어 있기 때문에 사용하는 코드 범위에 따라서 1~4byte로 변환이 가능하게 된다. UTF-7, UTF-8, UTF-16BE, UTF-16LE등의 종류가 있다.

EUC

euc는 extend unix code의 약자로 유닉스에서 영어를 제외한 문자를 표시하기 위한 확장 부호를 의미합니다. 그 중 euc-kr은 한글 표현을 위한 문자 인코딩인데, 영문은 KSC5636(ASCII와 동일하나 역슬래쉬를 원표시로 대체)으로 처리하고 한글은 KSC5601로 처리합니다. 과거 euc-kr은 KSC5601-87의 완성형 한글이었으나 현재의 euc-kr은 KSC5601-92로 조합형 한글까지 사용 가능합니다.

CP949

마이크로소프트에서 사용하는 한글 문자의 부호표입니다. 본래 code page는 IBM에서 최초 고안하였으나 MS-window에서 한글 표현을 위해 채용하면서 MS949로 불리우기도 합니다. 처음 CP949는 KSC5601에 표현된 2350자만을 제공하였으나 KSC5601-92가 제정되면서 조합형 한글에 대한 부호표도 추가되어 제공되고 있습니다.

KSC5601 vs EUC-KR vs CP949

KSC5601은 완성형과 조합형의 모든 한글 문자의 표현이 가능한 한글 문자 부호 표준이며 euc-kr과 CP949는 모두 이 KSC5601을 기본으로 한 문자 부호입니다. 유닉스계열의 한글 문자 부호인 euc-kr에서는 KSC5601을 그대로 수용하고 있으며, 윈도우계열 한글 문자 부호인 CP949(MS949)는 완성형 한글의 형태를 취하고 있으나 KSC5601에 의해 조합형으로 만들어지는 한글의 코드까지도 제공하고 있으므로 두 문자 부호의 인코딩 방식은 달라도 같은 코드를 만들어 내게 되어 두 문자 부호는 서로 호환됩니다. 단, java환경에서는 euc-kr이 KSC5601-87로 사용되어 CP949의 확장 완성형과 호환되지 않을 수도 있으니 주의해야 합니다.

KSC5601 vs Unicode

유니코드에는 KSC5601의 문자 집합이 포함되어 있지만, 4byte의 유니코드의 어느 범주에 속하느냐에 따라 그리고 어떤 변환식을 사용하느냐에 따라 부호의 값이 달라지므로 KSC5601을 그대로 사용하는 euc-kr(CP949)와 유니코드는 서로 호환되지 않습니다.

결론

현재의 한글 표준 부호는 완성형과 조합형의 구분이 없습니다, euc-kr로 선언된 웹페이지에서든, MS949를 사용하는 윈도우에서든 똠, 꿿, 휗 휅 같은 문자들이 모두 표시가 되기 때문에 한글을 더 쉽게 사용할 수 있어, 국제표준인 유니코드와 유닉스계열의 euc-kr만 잘 구분하여 사용할 수 있으면 인코딩 때문에 한글이 깨지는 일은 없을 것 입니다.

So you have finished reading the 문자 인코딩 topic article, if you find this article useful, please share it. Thank you very much. See more: 문자 인코딩 변환, 문자 인코딩 변환 사이트, 문자 인코딩 뜻, Base64 인코딩, 한글 인코딩, URL 인코딩, 인코딩이란, 인코딩, 디코딩

Leave a Comment