728x90
1. 문자 집합 : 컴퓨터가 이해할 수 있는 문자의 모음
2. 인코딩 : 문자집합에 속한 문자를 0과 1로 이루어진 문자 코드로 변환하는 과정
3. 디코딩 : 0과 1로 표현된 문자 코드를 문자집합에 속한 문자로 변환하는 과정
4. 아스키 코드
- 알파벳, 아라비아 숫자, 일부 특수 문자 및 제어 문자를 포함
- 7비트로 하나의 문자 표현(8비트 중 1비트는 오류 검출을 위해 사용되는 패리티 비트)
- 2^7개의 문자 표현 가능(128개)
- 인코딩 간단
- 한글을 포함한 다른 언어 문자, 다양한 특수 문자 표현 불가
5. 한글 인코딩(초성, 중성, 종성의 조합)
- 종류
- 완성형 인코딩(한 글자 기준)
- 조합형 인코딩(자음, 모음 기준) - EUC-KR : KS X 1001 KS X 1003 문자집합 기반의 한글 인코딩 방식
- 완성형 인코딩
- 글자 하나 하나에 2바이트 크기의 코드 부여(4자리 십육진수로 표현)
- 2300여개의 한글이 표현 가능하지만 모든 한글을 표현하기에는 부족한 수
6. 유니코드 문자 집합과 utf-8
- 언어별 인코딩 방식이 아니라 통일된 문자집합과 인코딩을 고안하여 나온 것
- 유니코드
- 통일된 문자 집합(한글, 영어, 화살표화 같은 특수 문자, 이모티콘 등)
- 현대 문자 표현에 있어 매우 중요한 위치 - 유니코드의 인코딩 방식
- utf-8, utf-16, utf-32,... - utf-8 인코딩 : UTF(Unicode Transformation Format) == 유니코드 인코딩 방법
- 가변 길이 인코딩 : 인코딩 결과가 1~4바이트
- 인코딩 결과가 몇 바이트가 될지는 유니코드에 부여된 값(유니코드 코드 포인트)에 따라 다름
- 0000 ~ 007F : 1바이트
- 0080 ~ 07FF : 2바이트
- 0800 ~ FFFF : 3바이트
- 10000 ~ 10FFFF : 4바이트
7. 글자가 깨지는 경우
- 문자 집합에 포함되지 않는 문자를 사용했는지 확인
- 인코딩 방법이 호환되는 건지 확인
반응형
'ETC > CS' 카테고리의 다른 글
OAuth에 대한 정리 (0) | 2024.06.24 |
---|---|
<컴퓨터 구조론> 정리 4 (0) | 2023.12.13 |
<컴퓨터 구조론> 정리 2 (2) | 2023.12.05 |
<컴퓨터 구조론> 정리 1 (0) | 2023.12.01 |
운영체제 - 1 (0) | 2023.02.16 |