ETC/CS

<컴퓨터 구조론> 정리 3

re트 2023. 12. 6. 20:47
728x90

1. 문자 집합 : 컴퓨터가 이해할 수 있는 문자의 모음

 

2. 인코딩 :  문자집합에 속한 문자를 0과 1로 이루어진 문자 코드로 변환하는 과정

 

3. 디코딩 : 0과 1로 표현된 문자 코드를 문자집합에 속한 문자로 변환하는 과정

 

4. 아스키 코드

  • 알파벳, 아라비아 숫자, 일부 특수 문자 및 제어 문자를 포함
  • 7비트로 하나의 문자 표현(8비트 중 1비트는 오류 검출을 위해 사용되는 패리티 비트)
  • 2^7개의 문자 표현 가능(128개)
  • 인코딩 간단
  • 한글을 포함한 다른 언어 문자, 다양한 특수 문자 표현 불가

 

5. 한글 인코딩(초성, 중성, 종성의 조합)

  • 종류
    - 완성형 인코딩(한 글자 기준)
    - 조합형 인코딩(자음, 모음 기준)
  • EUC-KR : KS X 1001 KS X 1003 문자집합 기반의 한글 인코딩 방식
    - 완성형 인코딩
    - 글자 하나 하나에 2바이트 크기의 코드 부여(4자리 십육진수로 표현)
    - 2300여개의 한글이 표현 가능하지만 모든 한글을 표현하기에는 부족한 수

 

6. 유니코드 문자 집합과 utf-8

  • 언어별 인코딩 방식이 아니라 통일된 문자집합과 인코딩을 고안하여 나온 것
  • 유니코드
    - 통일된 문자 집합(한글, 영어, 화살표화 같은 특수 문자, 이모티콘 등)
    - 현대 문자 표현에 있어 매우 중요한 위치
  • 유니코드의 인코딩 방식
    - utf-8, utf-16, utf-32,...
  • utf-8 인코딩 : UTF(Unicode Transformation Format) == 유니코드 인코딩 방법
    - 가변 길이 인코딩 : 인코딩 결과가 1~4바이트
    - 인코딩 결과가 몇 바이트가 될지는 유니코드에 부여된 값(유니코드 코드 포인트)에 따라 다름
      - 0000 ~ 007F : 1바이트
      - 0080 ~ 07FF : 2바이트
      - 0800 ~ FFFF : 3바이트
      - 10000 ~ 10FFFF : 4바이트

 

7. 글자가 깨지는 경우

  • 문자 집합에 포함되지 않는 문자를 사용했는지 확인
  • 인코딩 방법이 호환되는 건지 확인
반응형

'ETC > CS' 카테고리의 다른 글

OAuth에 대한 정리  (0) 2024.06.24
<컴퓨터 구조론> 정리 4  (0) 2023.12.13
<컴퓨터 구조론> 정리 2  (2) 2023.12.05
<컴퓨터 구조론> 정리 1  (0) 2023.12.01
운영체제 - 1  (0) 2023.02.16