데이터베이스 3주차 스터디 정리

CS 면접 준비

데이터베이스 3주차 스터디 정리

Song쏭 2023. 11. 22. 17:12

📌 3주차 : 인덱스

Clustered Index, Non-Clustered Index
B-Tree 인덱스, 해시 인덱스

📌 1. 랜덤 I/O와 순차 I/O에 대해서 설명해주세요.
📌 2. 인덱스에 대해서 설명해주세요.
📌 3. 인덱스의 동작 방식에 대해서 설명해주세요.
📌 4. 어떤 기준으로 인덱스를 설정해야할까요?
📌 5. 테이블에 인덱스를 많이 설정하면 좋을까요?
📌 6. 커버링 인덱스(Covering index)에 대해서 설명해주세요.
📌 7. 다중 컬럼 인덱스(Multi-column index, 복합 인덱스)에 대해서 설명해주세요.
📌 8. B-Tree 인덱스와 B+Tree 인덱스에 대해 설명해주세요.
📌 9. Hash 인덱스에 대해서 설명해주세요.
📌 10. 클러스터링 인덱스에 대해서 설명해주세요.
📌 11. 인덱스 스캔 방식에 대해서 설명해주세요.
📌 12. 쿼리 실행 계획에 대해서 설명해주세요. 실행 계획을 확인해본적이 있나요?
📌 13. 힌트에 대해서 설명해주세요.
📌 14. 인덱스가 잘 동작하고 있는지 어떻게 확인할 수 있을까요?
📌 15. 인덱스 사용시 주의해야할 점에 대해서 알려주세요.
📌 16. GROUP BY 사용시 인덱스가 걸리는 조건에 대해 설명해주세요.
📌 17. 이름, 국가, 성별이 있는 테이블에서 인덱스를 어떻게 걸어야할까요?

📌 1. 랜덤 I/O와 순차 I/O에 대해서 설명해주세요.

랜덤 I/O와 순차 I/O는 컴퓨터 시스템에서 데이터를 읽거나 쓸 때 사용되는 두 가지 기본적인 방식입니다. 각각의 방식은 데이터에 접근하는 패턴에 따라 다르며, 다음과 같이 설명할 수 있습니다.

랜덤 I/O (Random I/O)
랜덤 I/O는 디스크 상의 비연속적인 위치에서 데이터를 읽거나 쓰는 방식입니다.
이 방식은 파일 시스템에서 흩어져 있는 파일 조각들을 읽을 때 주로 발생합니다.
예를 들어, 데이터베이스 쿼리가 테이블의 여러 행을 무작위로 읽거나 업데이트할 때 랜덤 I/O가 발생합니다.
랜덤 I/O는 순차 I/O에 비해 상대적으로 느리며, 디스크 헤드가 다양한 위치로 이동해야 하기 때문에 더 많은 탐색 시간(seek time)이 필요합니다.
SSD(Solid State Drive)는 HDD(Hard Disk Drive)에 비해 랜덤 I/O에서 더 높은 성능을 보입니다.

순차 I/O (Sequential I/O)
순차 I/O는 디스크 상의 연속적인 위치에서 데이터를 읽거나 쓰는 방식입니다.
이 방식은 데이터가 물리적으로 디스크 상에 연속적으로 저장되어 있을 때 발생합니다.
예를 들어, 로그 파일을 작성하거나 비디오 파일을 읽는 것과 같은 작업에서 순차 I/O가 일어납니다.
순차 I/O는 랜덤 I/O에 비해 상대적으로 빠르며, 디스크 헤드의 이동이 적기 때문에 탐색 시간이 줄어듭니다.
대량의 데이터를 처리할 때 순차 I/O가 효율적입니다.
랜덤 I/O와 순차 I/O의 차이는 주로 디스크 접근 패턴과 관련이 있으며, 각각의 사용 사례와 시스템의 성능 요구 사항에 따라 최적의 방식이 결정됩니다.

📌 2. 인덱스에 대해서 설명해주세요.

데이터베이스의 쿼리 성능의 최적화를 위해, 인덱스에 대한 깊은 이해는 필수입니다.

인덱스(Index)는 데이터베이스에서 데이터 검색의 효율성을 높이기 위해 사용되는 기술입니다. 인덱스는 데이터베이스 테이블의 한 열(column)이나 여러 열에 걸쳐 생성될 수 있으며, 특정 데이터를 빠르게 찾을 수 있도록 도와줍니다. 쉽게 말해, 책의 색인과 유사한 역할을 합니다.

📌 3. 인덱스의 동작 방식에 대해서 설명해주세요.

인덱스의 동작 방식은 데이터베이스에서 데이터를 빠르게 찾기 위해 특정한 구조를 사용하는 것에 기반합니다. 주로 사용되는 구조는 B-트리(B-Tree)이지만, 다른 구조(예: 해시 테이블, B+트리 등)도 사용될 수 있습니다. 여기서는 가장 일반적인 B-트리 기반 인덱스의 동작 방식에 대해 설명하겠습니다.

[B-트리 인덱스의 동작 방식]
B-트리 구조
B-트리는 균형 잡힌 트리 구조로, 모든 리프 노드가 동일한 레벨에 있습니다. 이 구조는 데이터의 삽입, 삭제, 검색에 있어서 일정한 성능을 유지합니다.

데이터 정렬
인덱스는 키 값에 따라 정렬된 상태로 데이터를 저장합니다. 이 때 키는 인덱스가 생성된 열(들)의 값입니다.

검색 효율성
데이터를 찾을 때, 전체 테이블을 순차적으로 검색하는 대신, 인덱스 트리를 통해 빠르게 탐색합니다. 인덱스의 키 값을 비교하며 트리를 내려가서 해당 데이터가 있는 노드를 찾습니다.

리프 노드
B-트리의 리프 노드(가장 아래쪽 노드)에는 실제 데이터 레코드를 찾을 수 있는 포인터(또는 참조)가 저장됩니다. 이 포인터를 사용하여 데이터 파일에서 실제 레코드를 검색합니다.

중간 노드

트리의 중간 노드들은 키 값을 기반으로 데이터를 찾아가는 데 사용되는 가이드 역할을 합니다.

[인덱스의 검색 과정 예시]
예를 들어, "LastName" 열에 대한 인덱스가 있다고 가정해 봅시다. 사용자가 SELECT * FROM Users WHERE LastName = 'Smith' 쿼리를 실행한다고 할 때:

1. 데이터베이스는 'Smith'에 해당하는 인덱스의 키 값을 B-트리에서 찾습니다.
2. 트리의 루트에서 시작하여, 키 값들을 비교하며 트리를 내려갑니다.
3. 'Smith'를 포함하는 리프 노드를 찾으면, 해당 노드는 실제 데이터 레코드의 위치를 가리키는 포인터를 포함하고 있습니다.
4. 데이터 파일에서 이 포인터를 사용하여 'Smith'의 데이터 레코드를 찾고, 결과를 반환합니다.

인덱스의 장단점
장점: 데이터 검색 속도가 매우 빨라집니다. 특히 큰 테이블에서 성능 향상이 두드러집니다.
단점: 인덱스는 추가적인 디스크 공간을 사용하며, 데이터 삽입, 삭제, 수정 작업 시 인덱스의 유지 관리로 인한 오버헤드가 발생합니다.

적절한 인덱스 전략은 데이터베이스의 전체적인 성능에 큰 영향을 미치므로, 인덱스는 신중하게 계획하고 관리해야 합니다.

📌 4. 어떤 기준으로 인덱스를 설정해야할까요?

인덱스를 설정할 때는 몇 가지 중요한 기준을 고려해야 합니다. 이 기준들은 데이터베이스의 성능을 최적화하고, 유지 관리를 용이하게 하는 데 도움이 됩니다. 인덱스를 설정할 때 고려해야 할 주요 기준은 다음과 같습니다.

쿼리 패턴 분석
어떤 종류의 쿼리가 자주 사용되는지 분석합니다. WHERE, JOIN, ORDER BY 절에서 자주 사용되는 열들은 인덱스의 좋은 후보입니다.

선택도(Selectivity)
선택도가 높은 열(즉, 유니크한 값이 많이 있는 열)은 인덱싱에 더 적합합니다. 중복된 값이 많은 열에 대한 인덱스는 효율이 낮을 수 있습니다.

데이터 수정 빈도
자주 변경되는 데이터에 대한 인덱스는 성능 저하를 일으킬 수 있습니다. 데이터 삽입, 삭제, 수정이 잦은 열에 대해서는 인덱싱 전략을 신중히 고려해야 합니다.

테이블 크기
매우 작은 테이블에 대해서는 인덱스가 큰 성능 개선을 제공하지 않을 수 있습니다. 대규모 테이블에서 인덱스의 효과가 더 큽니다.

복합 인덱스 고려
여러 열을 조합하여 복합 인덱스를 생성할 수 있습니다. 이 때, 쿼리에서 자주 함께 사용되는 열들을 고려하여 복합 인덱스를 구성합니다.

인덱스 유지 관리
인덱스는 추가적인 저장 공간을 사용하고, 데이터 변경 시 유지 관리가 필요합니다. 인덱스의 수와 크기를 고려하여 시스템의 용량 계획에 반영해야 합니다.

성능 테스트
인덱스를 추가한 후에는 성능 테스트를 통해 실제 성능 개선 효과를 확인해야 합니다. 경우에 따라 예상과 다른 결과가 나타날 수 있습니다.

DBMS의 특성 고려
사용하는 데이터베이스 관리 시스템(DBMS)의 특성도 고려해야 합니다. 각 DBMS는 인덱스 구현과 관련하여 서로 다른 최적화와 제한 사항을 가지고 있습니다.

인덱스 설정은 데이터베이스의 전반적인 성능에 큰 영향을 미칠 수 있으므로, 데이터베이스의 사용 패턴과 시스템의 전체적인 구조를 고려하여 신중하게 계획하고 적용해야 합니다.

📌 5. 테이블에 인덱스를 많이 설정하면 좋을까요?

테이블에 인덱스를 많이 설정하는 것이 항상 좋은 것은 아닙니다. 인덱스는 쿼리 성능을 향상시킬 수 있지만, 과도하게 사용하면 오히려 다음과 같은 부정적인 영향을 미칠 수 있습니다:

성능 저하
인덱스가 많으면 데이터 삽입, 삭제, 수정(업데이트) 작업 시 인덱스를 업데이트하는 데 추가 시간이 소요됩니다. 이는 특히 데이터가 자주 변경되는 시스템에서 성능 저하를 초래할 수 있습니다.

공간 사용 증가
각 인덱스는 디스크 상에 추가적인 공간을 차지합니다. 인덱스가 많아지면 더 많은 저장 공간이 필요하고, 이는 스토리지 비용 증가로 이어질 수 있습니다.

유지 관리 비용 증가
인덱스가 많으면 데이터베이스의 유지 관리가 더 복잡해집니다. 백업과 복구 작업이 더 오래 걸릴 수 있으며, 인덱스 자체의 관리도 추가적인 노력을 요구합니다.

최적화 복잡도 증가

인덱스가 많으면 쿼리 최적화기(query optimizer)의 작업이 더 복잡해집니다. 때로는 예상치 못한 방식으로 쿼리 성능에 영향을 줄 수 있으며, 최적의 실행 계획을 찾는 것이 더 어려워질 수 있습니다.

📌 6. 커버링 인덱스(Covering index)에 대해서 설명해주세요.

커버링 인덱스(Covering Index)는 데이터베이스 쿼리의 성능을 최적화하기 위한 특별한 유형의 인덱스입니다. 커버링 인덱스는 쿼리에서 요구하는 모든 데이터를 인덱스 자체에서 제공할 수 있을 때 사용됩니다. 즉, 쿼리가 필요로 하는 모든 열이 인덱스에 포함되어 있어서 데이터베이스 엔진이 실제 테이블의 데이터를 참조할 필요가 없는 경우를 말합니다.

커버링 인덱스는 쿼리의 성능을 크게 향상시킬 수 있지만, 인덱스 크기가 커질 수 있으므로 저장 공간과 인덱스 유지 관리에 대한 비용을 고려해야 합니다.
쿼리 패턴과 데이터 접근 패턴에 따라 적절한 커버링 인덱스를 설계하는 것이 중요합니다.

커버링 인덱스는 데이터베이스 성능 최적화에 있어 매우 강력한 도구이지만, 모든 상황에 적합한 것은 아니므로 사용 시 상황을 잘 고려해야 합니다.

📌 7. 다중 컬럼 인덱스(Multi-column index, 복합 인덱스)에 대해서 설명해주세요.

다중 컬럼 인덱스(Multi-column index), 또는 복합 인덱스는 두 개 이상의 컬럼을 기반으로 구성된 인덱스를 말합니다.

이러한 인덱스는 여러 컬럼에 걸쳐 있는 데이터의 조합에 대해 효율적인 검색 성능을 제공합니다.

📌 8. B-Tree 인덱스와 B+Tree 인덱스에 대해 설명해주세요.

B-트리 인덱스와 B+트리 인덱스는 데이터베이스 시스템에서 널리 사용되는 두 가지 인덱스 유형입니다.

둘 다 균형 잡힌 트리 구조를 가지고 있으며, 대규모 데이터를 효율적으로 관리하고 검색하는 데 사용됩니다.

그러나 두 인덱스 유형 간에는 몇 가지 중요한 차이점이 있습니다.

B-트리는 각 노드가 여러 개의 키를 가질 수 있는 트리 구조입니다. 각 노드는 정해진 범위의 키 수를 가지며, 노드의 키는 정렬된 상태로 유지됩니다.

B+트리는 B-트리의 변형으로, 모든 데이터는 리프 노드에만 저장되고, 내부 노드는 키와 리프 노드로의 포인터만을 저장합니다.

📌 9. Hash 인덱스에 대해서 설명해주세요.

해시 인덱스(Hash Index)는 데이터베이스에서 특정 데이터를 매우 빠르게 검색하기 위해 해시 테이블을 사용하는 인덱스 유형입니다.

해시 인덱스는 주로 등가 비교(예: = 연산자 사용)에 최적화되어 있으며, 범위 검색이나 정렬 작업에는 적합하지 않습니다.

해시 인덱스의 작동 방식
해시 함수 사용
각 키 값에 해시 함수를 적용하여 해시 코드(hash code)를 생성합니다. 이 해시 코드는 데이터가 저장될 위치(버킷)를 결정하는 데 사용됩니다.

버킷에 데이터 저장
생성된 해시 코드에 따라 각 데이터는 해시 테이블의 특정 버킷(bucket)에 저장됩니다. 이렇게 하면 키를 통한 데이터 검색이 매우 빨라집니다.

빠른 접근

쿼리 시 키 값에 대해 같은 해시 함수를 사용하고, 해시 테이블에서 해당 해시 코드에 해당하는 버킷을 직접 접근하여 데이터를 찾습니다.

📌 10. 클러스터링 인덱스에 대해서 설명해주세요.

클러스터링 인덱스(Clustering Index)는 데이터베이스에서 테이블의 데이터를 인덱스에 정의된 순서대로 물리적으로 저장하는 인덱스 유형입니다.

클러스터링 인덱스는 데이터의 물리적인 정렬을 인덱스의 순서에 맞춰 조정하여, 테이블의 데이터를 인덱스 키에 따라 클러스터링(집중화)합니다.

📌 11. 인덱스 스캔 방식에 대해서 설명해주세요.

데이터베이스에서 쿼리를 실행할 때 사용되는 데이터 검색 방식 중 하나입니다. 인덱스 스캔은 특정 조건에 맞는 데이터를 찾기 위해 인덱스를 사용하는 방식으로, 주로 인덱스가 있는 컬럼을 대상으로 쿼리를 수행할 때 발생합니다.

[인덱스 스캔의 작동 방식]
데이터베이스 시스템은 쿼리의 WHERE 절이나 JOIN 조건에 맞는 인덱스를 찾아 해당 인덱스를 사용하여 데이터를 검색합니다.
쿼리 최적화기(Query Optimizer)는 인덱스를 사용할 경우와 사용하지 않을 경우의 비용을 비교하여 인덱스 스캔 방식을 선택합니다.
인덱스 스캔을 사용하면, 데이터베이스는 인덱스 항목을 통해 필요한 레코드의 위치를 빠르게 찾아 해당 레코드에 접근합니다.

📌 12. 쿼리 실행 계획에 대해서 설명해주세요.

쿼리 실행 계획(Query Execution Plan)은 데이터베이스 쿼리가 실제로 데이터베이스 시스템 내에서 어떻게 실행될지를 나타내는 일련의 지침입니다. 쿼리 최적화기(Query Optimizer)에 의해 생성되며, 데이터를 가져오기 위한 가장 효율적인 방법을 결정합니다. 쿼리 실행 계획은 쿼리의 성능을 분석하고 최적화하는 데 중요한 도구로 사용됩니다.

쿼리 실행 계획의 사용 방법
대부분의 데이터베이스 관리 시스템(DBMS)은 쿼리 실행 계획을 보기 위한 도구를 제공합니다. 예를 들어, SQL Server에서는 SET SHOWPLAN_ALL ON, PostgreSQL에서는 EXPLAIN, MySQL에서는 EXPLAIN 문을 사용하여 쿼리 실행 계획을 볼 수 있습니다.
쿼리 실행 계획을 사용하여 쿼리의 성능을 분석하고, 필요한 경우 인덱스 추가, 쿼리 수정, 스키마 변경 등의 조치를 취하여 성능을 최적화할 수 있습니다.
쿼리 실행 계획을 이해하고 해석하는 능력은 데이터베이스 관리자(DBA) 및 개발자에게 매우 중요한 기술입니다.

📌 13. 힌트에 대해서 설명해주세요.

데이터베이스 쿼리에서 "힌트(Hint)"는 쿼리 최적화기에게 특정 쿼리를 어떻게 실행할지에 대한 지시나 제안을 제공하는 메커니즘입니다. 힌트는 쿼리 최적화기가 자동으로 결정하는 실행 계획을 개발자가 의도적으로 조정하고자 할 때 사용됩니다. 즉, 데이터베이스에게 특정 쿼리의 실행 방식에 대한 힌트나 지침을 제공하는 것입니다.

힌트는 데이터베이스 최적화기의 자동 결정을 무시하고 특정 실행 방식을 강제하기 때문에, 데이터베이스의 전체적인 성능에 영향을 줄 수 있습니다.
데이터베이스 엔진이 업데이트될 때 기존의 힌트가 더 이상 최적이 아닐 수 있으므로, 주기적으로 힌트의 유효성을 재검토하는 것이 중요합니다.
힌트의 사용은 성능 문제의 해결책이 아닌, 마지막 수단으로 고려되어야 합니다. 먼저 쿼리 자체를 최적화하거나 인덱스를 재검토하는 것이 바람직합니다.
힌트는 강력한 도구이지만, 데이터베이스의 내부 작동 방식에 대한 깊은 이해를 필요로 하며, 잘못 사용되었을 때 부정적인 영향을 끼칠 수 있습니다. 따라서 경험이 풍부한 데이터베이스 관리자나 개발자에 의해 신중하게 사용되어야 합니다.

📌 14. 인덱스가 잘 동작하고 있는지 어떻게 확인할 수 있을까요?

인덱스가 잘 동작하는지 확인하는 것은 데이터베이스 성능 최적화의 중요한 부분입니다.

인덱스의 효율성을 평가하고 문제를 진단하기 위한 몇 가지 아래의 방법들이 있습니다.

1. 쿼리 실행 계획 분석
2. 인덱스 사용 통계 확인
3. 성능 모니터링 도구 사용
4. 응답 시간 및 리소스 사용량 측정
5. 인덱스 조정 및 재구성
6. 쿼리 및 데이터베이스 설계 검토

인덱스의 효율성을 평가하는 것은 복잡한 프로세스일 수 있으며, 데이터베이스의 전체적인 성능에 영향을 줄 수 있습니다. 따라서 성능 테스트와 모니터링을 통해 지속적으로 인덱스의 성능을 검토하고 필요에 따라 조정하는 것이 중요합니다.

📌 15. 인덱스 사용시 주의해야할 점에 대해서 알려주세요.

과도한 인덱스 사용 피하기
너무 많은 인덱스는 삽입, 삭제, 갱신 작업 시 성능 저하를 초래할 수 있습니다. 각각의 인덱스는 데이터 변경 시 함께 업데이트되어야 하기 때문입니다.

적절한 컬럼 선택
인덱스는 고유성이 높은 컬럼(낮은 카디널리티를 가진 컬럼)에 적용하는 것이 효과적입니다. 예를 들어, 성별이나 상태와 같이 소수의 값만을 가진 컬럼에 인덱스를 설정하는 것은 효과가 제한적일 수 있습니다.

쿼리 최적화 고려
인덱스는 특정 쿼리에 대해 최적화됩니다. 따라서 어떤 종류의 쿼리를 주로 실행하는지를 고려하여 인덱스를 생성해야 합니다.

인덱스 열 순서
복합 인덱스를 사용할 때는 열의 순서가 중요합니다. 가장 제약이 크고 검색에 자주 사용되는 컬럼을 인덱스의 앞쪽에 배치하는 것이 좋습니다.

인덱스와 쿼리의 일치성
쿼리의 WHERE 절이나 JOIN 조건이 인덱스와 일치하지 않으면, 인덱스는 사용되지 않을 수 있습니다. 쿼리와 인덱스가 잘 맞도록 설계하는 것이 중요합니다.

인덱스 단편화 주의

데이터의 변경으로 인해 인덱스가 단편화될 수 있습니다. 정기적으로 인덱스를 재구성하거나 재생성하여 단편화를 관리해야 합니다.

데이터 분포 고려

데이터의 분포가 균일하지 않은 경우, 인덱스의 효율성이 떨어질 수 있습니다. 데이터 분포를 고려하여 인덱스를 생성하고 조정해야 합니다.

인덱스 메모리 사용량 고려
인덱스는 메모리를 사용합니다. 시스템의 메모리 용량과 성능을 고려하여 인덱스를 관리해야 합니다.

균형잡힌 접근 필요
인덱스는 읽기 작업을 빠르게 하지만, 쓰기 작업에는 부담을 줄 수 있습니다. 읽기와 쓰기 작업의 균형을 고려하여 인덱스를 사용해야 합니다.

인덱스 사용은 데이터베이스 성능에 큰 영향을 미칠 수 있으므로, 신중한 분석과 테스트를 거쳐야 합니다. 데이터베이스와 쿼리의 특성을 잘 이해하고, 인덱스를 적절히 관리하는 것이 중요합니다.

📌 16. GROUP BY 사용시 인덱스가 걸리는 조건에 대해 설명해주세요.

GROUP BY 절을 사용할 때 인덱스가 효과적으로 작동하기 위한 조건은 다음과 같습니다.

인덱스된 컬럼의 GROUP BY 사용
GROUP BY 절에 사용되는 컬럼이 인덱스로 지정되어 있어야 합니다. 데이터베이스는 이 인덱스를 사용하여 그룹화 작업을 보다 효율적으로 수행할 수 있습니다.

인덱스 열 순서
GROUP BY에 여러 컬럼이 사용될 경우, 이들 컬럼이 인덱스에서의 순서와 일치하는 것이 이상적입니다. 예를 들어, 인덱스가 (A, B, C) 컬럼 순으로 생성된 경우, GROUP BY A, B, C와 같은 순서로 쿼리를 작성하는 것이 좋습니다.

선행 컬럼 기반의 그룹화
복합 인덱스의 경우, GROUP BY 절은 인덱스의 선행 컬럼(leading column)을 기준으로 그룹화를 수행해야 인덱스를 효과적으로 활용할 수 있습니다. 즉, 인덱스의 첫 번째 컬럼부터 순서대로 GROUP BY에 사용되어야 합니다.

WHERE 절과의 결합
GROUP BY가 WHERE 절과 결합되어 사용될 때, WHERE 절에 인덱스된 컬럼이 사용되면 인덱스의 효과가 증가합니다. 이는 데이터베이스가 먼저 WHERE 절을 사용하여 데이터를 필터링한 후, 해당 결과에 대해 GROUP BY를 수행하기 때문입니다.

커버링 인덱스
GROUP BY와 함께 선택된 컬럼들이 인덱스의 일부인 경우(즉, 인덱스가 쿼리에 필요한 모든 데이터를 커버하는 경우), 데이터베이스는 테이블 데이터에 접근할 필요 없이 인덱스만을 사용하여 쿼리를 처리할 수 있습니다. 이러한 상황을 커버링 인덱스라고 합니다.

인덱스의 유지 관리

인덱스가 단편화되거나 최신 상태가 아니면, 그 효율성이 떨어질 수 있습니다. 정기적인 인덱스 재구성 및 업데이트를 통해 인덱스의 효과를 유지할 필요가 있습니다.

📌 17. 이름, 국가, 성별이 있는 테이블에서 인덱스를 어떻게 걸어야할까요?

인덱스를 설정할 때 고려해야 할 중요한 요소는 테이블의 사용 패턴, 즉 어떤 쿼리가 자주 사용되는지입니다.

이름(Name), 국가(Country), 성별(Gender)이 있는 테이블에 인덱스를 걸 때는 다음과 같은 사항을 고려해야 합니다:

자주 사용되는 쿼리 조건
어떤 컬럼이 WHERE 절에서 주로 사용됩니까? 예를 들어, 대부분의 쿼리가 국가로 데이터를 필터링한다면 국가 컬럼에 인덱스를 설정하는 것이 좋습니다.

조인 연산
다른 테이블과 조인될 때 사용되는 컬럼이 있습니까? 이러한 컬럼에 인덱스를 걸면 조인 성능이 향상될 수 있습니다.

검색 및 정렬의 빈도어떤 컬럼이 SELECT의 결과로 자주 사용되며, 결과가 어떤 컬럼으로 정렬됩니까? 예를 들어, 이름으로 자주 검색하고 결과를 성별로 정렬한다면, 이에 맞게 인덱스를 설정할 수 있습니다.

카디널리티(고유값의 수)
고유값이 많은 컬럼(높은 카디널리티)은 인덱스의 후보가 될 수 있습니다. 성별 같은 낮은 카디널리티를 가진 컬럼은 인덱스의 효율이 낮을 수 있습니다.

복합 인덱스 고려
여러 컬럼이 자주 함께 사용된다면, 이들을 포함하는 복합 인덱스를 고려할 수 있습니다. 예를 들어, 국가와 성별을 함께 필터링하는 쿼리가 자주 있다면, 두 컬럼을 포함하는 복합 인덱스를 고려해 볼 수 있습니다.

인덱스 설정 예시
국가에 대한 인덱스: 쿼리에서 국가로 많이 필터링하는 경우.
이름에 대한 인덱스: 이름으로 많이 검색하는 경우.
성별에 대한 인덱스: 성별이 쿼리의 중요한 부분이면서 다른 값들과 함께 자주 사용되는 경우.
국가와 성별의 복합 인덱스: 국가와 성별을 함께 필터링하는 쿼리가 많은 경우.

인덱스를 설정하기 전에는 해당 테이블의 사용 패턴과 쿼리 로그를 분석하는 것이 중요합니다. 또한, 인덱스를 추가한 후에는 쿼리의 성능을 모니터링하여 인덱스의 효과를 검증해야 합니다.