1.
반도체 제조공정에서는, OCR 및 결함 검출의 자동화를 위해 AI 기반 이미지 처리 기술이 필수 적이나, 실제 반도체 공정 특성상 정상 웨이퍼 대비 불량(Chipping) 데이터를 충분히 수집하기 어렵다는 현실적인 데이터 불균형 문제가 존재함.
이를 위해 GAN 또는 Diffusion 모델 등 생성형 AI 기법을 활용하여 극소수의 웨이어 Chipping 결함 이미지로부터 다양한 불량 데이터를 증강(Data Augmentation)하는 파이프라인을 구축해야 함.
-> WM-811K 데이터셋을 이용
WM-811K란? : 반도체 제조 공정에서 발생하는 웨이퍼의 불량 패턴을 분석하고 학습하기 위해 사용되는 대표적인 오픈 데이터셋 (행렬데이터)
WM-811K의 대표 결함클래스는 총 9개로 많이 정리되어 있음.
-
Center (4294)
-
Donut (555)
-
Edge-Loc (5189)
-
Edge-Ring (9680)
-
Loc (3593)
-
Near-full (149)
-
Random (866)
-
Scratch (1193)
-
none (147431)
프로젝트 개요
본 프로젝트는 WM-811K 웨이퍼 맵 데이터셋을 기반으로, 클래스 불균형 문제를 완화하기 위한 다양한 증강 전략을 적용하고, 그 결과가 결함 분류 및 객체 탐지 성능에 어떤 영향을 미치는지 비교 분석하는 것을 목표로 한다. 특히 단순히 증강 기법만 비교하는 데 그치지 않고, 원본 데이터셋과 노이즈 제거 데이터셋의 차이, 분류 모델과 탐지 모델 간 성능 차이, 그리고 혼합 결함 패턴에 대한 일반화 성능까지 함께 확인하는 방향으로 실험을 설계하였다.
역할 분담
프로젝트는 동일한 전체 파이프라인을 공유하되, 데이터셋 조건을 나누어 병렬적으로 진행한다.
1: 노이즈 제거 전처리가 적용된 데이터셋 기반 실험 담당 2: 원본 데이터셋 기반 실험 담당
즉, 같은 실험 구조를 유지하되 하나는 노이즈 제거 데이터셋, 다른 하나는 원본 데이터셋을 기준으로 진행하여 전처리 여부에 따른 성능 차이를 비교할 수 있도록 구성하였다.
데이터셋 구성 기준
학습용 데이터는 클래스 불균형 문제를 완화하기 위해 각 클래스당 8,000장을 기준으로 통일한다. 4개의 학습용 fold를 사용하므로, 1 fold당 2,000장을 목표 수량으로 설정한다.
None 클래스는 각 fold에서 2,000장만 다운샘플링하여 분류 학습에 사용하고, 남은 None 데이터는 합성 데이터 생성용 배경 pool로 별도 보관. 소수 클래스는 전통적 증강 또는 생성형 증강 등을 이용하여 목표 수량에 맞춘다 이 구조를 통해 각 클래스의 데이터 수를 균형 있게 맞추고, 증강 방식에 따른 성능 차이를 보다 명확하게 비교할 수 있도록 한다.
실험 데이터셋 종류
원본 데이터셋과 노이즈 제거 데이터셋 각각에 대해 아래 4가지 방식으로 실험용 데이터를 생성한다.
- 전통적 증강 방식
회전 및 반전 기반의 전통적 데이터 증강을 적용한다. 현재 64×64 웨이퍼 맵 특성을 고려하여, 신뢰성 있는 기법으로 상하반전, 좌우반전, 90/180/270도 회전 등을 사용한다.
- 생성형 AI 방식
생성형 증강 방식은 Diffusion 기반 모델로 확정하였다. 소수 클래스의 결함 패턴을 생성하여 데이터 수를 보완하고, 전통적 증강 대비 성능 향상 여부를 비교한다.
- 하이브리드 방식
전통적 증강과 생성형 AI 증강을 함께 활용하는 방식이다. 즉, 기하학적 변환 기반 증강과 Diffusion 생성 샘플을 혼합하여 데이터셋을 구성한다.
- 합성 데이터 방식
결함 패턴을 None 웨이퍼에 합성하여 새로운 결함 데이터를 생성하는 방식이다. 이는 실제 결함 샘플 수가 극도로 적은 클래스에 대해, 결함을 배경 위에 삽입하는 형태로 데이터를 보강하기 위한 전략이다.
데이터셋 버전 관리 구조
원본 / 노이즈 제거 두 조건 아래에서 각각 4가지 증강 방식이 적용되므로, 실험 데이터는 다음과 같이 나뉜다.
1-1 / 1-2 / 1-3 / 1-4 → 원본 데이터셋 기반 → 전통적 / 생성형 AI / 하이브리드 / 합성 데이터 2-1 / 2-2 / 2-3 / 2-4 → 노이즈 제거 데이터셋 기반 → 전통적 / 생성형 AI / 하이브리드 / 합성 데이터
즉, 총 8종류의 실험용 pkl 데이터셋을 구성하여 동일한 분류 및 탐지 과정을 각각 수행한다.
1차 실험: 분류 작업
먼저 각 데이터셋에 대해 결함 분류 실험을 수행한다. 이 단계에서는 주로 MobileNet 기반 분류 모델(Softmax 출력층 포함) 을 사용하여 웨이퍼 맵이 어떤 결함 클래스에 속하는지를 분류한다.
이 과정은 다음 두 축을 비교하기 위한 목적을 가진다.
원본 데이터셋 vs 노이즈 제거 데이터셋 증강 방식별 성능 차이 전통적 생성형 AI 하이브리드 합성 데이터
즉, 분류 단계에서는 “어떤 데이터셋 조건과 어떤 증강 방식이 더 분류 성능에 유리한가”를 1차적으로 검증한다.
또한 분류용 데이터셋과 객체 탐지용 데이터셋을 나눠 각각 다른 데이터셋으로 저장한다.
-> 분류 탐지용 데이터셋을 저장하고, 해당 데이터셋에 바운드 박스 라벨링 작업을 진행하여 객체 탐지 작업을 이어서 진행한다.
(YOLO등 모델을 사용하여 객체를 탐지하기 위해선 바운딩 박스 라벨링이 되어있어야 함)
2차 실험: 객체 탐지 작업
분류 실험 이후에는 같은 데이터셋을 활용하여 객체 탐지 실험을 진행한다. 이 단계에서는 다음 두 모델을 비교한다.
MobileNet SSD Lite YOLO
여기서는 각자 역할을 분담하여 한 명은 MobileNet SSD Lite, 다른 한 명은 YOLO를 중심으로 객체 탐지 작업을 수행한 뒤, 최종적으로 결과를 비교 분석한다.
탐지 실험의 목적은 다음과 같다.
데이터셋 조건(원본 / 노이즈 제거)에 따라 탐지 성능이 어떻게 달라지는가 증강 방식에 따라 탐지 성능이 어떻게 달라지는가 YOLO와 MobileNet SSD Lite 중 어떤 모델이 웨이퍼 결함 검출에 더 적합한가 확장 실험: 혼합 결함 패턴
기본 단일 결함 클래스 실험 이후에는 두 개 이상의 결함 패턴이 동시에 존재하는 혼합 결함 데이터도 생성하여 추가 실험을 진행한다.
예를 들어,
Random + Donut Scratch + Edge-Loc Donut + Loc
과 같이 복수 결함 패턴을 하나의 웨이퍼에 합성한 뒤, 이 데이터 또한 증강하여 분류 및 탐지 실험을 수행한다.
이 확장 실험의 목적은 단순한 단일 결함 인식이 아니라, 복합 결함 상황에서 모델이 어떤 반응을 보이는지 확인하는 데 있다.
특히 Random 클래스는 None보다 노이즈가 많은 형태에 가깝기 때문에, Random과 다른 결함(예: Donut)을 함께 합성했을 때 다른 강한 패턴이 Random의 특성을 가려버려 검출 성능이 저하되는지 여부도 중요한 관찰 포인트가 된다.
즉, 혼합 결함 실험은 실제 복합 결함 환경에서의 일반화 가능성을 탐색하는 단계라고 볼 수 있다.
1차 최종 목표
본 프로젝트의 1차 최종 목표는 하나가 아니라, 다음과 같이 여러 관점에서 결과를 도출하는 것이다.
- 원본 데이터셋과 노이즈 제거 데이터셋 중 어떤 쪽이 더 유의미한가
노이즈 제거가 결함 패턴을 더 선명하게 만들어 성능 향상에 기여하는지, 혹은 오히려 원본의 정보 손실을 유발하는지를 비교한다.
- 어떤 증강 방식이 가장 효과적인가
전통적 증강, Diffusion 기반 생성형 증강, 하이브리드 방식, 합성 데이터 방식 중 어느 방식이 가장 안정적으로 성능 향상에 기여하는지 확인한다.
- 어떤 모델이 더 적합한가
분류에서는 MobileNet 기반 분류기, 탐지에서는 YOLO와 MobileNet SSD Lite를 비교하여 웨이퍼 결함 인식 문제에 더 적합한 모델 구조를 분석한다.
- 혼합 결함 상황에서도 유의미한 성능을 보이는가
단일 결함 데이터로 학습한 모델이 복합 결함에도 일반화될 수 있는지, 또는 특정 결함 조합에서 성능 저하가 나타나는지를 확인한다.
- 특정 결함이 다른 결함을 가리는 현상이 존재하는가
예를 들어 Random과 Donut을 함께 합성했을 때 도넛 형태가 웨이퍼의 다른 노이즈 패턴을 가려서 Random 검출이 어려워지는지와 같은 패턴 간 상호 간섭 가능성도 추가적으로 탐구한다.
프로젝트 의의
이 프로젝트는 단순히 웨이퍼 맵 분류 성능을 높이는 데서 끝나지 않고, 전처리 방식, 증강 방식, 모델 구조, 결함 조합 조건을 함께 비교함으로써 웨이퍼 결함 인식 문제에서 어떤 데이터 구성 전략이 더 유효한지 체계적으로 분석하는 데 의미가 있다. 극심한 클래스 불균형 문제 해결, Diffusion 기반 생성형 증강의 실제 적용 가능성 확인, 합성 결함 및 혼합 결함 환경에서의 일반화 성능, 탐색 경량 모델과 대표 탐지 모델 간의 비교까지 포함하고 있는 실험 설계 중심 프로젝트라 정리할 수 있겠다.