요약 결론(현재)
- 1차 원인: GPU 오버/언더가 아니라 CPU Curve Optimizer(CO) 과도 설정(All-core -30)이 EXPO 메모리 안정성(특히 VDDIO/VSOC 오토 저전압)과 메모리 트레이닝에 악영향 → IMC 불안정 → 부하 시 141 이벤트.
- 안정성 기준: OCCT CPU+MEM Extreme 통과를 1차 기준으로 채택. 현재 All Core CO -15로 안정화 완료, 2차 기준 TM5 X3D도 90분 통과 완료.
- 성능/효율: R23 21,797 → 22,312, PPT 130–150 W → 130-140 W.
- 부스트/온도 상태: 부스트 5,120–5,200 MHz, 최고 코어 82–83 °C, PBO 한도 내 정상.
시스템·측정 스냅샷
- 보드/BIOS: ASUS TUF B850-PLUS, Bios Ver 1079
- CPU: Ryzen 9 9800X3D
- RAM: G.SKILL DDR5-6000 CL32 1.4 V (2×32 GB), EXPO I
- GPU: ASUS RTX 5090 Astral
- 메모·전압 관찰
- 일반적 기대: VDD/VDDQ/VDDIO = 1.40 V
- 관찰: VDDIO(=IMC) 1.0–1.2 V, VSOC 1.28 V 관측 vs 오토 1.20 V 입력되는 경우 존재
- CO(Per-Core) 현재 후보:
All Core -15 - 검증 기준: OCCT CPU+Mem Extreme 30분 + TM5 무오류 90분 + 실사용 게임 안정
타임라인
2025-07-15
- 현상: WinDbg에서
VIDEO_ENGINE_TIMEOUT_DETECTED (141)반복 확인 → TDR 루틴 발동. - 가설: 초기에는 GPU 언더볼팅/PL 이슈 우선 의심.
2025-07-16
- 실험: Resizable BAR 고려, PL 69→80 조정, 드라이버 576.88.
- 전압/클럭 메모: 언더볼팅 커브
875 mV@2517, 실제 게임 중 **≤860 mV@2400** 주 사용, PL 80.
2025-07-27
- 분석: 일부 크래시에서 AV Write/NullPtr 등 앱/드라이버 경계 예외.
- 변경: 5090 FE → ASUS 5090 Astral(언더볼팅 “굳이 필요 없음” 관점).
2025-08-05
- 진행: 덤프/로그 수집 강화, 증거 기반 접근으로 로드맵 업데이트.
2025-08-06 (a)
- 설정: 미니 → 커널 메모리 덤프 전환 검토(TDR 근본 분석 가시성↑).
- 참고:
ILLEGAL_INSTRUCTION,RADAR_PRE_LEAK_64는 별도 트랙.
2025-08-07
- 도구 간섭 가설: RTSS/오버레이 사용 환경에서 GPU wait 증가 메시지 관찰 → 간섭 배제 테스트 수행(직접 원인 아님).
2025-08-09
- 게임 사례: Battlefield 6 중 DirectX 에러. 동시점 141 정보 레벨만 기록(크래시 없음).
- 조치: 게임 크래시 덤프 경로 확인, Aftermath 적용 가능성 검토.
2025-08-10
- 덤프 이슈: 안정성 기록에 141 누락 → 덤프 정책/경로 재점검.
- 이벤트 153(nvlddmkm): 메시지 리소스 경고(기능 영향 없음).
- 보안 기능 테스트: HVCI/커널 스택 보호 ON 후 141 info만 남고 크래시 완화 경향.
2025-08-11
- 신호 경로 검토:
- 메인 LG 34GN850 (DP), 서브 Zeuslab 15" (HDMI)
- 구형 DP 1.2 사용 이력 → Ugreen DP80(2 m) 고려(3 m 미존재)
- 결론: 케이블/포트는 마진 요소일 뿐 근본 원인 아님.
2025-08-12
- 메모리 집중 검증: EXPO I + TM5(Ryzen3D) 에서 에러 #0/#4/#5 재현.
- 핵심 관찰: CO All-core -30 + VDDIO/VSOC 오토 저전압 결합 → 메모리 트레이닝 이상/IMC 마진 축소.
- 대응: Per Core CO 재튜닝 시작, TM5 통과 확보.
2025-08-13 (현재)
- 추가 전압 조정:
VSOC 1.28V(단, 전압 보정으로 실제 적용 값은 1.27V)
CLDO VDDP 0.995V
MEM VDD=MEM VDDQ=CPU VDDIO: 1.4V- 상태: All Core CO -15에서 R23 22,231, 온도는 Stock 과 큰 차이 없음, PPT 130–140 W.
- 남은 과제: 장기 실사용 검증.
근본 원인 사슬(정리)
- CO 과도(-30 All-core) → 코어 전압 헤드룸 급감.
- 보드 오토 전압이 VDDIO/VSOC를 저전압으로 책정(특히 VDDIO=IMC 1.0–1.2 V).
- 조합 효과로 메모리 트레이닝 실패/편향 + IMC 에러 마진 축소.
- 그래픽 부하 시 디스플레이 엔진 복구(TDR, 141) 촉발.
- RTSS/오버레이·케이블 등은 2차 스트레스 요인(근본 X).
현재 추천 운영 프로파일(안정성 우선)
- 메모리/IMC
- EXPO I, VDD/VDDQ=1.40 V 준수.
- VDDIO/VSOC 오토 과신 금지: VDD/VDDQ와 상시 동일 값
- CPU
- 현 All Core CO 값으로 장기 검증.
- VSOC 및 CLDO VDDP 값 수동 인가
성능/안정 스냅샷
- R23: 21,797(Stock) → 22,231(CO)
- 부스트: 5,120–5,200 MHz(Override 없음)
- 최고 코어 온도: Stock 과 큰 차이 없음
- 전력(PPT): 140–150 W(Stock) → 130–140 W(CO)
회고(개인적 감상)
- “TDR=GPU 문제”라는 직관에서 벗어나, AM5 플랫폼에선 CO ↔ 메모리/IMC 상호작용이 크다는 사실을 재확인했다. CO 과도는 CPU만이 아니라 메모리 트레이닝/IMC 마진까지 흔든다.
- 오토 전압은 안전값이 아니다. 특히 VDDIO/VSOC는 보드/BIOS 성향에 따라 저전압이 걸릴 수 있으므로 수동 고정 → 하향 탐색이 안정화의 지름길이었다.
- 증상은 GPU(TDR)로 보였지만 원인은 플랫폼(메모리/IMC).
'LiveKernelEvent 141' 카테고리의 다른 글
| LiveKernelEvent 141 디버깅 회고 후, 한달 사용기 (0) | 2025.09.09 |
|---|