요약 결론(현재)

  • 1차 원인: GPU 오버/언더가 아니라 CPU Curve Optimizer(CO) 과도 설정(All-core -30)EXPO 메모리 안정성(특히 VDDIO/VSOC 오토 저전압)과 메모리 트레이닝에 악영향 → IMC 불안정 → 부하 시 141 이벤트.
  • 안정성 기준: OCCT CPU+MEM Extreme 통과를 1차 기준으로 채택. 현재 All Core CO -15로 안정화 완료, 2차 기준 TM5 X3D도 90분 통과 완료.
  • 성능/효율: R23 21,797 → 22,312, PPT 130–150 W → 130-140 W.
  • 부스트/온도 상태: 부스트 5,120–5,200 MHz, 최고 코어 82–83 °C, PBO 한도 내 정상.


시스템·측정 스냅샷

  • 보드/BIOS: ASUS TUF B850-PLUS, Bios Ver 1079
  • CPU: Ryzen 9 9800X3D
  • RAM: G.SKILL DDR5-6000 CL32 1.4 V (2×32 GB), EXPO I
  • GPU: ASUS RTX 5090 Astral
  • 메모·전압 관찰
    • 일반적 기대: VDD/VDDQ/VDDIO = 1.40 V
    • 관찰: VDDIO(=IMC) 1.0–1.2 V, VSOC 1.28 V 관측 vs 오토 1.20 V 입력되는 경우 존재
  • CO(Per-Core) 현재 후보: All Core -15
  • 검증 기준: OCCT CPU+Mem Extreme 30분 + TM5 무오류 90분 + 실사용 게임 안정

타임라인

2025-07-15

  • 현상: WinDbg에서 VIDEO_ENGINE_TIMEOUT_DETECTED (141) 반복 확인 → TDR 루틴 발동.
  • 가설: 초기에는 GPU 언더볼팅/PL 이슈 우선 의심.

2025-07-16

  • 실험: Resizable BAR 고려, PL 69→80 조정, 드라이버 576.88.
  • 전압/클럭 메모: 언더볼팅 커브 875 mV@2517, 실제 게임 중 **≤860 mV@2400** 주 사용, PL 80.

2025-07-27

  • 분석: 일부 크래시에서 AV Write/NullPtr 등 앱/드라이버 경계 예외.
  • 변경: 5090 FE → ASUS 5090 Astral(언더볼팅 “굳이 필요 없음” 관점).

2025-08-05

  • 진행: 덤프/로그 수집 강화, 증거 기반 접근으로 로드맵 업데이트.

2025-08-06 (a)

  • 설정: 미니 → 커널 메모리 덤프 전환 검토(TDR 근본 분석 가시성↑).
  • 참고: ILLEGAL_INSTRUCTION, RADAR_PRE_LEAK_64는 별도 트랙.

2025-08-07

  • 도구 간섭 가설: RTSS/오버레이 사용 환경에서 GPU wait 증가 메시지 관찰 → 간섭 배제 테스트 수행(직접 원인 아님).

2025-08-09

  • 게임 사례: Battlefield 6 중 DirectX 에러. 동시점 141 정보 레벨만 기록(크래시 없음).
  • 조치: 게임 크래시 덤프 경로 확인, Aftermath 적용 가능성 검토.

2025-08-10

  • 덤프 이슈: 안정성 기록에 141 누락 → 덤프 정책/경로 재점검.
  • 이벤트 153(nvlddmkm): 메시지 리소스 경고(기능 영향 없음).
  • 보안 기능 테스트: HVCI/커널 스택 보호 ON 후 141 info만 남고 크래시 완화 경향.

2025-08-11

  • 신호 경로 검토:
    • 메인 LG 34GN850 (DP), 서브 Zeuslab 15" (HDMI)
    • 구형 DP 1.2 사용 이력 → Ugreen DP80(2 m) 고려(3 m 미존재)
  • 결론: 케이블/포트는 마진 요소일 뿐 근본 원인 아님.

2025-08-12

  • 메모리 집중 검증: EXPO I + TM5(Ryzen3D) 에서 에러 #0/#4/#5 재현.
  • 핵심 관찰: CO All-core -30 + VDDIO/VSOC 오토 저전압 결합 → 메모리 트레이닝 이상/IMC 마진 축소.
  • 대응: Per Core CO 재튜닝 시작, TM5 통과 확보.

2025-08-13 (현재)

  • 추가 전압 조정:
VSOC 1.28V(단, 전압 보정으로 실제 적용 값은 1.27V)
CLDO VDDP 0.995V
MEM VDD=MEM VDDQ=CPU VDDIO: 1.4V
  • 상태: All Core CO -15에서 R23 22,231, 온도는 Stock 과 큰 차이 없음, PPT 130–140 W.
  • 남은 과제: 장기 실사용 검증.

근본 원인 사슬(정리)

  1. CO 과도(-30 All-core) → 코어 전압 헤드룸 급감.
  2. 보드 오토 전압VDDIO/VSOC저전압으로 책정(특히 VDDIO=IMC 1.0–1.2 V).
  3. 조합 효과로 메모리 트레이닝 실패/편향 + IMC 에러 마진 축소.
  4. 그래픽 부하 시 디스플레이 엔진 복구(TDR, 141) 촉발.
  5. RTSS/오버레이·케이블 등은 2차 스트레스 요인(근본 X).

현재 추천 운영 프로파일(안정성 우선)

  • 메모리/IMC
    • EXPO I, VDD/VDDQ=1.40 V 준수.
    • VDDIO/VSOC 오토 과신 금지: VDD/VDDQ와 상시 동일 값
  • CPU
    • All Core CO 값으로 장기 검증.
    • VSOCCLDO VDDP 값 수동 인가

성능/안정 스냅샷

  • R23: 21,797(Stock) → 22,231(CO)
  • 부스트: 5,120–5,200 MHz(Override 없음)
  • 최고 코어 온도: Stock 과 큰 차이 없음
  • 전력(PPT): 140–150 W(Stock)130–140 W(CO)

회고(개인적 감상)

  • “TDR=GPU 문제”라는 직관에서 벗어나, AM5 플랫폼에선 CO ↔ 메모리/IMC 상호작용이 크다는 사실을 재확인했다. CO 과도는 CPU만이 아니라 메모리 트레이닝/IMC 마진까지 흔든다.
  • 오토 전압은 안전값이 아니다. 특히 VDDIO/VSOC는 보드/BIOS 성향에 따라 저전압이 걸릴 수 있으므로 수동 고정 → 하향 탐색이 안정화의 지름길이었다.
  • 증상은 GPU(TDR)로 보였지만 원인은 플랫폼(메모리/IMC).

+ Recent posts