초기 설정

  • 모든 설정 초기화: 순정 상태에서 재검증
  • CPU 교체: 요구 전압이 평균적으로 너무 높아 불량의심으로 교체
  • 메모리 재검증: memtest86, aida64, occt 모두 통과를 기준

시스템·측정 스냅샷

  • 보드/BIOS: ASUS TUF B850-PLUS Bios Ver 1079
  • CPU: Ryzen 9 9800X3D
  • RAM: G.SKILL DDR5-6000 CL32 1.4 V (2×32 GB), EXPO I
  • GPU: ASUS RTX 5090 Astral
  • CO(All-Core): All Core -20

타임라인

2025-09-06

  • 현상: 이벤트 뷰어에 지속 141 이벤트 관찰, 안정성 기록에는 남지 않음.
  • 가설: INFO 레벨 로그라 괜찮을 것 같으나 다발성이라 순정 상태로 회귀 시 괜찮은가? 로 시작
  • 실험: 바이오스 초기화, EXPO 적용, PBO Advanced - Motherboard
  • 테스트 1회차: memtest86 통과, OCCT 10분 실패, AIDA64 Extreme 10분 실패
  • 테스트 2회차: memtest86 에러 4개, OCCT 10분 통과, AIDA64 Extreme 10분 실패
  • 테스트 3회차: memtest86 에러 1개, OCCT 10분 통과, AIDA64 Extreme 40분 실패
  • 테스트 4회차: memtest86 에러 1개, OCCT 10분 통과, AIDA64 Extreme 50분 실패
  • 테스트 5회차: memtest86 에러 1개, OCCT 30분 통과, AIDA64 Extreme 1시간 30분 실패
  • 테스트 6회차: 바이오스 다운그레이드(1066), memtest86 통과, OCCT 10분 통과, AIDA64 Extreme 1시간 41분 실패
  • 1일차 가설: 바이오스 버전에 따른 문제는 아니라고 판단, 메모리 불량 여부 체크 필요

2025-09-07

  • 변경: 기존 CPU 센터 검증 시 정상 판정이나 CPU 교체 진행
  • 실험: 바이오스 초기화, EXPO 적용, PBO Advanced - Auto
  • 테스트 1회차: memtest86 에러 4개
  • 테스트 2회차: memtest86 에러 4개
  • 테스트 3회차: memtest86 에러 1개
  • 테스트 4회차: memtest86 에러 1개
  • 테스트 5회차: memtest86 에러 1개
  • 테스트 6회차: 바이오스 업그레이드(1079), memtest86 에러 없음, OCCT 10분 통과, AIDA64 Extreme 30분 통과
  • Auto로 인한 전압 값 변동: 각종 전압이 기존 수치보다 상당히 많이 내려옴 VSOC 1.28 -> 1.20, CLDO VDDP 1.15(최대) -> 0.945
  • 테스트 7회차: memtest86 통과, OCCT 30분 통과, AIDA Extreme 7시간 통과

2025-09-08

  • 실험: 바이오스 초기화, EXPO 적용, PBO Advanced - Auto, CO(All Core -20)
  • 테스트 1회차: memtest86 통과, OCCT 15분 통과, AIDA Extreme 2시간 통과

근본 원인 (정리)

  1. PBO Limits 과도
    • Motherboard 설정은 과도한 전압 사용으로 인한 불안정성 초래
    • 전압 자체를 감소하면 고전압을 요구할 때 문제가 생김
    • 고전압을 허용하면 전압 강하가 일어날 때 문제가 생김
  2. 불안정 상태의 전압 고정
  • 위 원인들을 보정하기 위한 전압값들은 다시 문제가 발생하면 조치가 불가능

현재 추천 운영 프로파일

  • CPU
    • PBO Advanced - Auto, Curve Optimizer -20
    • 커브를 더 떨어트려도 가능하나 이정도면 충분 (최대 온도 80도 이하)
  • Mem
    • EXPO 1 외 적용하지 않음

성능/안정 스냅샷

  • R23: 22,231(PBO Limits - Motherboard, Co -15)** → 23,071(PBO Limits - Auto, Co -20)
  • 부스트: 최대 5,250 MHz(Override 없음)
  • 최고 코어 온도: 최대 78도
  • 전력(PPT): 110 W

회고(개인적 감상)

  • PBO limits - Motherboard라는 관념에서 벗어나, 강제 성능 향상 대비 안정성을 추구
  • Curve Optimizer는 일반적이지 않으므로 20 근처에서 최적화 시 추가 조치는 필요하지 않음.
  • Curve Optimizer는 기본적인 코어의 사용 전압이나 온도가 낮다면 굳이 설정할 이유가 없고, PBO Limits가 가져오는 고전압, 고온의 상황에 대비하고자 함이 주 이유로 생각

'LiveKernelEvent 141' 카테고리의 다른 글

LiveKernelEvent 141 디버깅 타임라인 & 회고  (3) 2025.08.14

요약 결론(현재)

  • 1차 원인: GPU 오버/언더가 아니라 CPU Curve Optimizer(CO) 과도 설정(All-core -30)EXPO 메모리 안정성(특히 VDDIO/VSOC 오토 저전압)과 메모리 트레이닝에 악영향 → IMC 불안정 → 부하 시 141 이벤트.
  • 안정성 기준: OCCT CPU+MEM Extreme 통과를 1차 기준으로 채택. 현재 All Core CO -15로 안정화 완료, 2차 기준 TM5 X3D도 90분 통과 완료.
  • 성능/효율: R23 21,797 → 22,312, PPT 130–150 W → 130-140 W.
  • 부스트/온도 상태: 부스트 5,120–5,200 MHz, 최고 코어 82–83 °C, PBO 한도 내 정상.


시스템·측정 스냅샷

  • 보드/BIOS: ASUS TUF B850-PLUS, Bios Ver 1079
  • CPU: Ryzen 9 9800X3D
  • RAM: G.SKILL DDR5-6000 CL32 1.4 V (2×32 GB), EXPO I
  • GPU: ASUS RTX 5090 Astral
  • 메모·전압 관찰
    • 일반적 기대: VDD/VDDQ/VDDIO = 1.40 V
    • 관찰: VDDIO(=IMC) 1.0–1.2 V, VSOC 1.28 V 관측 vs 오토 1.20 V 입력되는 경우 존재
  • CO(Per-Core) 현재 후보: All Core -15
  • 검증 기준: OCCT CPU+Mem Extreme 30분 + TM5 무오류 90분 + 실사용 게임 안정

타임라인

2025-07-15

  • 현상: WinDbg에서 VIDEO_ENGINE_TIMEOUT_DETECTED (141) 반복 확인 → TDR 루틴 발동.
  • 가설: 초기에는 GPU 언더볼팅/PL 이슈 우선 의심.

2025-07-16

  • 실험: Resizable BAR 고려, PL 69→80 조정, 드라이버 576.88.
  • 전압/클럭 메모: 언더볼팅 커브 875 mV@2517, 실제 게임 중 **≤860 mV@2400** 주 사용, PL 80.

2025-07-27

  • 분석: 일부 크래시에서 AV Write/NullPtr 등 앱/드라이버 경계 예외.
  • 변경: 5090 FE → ASUS 5090 Astral(언더볼팅 “굳이 필요 없음” 관점).

2025-08-05

  • 진행: 덤프/로그 수집 강화, 증거 기반 접근으로 로드맵 업데이트.

2025-08-06 (a)

  • 설정: 미니 → 커널 메모리 덤프 전환 검토(TDR 근본 분석 가시성↑).
  • 참고: ILLEGAL_INSTRUCTION, RADAR_PRE_LEAK_64는 별도 트랙.

2025-08-07

  • 도구 간섭 가설: RTSS/오버레이 사용 환경에서 GPU wait 증가 메시지 관찰 → 간섭 배제 테스트 수행(직접 원인 아님).

2025-08-09

  • 게임 사례: Battlefield 6 중 DirectX 에러. 동시점 141 정보 레벨만 기록(크래시 없음).
  • 조치: 게임 크래시 덤프 경로 확인, Aftermath 적용 가능성 검토.

2025-08-10

  • 덤프 이슈: 안정성 기록에 141 누락 → 덤프 정책/경로 재점검.
  • 이벤트 153(nvlddmkm): 메시지 리소스 경고(기능 영향 없음).
  • 보안 기능 테스트: HVCI/커널 스택 보호 ON 후 141 info만 남고 크래시 완화 경향.

2025-08-11

  • 신호 경로 검토:
    • 메인 LG 34GN850 (DP), 서브 Zeuslab 15" (HDMI)
    • 구형 DP 1.2 사용 이력 → Ugreen DP80(2 m) 고려(3 m 미존재)
  • 결론: 케이블/포트는 마진 요소일 뿐 근본 원인 아님.

2025-08-12

  • 메모리 집중 검증: EXPO I + TM5(Ryzen3D) 에서 에러 #0/#4/#5 재현.
  • 핵심 관찰: CO All-core -30 + VDDIO/VSOC 오토 저전압 결합 → 메모리 트레이닝 이상/IMC 마진 축소.
  • 대응: Per Core CO 재튜닝 시작, TM5 통과 확보.

2025-08-13 (현재)

  • 추가 전압 조정:
VSOC 1.28V(단, 전압 보정으로 실제 적용 값은 1.27V)
CLDO VDDP 0.995V
MEM VDD=MEM VDDQ=CPU VDDIO: 1.4V
  • 상태: All Core CO -15에서 R23 22,231, 온도는 Stock 과 큰 차이 없음, PPT 130–140 W.
  • 남은 과제: 장기 실사용 검증.

근본 원인 사슬(정리)

  1. CO 과도(-30 All-core) → 코어 전압 헤드룸 급감.
  2. 보드 오토 전압VDDIO/VSOC저전압으로 책정(특히 VDDIO=IMC 1.0–1.2 V).
  3. 조합 효과로 메모리 트레이닝 실패/편향 + IMC 에러 마진 축소.
  4. 그래픽 부하 시 디스플레이 엔진 복구(TDR, 141) 촉발.
  5. RTSS/오버레이·케이블 등은 2차 스트레스 요인(근본 X).

현재 추천 운영 프로파일(안정성 우선)

  • 메모리/IMC
    • EXPO I, VDD/VDDQ=1.40 V 준수.
    • VDDIO/VSOC 오토 과신 금지: VDD/VDDQ와 상시 동일 값
  • CPU
    • All Core CO 값으로 장기 검증.
    • VSOCCLDO VDDP 값 수동 인가

성능/안정 스냅샷

  • R23: 21,797(Stock) → 22,231(CO)
  • 부스트: 5,120–5,200 MHz(Override 없음)
  • 최고 코어 온도: Stock 과 큰 차이 없음
  • 전력(PPT): 140–150 W(Stock)130–140 W(CO)

회고(개인적 감상)

  • “TDR=GPU 문제”라는 직관에서 벗어나, AM5 플랫폼에선 CO ↔ 메모리/IMC 상호작용이 크다는 사실을 재확인했다. CO 과도는 CPU만이 아니라 메모리 트레이닝/IMC 마진까지 흔든다.
  • 오토 전압은 안전값이 아니다. 특히 VDDIO/VSOC는 보드/BIOS 성향에 따라 저전압이 걸릴 수 있으므로 수동 고정 → 하향 탐색이 안정화의 지름길이었다.
  • 증상은 GPU(TDR)로 보였지만 원인은 플랫폼(메모리/IMC).

시작에 앞서 · 배경 정리

⚠️ 주의
이 글은 제가 소유한 5090 FE 에서 반복 테스트한 결과이며, 다른 그래픽카드, 전원 케이블 등에서 수치가 달라질 수 있습니다. 모든 설정은 본인 책임 하에 적용해주세요.


1. 직전 세팅 정보

설정(코어 @ 전압) 전력 상한 게임 결과
2737 @ 885mV 100% Crash

2. 직전 세팅의 문제?

이유 세부 내용
크래시 증가 DDU 사용 시, LiveKernelEvent 141 발생 가능성 인지 / Windows 11 클린 설치 후 빈도 감소
코일 소음 875mV에서 미세한 코일 소음이 지속 발생

2737 @ 885 시, 확인 된 데이터는 875mV에 2572Mhz가 꾸준히 나오는 것을 확인


3. 결론

판매하였습니다.

새로운 그래픽카드를 영입했고, 그 이야기로 넘어가보겠습니다.

+ Recent posts