질환군과 비질환군을 따로 모집한 경우?

Question

10개 병원에 내원한 환자들에게 T라는 검사를 시행하였고, 이 검사와는 별개의 기준으로 A라는 질환의 여부를 진단했습니다.

검사 T의 하위 소검사들(t1~t7)부터 도출되는 24가지 결과값(r1~r24)을 바탕으로 요인분석을 시행하여 잠재요인들을 도출한 뒤, 이 잠재요인들이 질환 A의 유무를 예측할 수 있는가를 로지스틱 회귀분석으로 확인하고자 합니다.

그런데 데이터를 검토하던 중, 비질환군(A로 진단되지 않음) 데이터 중 일부가 실제로는 질환군인데 잘못 코딩된 것을 알게 되었습니다.

문제는 어떤 데이터가 잘못 코딩된 데이터인지 확인할 방법이 없다는 것입니다.

그래서 이 데이터에서는 A로 진단된 환자들의 데이터만 추리고, 별개의 연구를 위해 모집했던 정상군의 데이터를 합쳐 이것을 바탕으로 로지스틱 회귀분석을 진행하려고 합니다.

이렇게 통계분석을 진행하게 될 경우 통계적 오류 발생 가능성은 없는지 궁금합니다.

Accepted Answer

안녕하세요. 에이앤피랩 연구원입니다. ​ 1.과다적합(Overfitting): 질환군과 정상군의 데이터를 합쳐서 분석하면, 모델이 질환군과 정상군의 특성을 모두 반영하게 됩니다. 이 때, 모델이 과다적합되어 실제 데이터에 적용했을 때 예측 성능이 저하될 수 있습니다. 2.선택 편향(Selection Bias): 잘못 코딩된 데이터를 제외하고 분석하면, 선택 편향이 발생할 수 있습니다. 선택 편향은 분석 대상이 되는 데이터가 전체 모집단을 대표하지 못하는 경우에 발생하는 오류입니다. 3.진단 정확도 저하: 데이터에 오류가 있는 경우, 이를 보정하지 않고 분석하면 진단 정확도가 저하될 수 있습니다. 이러한 오류를 방지하기 위해서는 다음과 같은 방법을 고려할 수 있습니다. 데이터 정제: 데이터를 정제하여 오류를 최소화합니다. 예를 들어, 데이터를 전처리하여 결측치를 제거하거나 이상치를 제거합니다. 교차 검증: 교차 검증을 통해 모델의 성능을 평가합니다. 교차 검증은 분석 대상이 되는 데이터를 여러 개의 그룹으로 나누고, 각 그룹에서 일부 데이터를 추출하여 모델을 학습시키고 나머지 데이터로 모델을 평가하는 방법입니다. 진단 정확도 평가: 분석 결과를 바탕으로 진단 정확도를 평가합니다. 진단 정확도는 분석 결과가 실제 데이터와 얼마나 일치하는지를 나타내는 지표입니다. 전문가의 조언: 통계학 전문가나 의료 전문가의 조언을 받아 분석을 진행합니다. 전문가의 조언을 받으면 분석 과정에서 발생할 수 있는 오류를 예방하고, 분석 결과를 더욱 신뢰할 수 있습니다. ​ ​ 좋은 하루 되세요.