우울증에 대한 한약 임상시험에서 포착된 P-value 낚시질

대전대 한의대와 한국한의학연구원 연구팀은 우울증환자에 대한 육울탕의 효과를 평가하는 임상시험을 진행해 지난 5월 논문을 발표했다. 책임저자는 대전대학교 대전한방병원 심신의학센터의 정인철 교수다.
72명의 성인 여성 우울증 환자를 육울탕 그룹과 가짜한약 그룹으로 나누어 8주간 복용시켰다. 그룹 당 36명씩 배정되었는데, 임상시험을 완료한 사람은 각각 25명씩이었다.
K-HDRS, BDI-K, K-BHS, ISI-K, STAI-K, EQ-5D 등 다양한 항목을 4주, 8주, 12주째에 평가했다. 그리고 그룹별로 회복된(remission) 환자의 비율과 호전된(improvement) 비율도 평가했다. 회복된 비율은 K-HDRS 점수가 7 이하로 떨어진 환자의 비율이고, 호전된 비율은 점수가 50% 이상 줄어든 비율이라고 정의했다.
환자들은 호전됐다. 유효성 평가의 기준으로 삼은 K-HDRS가 치료 전 17.64에서 치료 종료 시(8주) 12.42로 감소했다. 그런데 문제는 가짜한약을 먹은 환자들도 18.08에서 13.69로 호전돼서 그룹 간에 통계적으로 유의미한 차이는 없었다.
굉장히 다양한 항목을 다양한 시점에 다양한 방법으로 평가했는데 안타깝게도 계속해서 가짜한약이나 진짜한약이나 차이가 없었다.
그래도 통계적으로 차이나는 수치 하나라도 얻고자 하는 한의사들의 집념은 K-HDRS가 18 이상인 환자와 18미만인 환자를 나누어서 H-BHS가 얼마나 떨어지는지 평가하는데까지 이르렀다. 18 이상인 환자 그룹에는 모두 차이가 없었는데, 천신만고 끝에 18 이하인 환자는 드디어 12주째에 P value 0.0411로 통계적으로 유의하다고 여겨지는 수치인 0.05 이내로 들어왔다.
K-BHS는 Korean version of the Beck Hopelessness Scale이라고 한다. 절망감에 대한 수치다. 사실, 의미는 중요하지 않다.
이런 식으로 평가를 다양화하면 수백가지 평가가 가능해진다. 통계적으로 유의미한 값이 나올때까지 여러 가지 테스트를 반복하는 짓을 “P-value fishing” 또는 “P-hacking”이라고 한다. 결과를 사기치기 위한 수단으로 널리 알려진 나쁜 짓이다.
연구팀은 2018년 동의신경정신과학회지에 이 임상시험 계획에 대한 프로토콜을 발표했다. 아래와 같이 기존의 유효성 평가 계획에서는 K-HDRS가 18 이상인 환자와 미만인 환자를 나눠서 K-BHS를 별도로 비교하겠다는 계획이 적혀있지 않다. 기대했던 결과가 나오지 않으니 계획에도 없던 비교들을 계속해나가는 “P-value fishing”을 저질렀다고 볼 수 있다.

논문에 제시하지 않은 수치 중에 차이가 없는 항목은 수십가지에서 수백가지가 될 수도 있겠다. 아마도 육울탕 그룹이 오히려 나쁘게 나온 항목도 있었을 것이다.
저자들은 초록에 “육울탕은 주요우울장애가 있는 여성의 우울감과 수반 증상을 개선했지만 위약과 비교했을 때 유의미하지 않았으나, 절망감의 정도를 개선하는 데 효과적일 수 있다. 육울탕의 효과는 특정 한계를 극복할 수 있는 추가 연구를 통해 비교적 명확해질 것이다.”라는 결론을 제시했다.
본문에서는 결론에 “본 연구에서 주요우울장애 여성 치료에 대한 육울탕의 효능을 기대했던대로 확정적으로 확인할 수는 없었지만, K-HDRS 18 미만의 한국 여성 환자에서 육울탕이 효과적일 수 있고 유의한 부작용은 없다는 결론을 내렸다. 향후 위와 같은 한계를 극복하기 위한 추가 연구가 진행된다면 주요우울장애 여성에 대한 육울탕의 효과가 명확하게 밝혀질 것으로 기대된다”라고 적었다.
위의 결론에서 나타나듯이 한의사들의 정신세계는 의사나 과학자와는 다르다. 현대의학에서 실시하는 임상시험은 효과가 있을 수도 있고 없을 수도 있어서 진실을 확인해보자는 수단이다.
한의사들의 임상시험은 홍보와 건강보험 재정을 빼먹을 구실을 마련하기 위함이다. 이 논문처럼 의도대로 안 되면 어떻게든 긍정적인 결론을 내기 위해 결과를 왜곡한다. 한약이나 가짜한약이나 둘 다 플라시보효과 등의 비특이적 효과로 호전됐음이 분명한데도, 추가 연구를 해야 한다고 주장한다.
중요하고 필요한 연구에 쓰일 수 있었던 예산으로 엉터리 임상시험 논문을 만들어서 의학계에 쓰레기를 투척하는 행위를 더 하자는 것인가?
이 연구팀은 이렇게까지 분석한 모양새를 보면 데이터를 조작하지는 않은 것 같다. 이보다 양심이 더 떨어지는 한의사들은 결과를 조작할 수도 있다. 한의사들의 논문은 그냥 무시하는 편이 현명하다.
전문가가 아닌 사람들도 배울 점은 있다. 진짜 한약을 먹든 가짜 한약을 먹든 환자들이 상당히 호전됐다는 사실에 주목하자. 자신이나 누군가가 한방치료를 받고 질병이 호전됐다고 하더라도 한방치료가 원인이 아닐 수 있다는 상식이 이 논문에서도 확인된 것이다.
강석하 kang@i-sbm.org