반응형

통계1.pdf
2.39MB

katosei.jsbba.or.jp/view_html.php?aid=1183

 

改訂増補版:統計検定を理解せずに使っている人のために I

改訂増補にあたって...

katosei.jsbba.or.jp

개정 증보판 : 통계 검정을 이해하지 않고 사용하는 사람을 위해 I

이케다 郁男

토호쿠 대학 미래 과학 기술 공동 연구 센터

Published : 2019-08-01

© 2019 公益社 사단 법인 일본 농예 화 학회

개정 증보있어서

이 총설은 "통계 검정을 이해하지 않고 사용하는 사람을 위해 I '의 개정 증보판이다. 앞으로 「II」및 「III」도 개정 증보한다. 이러한 부작은 2013 년에 출판 된 최근에도 J-STAGE에서 "화학 및 생물"논문 액세스 랭킹에서 항상 상위를 차지하고있다. 그러나 이러한 부작은 잘못된 기재 나 단어 미만으로 이해하기 어려운 내용이 있었다. 그래서 오류를 수정하고 내용을 더욱 충실하고 알기 쉽게하기 위해 개정되었다. 실수가 있었던 이유는 필자의 통계에 대한 이해 부족이 아닐 수 없다. 필자는 통계가 전문이 아니다. 본래 이러한 학술지는 전문가가 집필해야한다고 생각하지만, 전문가에 의한 재검토와 전문 서적은 종종 생명 과학 연구원 (학생 포함)이 궁금 기본과 핵심 내용은 책 카레 않은 경우가 많다. 이 부작이 출간 후 6 년 지나면에도 불구하고 일관되게 액세스 수가 많은 것은 통계를 이해하지 못하고 구원의 손길을 필요로하는 연구자들이 많이 이야기하고있다. 본 총설이 많은 연구자의 연구에 도움이되기를 바란다.

서론

이 세미나는 2012 년 5 월에 개최 된 일본 영양 · 식량 학회 교육 강연 「영양 · 식량 학을위한 실천 통계 검정법 "이 토대가되고있다. 이 강연은 호평을 받고 이후 현재까지 많은 강연과 강의의 의뢰를 받아 본도 집필 한 ( 1, 2) . 통계를 이해하고자하는 연구자와 학생의 욕구가 얼마나 강한지를 실감하고있다. 나는 통계 전문가가 아니기 때문에 본 세미나의 내용은 기본적으로 많은 통계 설명서를 종합하여 생명 과학 연구원에 알기 쉽게 해설 한 것이다. 실험 연구에 종사하는 연구자와 학생들에게 많은 통계서는 이해하기 어렵고, 읽기에는 많은 고통을 수반 좌절하는 경우도 종종있다. 따라서 본 세미나는 연구자의 관점에서 연구자가 알고 싶은 점에 중점을두고 알기 쉽게 해설 한 것이다.

고급 연구를 수행하고있는 연구자가 사용하는 통계 검정의 기본을 알고 않아도 리가 없다. 통계를 이용하고있는 연구자는 반드시 어려운 통계 이론을 필요로하는 것은 아니고 어느 정도의 기본을 이해하고, 학회 나 학술 논문 불평을 말하지 않는 적절한 검정법을 선택할 수 우선 중요하다 . 통계를 이해하지 않으면 자신의 연구의 유사한 연구 논문 통계 검정을 흉내 내고 검정을 실시하는 경우도있을 수 있습니다. 그러나 출판 된 논문이 올바른 통계 검정 방법을 사용하는가하면 반드시 그렇지 않고 잘못된 검정법의 논문도 적지 않게 존재한다. 한 조사에 의하면, 학술 논문의 약 30 ~ 50 %가 통계에 문제가있는 것으로 지적되고있다 ( 3) . Impact factor가 높은 저널의 논문에서도 이것할지 생각되는 같은 통계 검정법이 보인다. 논문 편집 위원과 심사에게 통계 지식이 부족한 경우, 잘못된 통계 검정법 그대로 잡지에 게재된다. 그 검정법 흉내를 더욱 잘못된 통계 검정법이 세계에서 만연하게된다.

통계 검정은 유의 한 차이가 있는지를 판단하기위한 한 수단이며, 유의 한 차이가 있는지 알면 좋다고 생각하는 연구자도 있을지도 모른다. 그러나이 생각만으로는 연구원은 적절하다고는 생각되지 않는다. 생명 과학 연구자에게 통계적 사고 방식을 이해하는 것은 진실을 추구하는 데 습득 해 두어야 할 중요한 기본 사항과 필자는 생각한다. 따라서 상당한 차이 검정 방법뿐만 아니라 통계적 사고 방식을 이해하고 연구에 도움을 주었으면한다.

연구에 필요한 통계 검정법은 다양하며, 연구원이 그들 모두를 습득하는 것은 쉽지 않다. 그렇다고 통계 서 자신이 필요로하는 통계 검정법 부분 만 읽어도 이해할 수없는 경우가 많다. 원래 어떤 검정법을 선택해야할지조차 모르는 경우도 종종있다. 어쩔 수없이 기초부터 배워 보지만 도중에 좌절하고 결국 실험실에서 종래부터 행해지고있는 통계 검정 의미도 모르고 답습하게된다. 라는 것이 필자가 여러 번 더듬어 길인데, 이러한 연구들은 많지 않을까? 이 가장 큰 원인은 통계학의 기본 중의 기본을 이해하지 못하는 것은 아닐까 필자는 생각한다. 그 전형적인 예는 표준 편차 (SD)과 표준 오차 (SE)의 차이를 이해하지 않는 것이다. 많은 통계 검정 방법은 각각 모두 다르게 보이지만 근저에 흐르고있는 생각의 기본은 비교적 일반적인 경우가 많다. 일반적인 사고 방식을 습득하기 위해 필요한 첫 번째 기본은 SD 및 SE의 이해이다.

또한 많은 연구자는 상당한 차이가 있는지 내과에 일희 일비한다. 그러나 상당한 차이가 있다고는 반드시 정말 차이가 있다는 것을 의미하지 않는다 . 우리 연구자가 알고 싶은 것은 어디 까지나 진실이지만, 상당한 차이가있는 배의 판단이 진실을 나타내는 것은 아니다. 진실을 밝히는 연구를 수행하기 위해도 통계의 이해는 필수적이다. 또한 통계를 이해하는 것은 실험 결과의 처리뿐만 아니라 실험 계획 데도 중요하다. 원래 통계를 생각하면서 실험 계획을 세우는 것이 기본이며, 실험을 한 후 통계 검정법을 생각해서는 안된다 . 따라서도 통계를 이해하지 않으면 실험 계획은 세울 수 없기 때문이다.

필자는 식품 기능 학 및 영양 화학, 지질 생화학를 전문으로하고 있으며, 세포 배양 시험과 시험 관내 시험 및 동물 사육 시험에서 2 군과 3 군 이상의 군간 비교를 주로 이용하고있다. 통계 검정법은 다양하며 그들을 망라 해 버리면 고 초점이 맞지 버릴 가능성이있다. 따라서 본 세미나에서는 필자 자신이 연구에서 주로 이용하고 최소한 필요하다고 생각 검정법을 선발한다. 더 세세한 검정법은 졸저를 참고하기 바란다 ( 1, 2) .

본 세미나 4-6에서 강연 슬라이드 형식으로 그림을 삽입한다. 본문을 읽기 전에 먼저 해당 항목의 그림의 내용을 대충 바라 보는 것을 추천한다. 이 개정 증보판에서는 "통계 검정을 이해하지 않고 사용하는 사람을 위해 I」 「II」 「III」의 도표를 최근 강연에서 사용하는 도표로 교체 또한 추가도하고있다 .

본 세미나에서는 주로 다음의 항목에 대해 언급한다.

  • · 모집단과 표본의 차이를 이해하고 연구하고 있는지?
  • · 표준 편차 (SD)과 표준 오차 (SE)의 의미는 무엇인가? 무엇을 표현하려고하는지?
  • · 정규성 검정 등 분산 성의 능력이 필요 할까?
  • · 귀무 가설 유의 수준 (위험 요소)의 의미를 이해하고 있는지?
  • 파라 메트릭 검정 ( t 검정)과 비모수 검정 (Wilcoxon 순위 합 검정)의 원리를 이해하자!
  • 파라 메트릭 검정과 비모수 검정은 어느 쪽을 선택 하는가?
  • · 단측과 양측 검정 중 어느 것을 사용 하는가?
  • · 다중 비교 및 ​​다중성의 문제는 무엇인가?
  • · 일원 분산 분석과 다중 비교의 원리와 구분을 이해하자!
  • · 이원 분산 분석과 군간 비교를 이해하자! (많은 논문에서 잘못이다!)
  • · 통계 검정법을 이해하여 실험 계획을 세우자!

모집단과 표본 데이터의 유형

연구는 다양하고 데이터의 유형도 다양하지만, 주로 3 가지 유형이있다.

  • 1. 측정 데이터 (예를 들어, 쥐의 체중이나 세포 내의 물질의 농도 등의 측정)
  • 2. 순위 데이터 (예를 들어, 물고기의 크기를 대, 중, 소 분류하거나 쥐의 체중을 가벼운 순서대로 순위로 대체 한 경우 등)
  • 3. 카테고리 데이터 (예를 들어, 품종의 꽃의 색깔, 빨강, 파랑, 노랑이 어떤 비율로 출현하는지 등)

이 세미나에서는 주로  1. 측정 데이터 를 취급하지만, 비모수 검정에서는  2. 순위 데이터 를 취급한다.

모집단과 표본의 차이를 이해한다 ( 그림 1 )

기초 통계학을 학습하면 모집단 및 표본은 처음에 등장하고 그리 어려운 이야기가 아니다. 그러나 독자들은 연구가 모집단인가 표본인지를 의식하고 연구하고있는 것일까? 연구자가 모집단과 표본의 차이를 의식이라도 의식하지 않으면 통계를 아무것도 모르는라고해도 어쩔 수 없다.

전형적인 모집단과 표본의 예는 다음과 같은 것이있다.

예 1) S 시민의 혈장 콜레스테롤 농도의 평균과 분포를 알고 싶다. 그러나 모두를 검사 할 수 없기 때문에 일부 시민을 추출하여 조사한다. S 시민 모두는 모집단 이며, 추출한 일부 시민들은 표본 이다. 이 예는 알기 쉽다. 그러나 생명 과학 연구자에 좀 더 다가 오지 않는다.

그래서 다음 예제 2)으로 한 개의 마우스 6 마리에 "있는 특수 성분 X"를 수유하고 영향을 보았는데 획기적인 발견이 있었다. 이 발견은 세계 최초이며 6 마리 이외에 성분 X를 섭취 한 마우스는 없다. 그런데,이 실험은 모집단의 실험하거나 표본 실험 있습니까? 많은 생명 과학 실험 외에 아무도하지 않은 세계 최초의 실험이 많은 것이 아닐까?

예 1) 연구의 목적을 감안할 때, 연구자는 실험 표본의 결과 만 알면되는 것은 아니고, 모집단의 S 시민 전체 (모집단)의 정보를 알고 싶은 것이다. 에서 예 2)는 어떻게 일까? 연구자라면이 시험 결과가 6 마리 만 일어나는 것이 만족하지 않고 세계의 같은 계통의 마우스를 이용하여 동일한 시험을 실시해도 비슷한 결과를 얻을 수 있기를 기대하는 것이 없을까? * 1 즉, 아무리 세계 최초 이어도 6 마리의 시험은 표본 시험과 파악해 더 큰 모집단을 상정 (그런 모집단은 존재하지 않지만) 그 모집단에서도 같은 결과를 얻을 수 것을 기대해야한다. 즉, 연구자는 표본의 데이터 밖에 얻을 수 없지만, 모집단의 정보를 알고 싶다 (추정하고자) 위해 연구 를하고있는 것이다 ( 그림 1 ). 이것은 매우 중요한 개념이다. 왜 모집단의 정보를 알고 싶습니다인가하면, 모집단의 정보 즉 진실의 정보 이기 때문이다. 연구원은 진실을 탐구하는 연구를하고있는 것이다. 독자, 특히 학생 여러분은 표본에서 모집단을 추정하는 개념을 의식하고있는 것일까? 만약이 개념이없이 자신의 얻은 데이터를 표본이 아닌 모집단의 정보와 생각, 실수없는 진실 파악해 버리면 큰 잘못을 범하게 될 수도있다.

그림 1 ■ 표본 시험 모집단의 정보를 추정하는

여기에서 예 2)처럼 실제로 존재하지 않는 모집단을 무한 모집단 이라 부른다. 이에 대해 예 1)의 S 시민 전체 등 구체적인 모집단이 있으면 유한 모집단 이라고 부른다.

물론 무한 모집단을 가정 할 필요가없는 연구도있다. 구입 한 또는 번식으로 태어난 쥐 10 마리의 정보 만 원하는 등 연구이다. 그렇다면이 10 마리를 모집단으로 파악할 수있다. 즉, 모집단의 가정은 연구 목적으로 변화 한다. 연구를 할 때 먼저 연구의 목적을 잘 생각 모집단은 무엇을 예상해야 한다. 주로 마우스의 예로 설명했지만, 식물이나 물고기 등의 시험 또는 배양 세포 시험 등에서도 개념은 동일하며, 모집단과 표본의 개념은 가져야한다.

생물의 경우 개별 집단의 편차를 가지고있다. 예를 들어, 모집단의 마우스의 체중은 어느 범위에서 바라つい있다. 그 모집단에서 표본을 취하면 당연히 편차가 평균값도 불균형도 반드시 모집단과 일치하지 않습니다. 그런 조건에서 연구원은 모집단의 정보를 추정하려고하고있다. 그러나 표본에서 모집단을 추측하는 것은 쉽지 않다. 특히, 표본의 크기 n * 2 가 작 으면 데이터는 흩어지는 가능성이 높습니다 모집단의 추정은 흐림. 또한 원래 편차가 큰 파라미터의 경우도 마찬가지이다 * 3 . 편차가 크면 동일한 시험을 다시 실행하면 다른 결과가 될 가능성이 높아진다.  재현성 을 취할 수없는 확률이 높은 것으로 인식하고 두는 것이 좋다.

연구원은 진실을 알기 위해 연구한다. 그러나 생물을 이용하는 연구에서는 n 이 작은 표본으로 연구하고있는 한 진실을 밝혀내는 것은 쉽지 않다. 따라서 진실을 알기 위해서는 반드시 여러 실험을 실시 재현성을 알아 내야 한다 * 4 . 2016 년 Nature 잡지의 조사에서는 많은 연구자들이 재현성을 조사하지 않고 논문 해지고 있다고 지적하고있다 ( 4) . 조사에 응한 연구원의 70 % 이상이 다른 연구자의 연구에 재현성이 없다고 대답했다. 재현성이없는 논문이 다수 진입 것은 혼란 요인이된다. 일본에서도 박사 학위 논문과 석사 논문에 맞추기 위해 나 실적을 늘리기 위해 재현성을 조사하지 않고 논문 화하는 예는 많지 않을까?

여기서 훗날 나오므로 모집단을 정의한다. 모집단 (예를 들어, 전세계 마우스)의 총수 ( " 모집단의 크기 "라고도 함)을 N , 어떤 매개 변수의 총 평균은 모평균 라고 μ 그 편차 방법을 나타내는 모집단 분산 을 σ 2 과 한다. σ 2 를 루트 한 σ는 모집단 표준 편차 라는 (σ 2  σ에 대해서는 후술한다) 또한 이미 등장했지만 모집단에서 추출 된 표본의 수는 " 표본의 크기 "* 1 라고, n 으로 표기한다.

통계 검정은 측정 오차를 고려 해주지! ( 그림 2 )

그림 2 ■ 통계 검정은 측정 오차를 고려 해주지!

이 세미나에서는 주로 측정 데이터 (정량 값)의 통계 처리를 다룬다. 측정 데이터는 연구자와 학생이 측정 한 수치이다. 그래서 문제가되는 것이 측정 오차 이며, 주제에 들어가기 전에주의하고 싶다. 각 생물에는 편차가 있지만, 그 외에도 측정자의 측정 오차가 가산된다. 측정 오차가 큰 데이터의 신뢰도는 낮아지고, 통계 검정 자격이 없어. 당연하다. 필자의 경험에 의하면, 졸업 논문 연구 실험실에 들어가는 학생 여러분의 정량 분석 능력은 매우 낮고, 신용 할 수없는 경우가 많다. 게다가 학생들은 자신의 정량 능력의 낮음을 이해하지 않는다. 얼마나 오래 학생 실험을하고 있어도, 정량 성을 높이려는 의식과 훈련이 없으면 정량 능력은 높아지지 않는다. 따라서 학생의 정량 능력을 파악하고, 측정 오차를 최대한 줄일 훈련을 할 지도자는 요구된다. 동일 시료를 2 회 측정했을 때 전혀 다른 데이터가되는 것은 드물지 않다 ( 그림 2 ). 각각의 측정 값에 상관을 들어 보면 일목요연하다 ( 그림 3 ). 어느 쪽이 올바른 데이터 일까? 모두 잘못된 수도있다.

그림 3 ■ 자신의 측정 오차를 알고 분석 능력을 갈고 닦자!

오랫동안 학생들을지도 한 경험에서 자동 피펫 * 5 유리 피펫, 중에서도 피펫의 오차가 크다. 측정시 피펫 조작이 많다고 오차가 오차를 낳는다. 특히 미량 샘플링, 예를 들어, 몇 μL 20 μL의 샘플링은 대학원생에서도 오차가 크고, 재현성있는 측정 값을 얻을 수없는 경우가있다 (mRNA 발현 량의 측정 등). 샘플링 능력을 높여 두지 않으면 모처럼의 실험이 파멸하게된다. 학생 여러분도 실험 기술이 미숙하다는 것을 자각하고 측정 오차를 작게하는 훈련을 실시한다. 정확한 측정 값을 얻을 수 있어야 올바른 연구 결과와 통계 검정 결과를 얻을 수있다.

표본 추출은 무작위 추출이 기본

이미 언급했지만, 생명 과학 연구는 종종 표본 으로 연구한다. 모집단에서 표본 추출은 기본적으로 무작위 (랜덤 샘플링) 에서 실시한다. 무작위 추출은 쉽게 말하면, 모집단을 반영하는 표본을 작위없이 검색 할 것이며, 결코 엉터리로 꺼낼 아니다. 이것은 매우 중요하고 반드시 머리에두고 싶어요. 모집단을 반영하는 표본이 꺼낼 경우 올바른 정보를 얻을 수 있지만, 만약 표본이 편중 된 통계적 추정은 잘못된 정보가된다.

무작위 추출은 쉽지 않다. 이미 언급 한 예 1)에서 S 시민 전체의 정보를 알기 위해 S 시민으로부터 표본을 50 명 추출하라고하면 어지러 울 것이 아닐까? 표본 추출 방법은 개별 연구에 의해 다양하며 일률적으로 말할 수 없지만, 잘 생각하지 않으면 기울게된다. 예를 들어, 바다에서 물고기를 추출하거나 밭의 작물에서 몇개 추출 할 경우 부담없이 선택할 것이지만, 전문 분야에 적합한 무작위 추출법을 공부해야한다 * 6 . 또한, 실험 동물을 이용하는 경우는 개종에서 공급되는 동물을 모집단에서 무작위 추출 된 표본 생각 밖에 없지만 실제로는 같은 모집단에서 무작위 추출되었다고는 생각되지 않는듯한 응답 다른 동물이 납입되는 것은있을 수있다.

데이터의 특징을 잡아 - 차이가 있는지를 어떻게 판단 하는가? ( 그림 4 )

그림 4 ■ 데이터의 특징을 잡아

연구자에게 데이터의 특징을 장악하는 것은 중요하다. 예를 들어, 그림 4 왼쪽 막대 그래프는 2 군의 평균치이다 (각 군 6 마리). A 군과 B 군간에 차이가 있다고 할 수 있는지 여부는 개개인의 판단이 나뉘는 것이다. 차이가 있는지 여부의 판단은 평균값의 차이만으로는 결정할 수 없다. 그래서 그림 4 오른쪽 상하 2 개의 막대 그래프를보고 싶어요. A, B의 개별 데이터를 막대 그래프로하고있다. 오른쪽의 그래프를 보면 데이터가 잘 갖추어져있어 A 군과 B 군 사이에 차이가있는 것으로 보인다. 그런데 오른쪽 아래의 그래프는 데이터가 제각각이며, 차이가있는 것 같지는 않다. 그러나 어떤 그래프도 평균치를 타고 왼쪽의 그래프가된다.

여기서 중요한 포인트가 보인다. 차이의 유무의 판단은 평균값의 차이뿐만 아니라 불균형 방법으로 변한다는 것이다.  차이의 유무는 평균값의 차이와 불균형의 균형으로 판단 할 수있을 것 이다. 이런 생각 이야말로 나중에 나오는 파라 메트릭 검정 의 원리이다.

또 다른 중요한 포인트는 개별 데이터를 표시하면 데이터의 특징을 잡을 것이다. 평균과 표준 오차와 표준 편차 (이들은 후술하는)만을 도시 한 것이 아니라 그림 4 오른쪽에있는 것처럼 개별 데이터도 표시 할 것을 추천한다.

파라 메트릭 검정과 비모수 검정 ( 그림 5 )

그림 5 ■ 파라 메트릭 검정과 비모수 검정

통계 검정은 크게 파라 메트릭 검정  비모수 검정 의 두 가지가있다 ( 그림 5 ). 많은 연구자들은 파라 메트릭 검정 밖에 이용하지 않았지만, 비모수 검정을 고려 가치 검정법이며, 그 원리를 알아야 할 데이터의 처리시 유용합니다.

있는 매개 변수의 모집단의 분포는 다양한 분포 생각된다. 이미 언급 한 바와 같이, 생명 과학 연구자는 표본 으로 연구하고 있으며, 모집단의 정보를 모르는 경우가 많다. 그러나 모집단의 정보를 상정 한 것이 표본에서 모집단의 정보를 추정하기 쉽다. 그래서 모집단이 정규 분포 한다고 가정하여 구축 된 것이 파라 메트릭 테스트이다 ( 그림 5 의 오른쪽 2 개의 그래프 * 7 ). 한편, 비모수 검정은 모집단의 분포 가정이없이 분포가 편중되어 있어도 좋은 ( 그림 5 의 모든 그래프). 주의해야 할 것은, 비모수 검정은 모집단이 정규 분포하는 경우도 포함되는 것이다. 비모수 검정에 대해서는 다음 "개정 증보판 : II '에 기술한다. 정규 분포의 자세한 내용은 여기에서는 쓰지 않는다. 통계 서 얼마든지 등장하니 참조 해 주었으면한다.

생물이 포함 된 많은 매개 변수는 정규 분포를 따르는 것으로 알려져있다. 예를 들어, 모집단 쥐의 체중을 측정 분포를 살펴보면 그림 6 위 그래프와 같이되었다고한다. 가로축은 체중의 분포 를, 세로축은 주파수 를 나타내고, 여기에서는 쥐의 마리 수이다. 평균 체중 부근에서 가장 쥐의 수가 많고, 평균 체중에서 멀어 질수록 쥐의 수가 감소하는 종 모양이다. 중요한 매개 변수는 모평균 μ 와 편차의 지표 인 모집단 표준 편차 σ 인 (매개 변수 설명은 후술). 정규 분포의 그림은 σ가 작 으면 시야가 좁고 크면 저변이 넓어 ( 그림 5 오른쪽 그래프 위와 아래를 비교).

그림 6 ■ 정규 분포 란?

물론, 정규 분포하지 않는 치우친 분포의 매개 변수도 많이 존재한다 ( 그림 5 왼쪽 그래프는 예, 그림 6 아래 그래프). 정규 분포하지 않는 경우, 평균치는별로 이해 ( 그림 5 왼쪽 그래프의 μ와 그림 6 아래 그래프의 평균 위치에주의). 편향된 분포의 경우 중앙값  최빈값 이 이용되지만, 생명 과학의 기초 연구 논문에서는 거의 뵙지 않는다. 중앙값은 데이터를 크기 순으로 정렬하면 중간 값이며, 최빈값은 가장 자주 나타나는 값이다 ( 그림 6 아래 그래프). 또한, 정규 분포라면 평균, 중앙값, 최빈값은 거의 일치한다 ( 그림 6 위 그래프).

다음 "개정 증보판 : II '에 기술이 비모수 검정은 중앙값을 이용한 검정법 이다. 평균과 아래의 표준 편차 등의 매개 변수는 모집단이 정규 분포하는 것이 전제이며, 정규 분포하지 않으면 별 의미가 없다 . 그러나 비모수 검정을 이용한 논문에서도 데이터 표기는 평균과 표준 편차 등을 이용하고있는 논문이 많다. 이것은 생각해 보면 이상한 일이다.

정규성 검정 ( 그림 7 )

그림 7 ■ 정규성 검정

파라 메트릭 검정은 모집단이 정규 분포하는 것이 전제이다. 그러나 생명 과학 연구자가 측정하는 매개 변수의 모집단이 정규 분포 여부는 알 수없는 경우가 대부분이다. 모집단이 정규 분포 여부는 정규성 검정 * 8 을하면 알 수 정규 분포 있으면 파라 메트릭 테스트를 수행 및 통계 매뉴얼에는 기술되어있다. 독자는 정규성 검정을 실시하고있는 것일까?

생명 과학 연구의 경우 표본의 크기 n 이 10 이하인 경우가 많다. 그림 7 의 왼쪽 그래프에서와 같이, 예를 들어 n 이 6 작은 모집단이 정규 분포 여부는 외형 모르겠어요. 정규 분포 여부는 n 이 30 이상이 필요하다고되어있다 ( 그림 7 의 좌우의 그래프를 비교). 있는 통계 소프트는 n <12는 정규성 검정은 안되다 고 기록되어있다. 따라서 n 이 작은 경우에는 정규성 검정을 할 의미는별로없는 것 같다. 한편, n 이 큰 것이라면, 정규성 검정을 실시하여 판단하면된다.

n 이 작은 경우 정규성 검정을 실시하면 정규 분포한다고 판단되는 경우가 많다 (이것은 정규성 검정 수식에 적용 시키면 정규 분포 판정되는 뿐이지 정말 정규 분포 있는 것을 의미하는 것은 아니다). 이 판단을 적용하여 파라 메트릭 테스트를 실시하는 것이 일반적이다. 그러나 n 이 작은 경우는 정규 분포하고 있는지 판단 할 수 없기 때문에 정규 분포해도하지 않아도 사용할 수있다 비모수 검정은 이용 가치가있다. 그러나 이용하기 위해서는 그 원리를 이해할 필요가있다. 또한, 파라 메트릭 검정은 모집단이 정규 분포하는 경우에 사용하지만,이 점은 그다지 엄격하게 생각할 필요는없고, 정규 분포에서 다소 벗어나 있어도 사용할 수 있다고되어있다.

모집단의 편차 방법 (모집단 분산)은 어떻게 계산 하는가?

파라 메트릭 테스트에서는 모집단은 정규 분포이며, 평균과 편차는 매개 변수가 중요하다. 수치의 편차 방법을 나타내는 말에 분산 이있다. 분산의 계산은 이해하고있는 분은 많다고 생각하지만, 중요한 포인트를 포함하기 때문에 재확인 생각 읽고 싶어요.

우선 모집단의 분산 ( 모집단 분산 σ 2 )이다. 표본은 아니기 때문에주의 해 주었으면한다. 모집단의 크기 N 은 상당히 많은 수이지만, 이해를 돕기 위해 그림 8 에서는 N = 6으로하고있다. 개별 데이터는 x 1 에서 x 6 에 나타내고있다. 그 평균은 모평균 μ이다. 그림 8 왼쪽의 그래프를보고 싶어. 데이터의 편차는 모평균 μ에서 얼마나 떨어져 있는지에 나타낼 수 있기 때문에, 예를 들어, 데이터 x 1 의 편차는 (x 1 -μ)로 나타낼 수있다. 6 개의 데이터 모두 이것을 계산 합치면 편차의 합을 구할 수있다 ( 그림 8 오른쪽의 계산식). 그러나 개별 데이터는 μ보다 큰 경우와 작은 경우가 있으므로, μ를 당기면 플러스와 마이너스가 생겨이 합계는 제로가된다. 제로 편차는 요구되지 않기 때문에, 2 승 (평방)을 더하면 마련이다 ( 그림 8 오른쪽 중간). 평방 해 더하면 때문에 제곱 으로 불린다. 제곱합은 모집단의 크기 N 이 커지면 질수록 커지므로 N (여기서 6) 나눗셈하여 평균의 분산을 추구 ( 그림 8아래의 계산식). 이를 모집단 분산 이라고 σ 2 에 나타낸다. 모집단 분산은 모집단의 데이터의 오차 방법을 나타내는 지표이며, 데이터에서 모평균 μ를 뺀 뒤 평방 해 더하고 있기 때문에, 말하자면 (편차) 2 를 나타내고있다.

그림 8 ■ 어머니 분산 σ 2 의 계산법

모집단 표준 편차 σ 란 무엇인가? ( 그림 9 )

그림 9 ■ 모집단 표준 편차 σ

어머니 분산 σ 2 의 계산식에서 알 수 있듯이, σ 2 는 모평균과는 차원이 다른, 평균치와 직접 비교를 할 수 없다. 그래서 차원을 갖추는 데 모집단 분산 σ 2 을 루트합니다 σ한다 ( 그림 9 위의 식). 이 σ를 모집단 표준 편차 라고 부른다. 먼저, σ 2 을 (편차) 2 로 나타낸이를 루트함으로써 얻은 σ가 (편차)를 나타내는 것으로되어 모평균 μ와 차원이 같게된다. 어머니 표준 편차는 모집단의 데이터의 가능한 범위 를 나타내고있다. 많은 통계 설명서는 단순히 표준 편차라고 쓰여져있는 것이 있고, 나중에 나오는 표본 표준 편차와 불편 표준 편차와 혼동 될 수 있기 때문에 본 세미나에서는 모집단 표준 편차 , 표본 표준 편차 , 공정한 표준 편차 를 명확하게 구분하기로한다.

σ 2 및 σ는 데이터가 크게ばらつけ당연히 큰 값이된다. 정규 분포 그래프는 σ가 크면 저변이 크게 벌어지게된다 ( 그림 9 아래의 정규 분포 그래프). 또한, σ는 모평균 μ에서 분포 그래프의 변곡점까지의 거리이다.

모집단에서 표본 n 개를 가지고 실험을 할 경우 ( 그림 10 )

그림 10 ■ 모집단에서 표본 n 개를 가지고 실험을 할 경우

생명 과학의 기초 연구는 모집단에서 실험하는 것은 거의 없다. 그래서 모집단에서 표본 n 개를 꺼내 실험하게된다. 동물 실험에서는 개종에서 구입 한 시험에 대한 규정을 준 마우스가 표본에 해당한다. 그 평균 ( 표본 평균 )을 X ̄로 표시 ( 그림 10 ). 중요하므로 다시 말하지만, 생명 과학 연구에서 우리가 알고 싶은 것은 종종 모집단의 정보로서 표본 정보가 아니다 . 하지만 얻을 수있는 것은 표본의 정보 만 이다! 이 점을 다시 머리에 넣었 으면 ( 그림 1 ).

표본 데이터의 편차 방법 (표본 분산)은 어떻게 계산 하는가? ( 그림 11 )

그림 11 ■ 표본 분산 s 2 의 계산법

그림 11 에서와 같이 모집단에서 추출 된 표본의 크기를 n = 5로한다. (편차) 2 의 계산 방법은 모집단의 경우 ( 그림 8 )과 동일하며, N = 6 n = 5로 바뀌고 모평균 μ 표본 평균 X̄에 바뀐 뿐이다. 즉 제곱의 합을 n 으로 나누어 계산 할 수있다 (설명은 생략 하겠지만, 그림 11 을 보면 좋겠다). 모집단의 경우 모집단 분산 였지만 이번에는 표본 데이터이기 때문에, 표본 분산 이라고 부르는 것으로, s 2 에 나타낸다.

표본 표준 편차 s, 불편 표준 편차 u는? ( 그림 12 , 13 )

그림 12 ■ 표본 표준 편차와 표준 편차

그림 13 ■ 분산과 표준 편차 요약

물론 표본 분산 s 2 는 표본 (편차) 2 이다. 표본 오차 방법을 알고 싶어한다면이 계산에서 좋은 * 9 . 표본 (편차)를 알고 싶다면, 표본 분산 s 2 를 루트하여 s를 구하면된다 ( 그림 12 의 위 식).  s  표본 표준 편차 라고 부르기로한다. 그러나 군 간의 비교 연구를 할 많은 연구자가 알고 싶은 것은 표본 분산과 표본 표준 편차는 없을 것이다. 연구원은 모집단 (편차) 2 , 즉 어머니 분산 σ 2 및 모집단 표준 편차 σ를 알고 싶다 (추정하고자하는) 것이다. 사실, 표본 분산은 모집단 분산과 동일 아니라 어머니 분산보다 약간 작은 값이 될 수 이론으로 이미 알려져 있으며, 모집단 분산을 추정하기 위해서는 n 대신 n -1로 나누면 정확하게 좋은 것을 알고있다 * 10 . 여기서 n -1은 자유도 라는 * 11 . n 으로 나누면 표본 분산 알 자유도 n -1로 나누면 모집단 분산을 추정 할 수있는 것이다.

n -1로 나눈 분산은 불편 분산 이라고 u 2 에서 나타내는 것으로, 표본 분산 s 2 로 구분 ( 그림 12 의 중간). " 편견 "이란 치우 치지 않는다는 의미이며, 어머니 분산 σ 2 와 동일하게 표본 분산을 보정 한 값이다 * 12 . 통계를 읽는 경우 불편 분산과 표본 분산을 명확하게 구분하지 않으면 혼동한다. 또한, 본에서는 공정한 분산을 표본 분산 기술하고있는 경우가있어주의가 필요하다.

모집단 분산을 추정하는 불편 분산 u 2 의 루트가 u이고 공정한 표준 편차 라고 부르기로한다 * 13 . 불편 표준 편차는 모집단 표준 편차를 추정하는 값 이되고, 모집단의 데이터의 가능한 범위를 추정하는 값 이다.  불편 표준 편차 u가 모집단의 편차를 추정하고자하는 연구자가 일반적으로 사용하는 표준 편차 (standard deviation; SD) 이다. 만약이 u를 표본 데이터의 편차 생각한다면 그것은 잘못이다. 표본 데이터의 오차는 표본 표준 편차 s이다. 혼동하지 않도록하라. 그런데 실은 표본 표준 편차 s 또한 표준 편차라는 있기 때문에 혼동을 일으킬에서 통계 설명서를 읽을 때주의를 요한다. 모집단을 추정하는 경우, n -1로 나눈 표준 편차 (편견 표준 편차)가 맞다. Excel 함수는 불편 표준 편차는 stdev.s (또는 stdev)이며, n 으로 나눈 표본 표준 편차는 stdev.p (또는 stdevp)이기 때문에 틀리지 않도록주의해야한다 (모집단 표준 편차도 N 으로 나누어 때문에 stdev.p으로 계산할 수) ( 그림 14 ). 또한 표본의 크기 n 이 작을수록 표준 편차 u와 표본 표준 편차 s의 차이가 커지고, n이 커지면 그 차이는 작아 질 것은 수식을 보면 알 수있을 것이다 ( 그림 12 ).

그림 14 ■ 표본 평균 ± SD 의미

표본 분산 , 표본 표준 편차 , 공정한 분배 , 불편 표준 편차 를 정리하고, 그림 13 에 기재한다. 이 구별을 확실히 인식하고 통계 서의 혼란 한 설명에 현혹되지 않는 것이 중요하다.

표본 평균 ± SD 무엇을 의미하는지? (그림 14)

모평균 μ와 어머니 표준 편차 σ를 추정하려면 표본 평균 X̄은 모평균 μ를 추정하는 값이라고 평가된다. 또한 이미 언급 한 바와 같이 불편 표준 편차 SD는 모집단 표준 편차 σ를 추정한다. X̄ ± SD 범위는 그림 14 에서와 같이, 정규 분포 모집단의 데이터의 68 %가 될 것으로 예상되는 범위 를 나타내고있다. 또한 X̄ ± 2SD는 정규 분포 모집단의 데이터의 96 %가 될 것으로 예상되는 범위를 나타내고있다.

연구자는 표본 평균 ± SD로 무엇을 표현하고 싶은지? ( 그림 15 )

그림 15 ■ 연구자는 표본 평균 ± SD로 무엇을 표현하고 싶은지?

X̄ ± SD는 표본 평균 X̄에서 모평균 μ를 SD에서 모집단 표준 편차 σ를 추정하고 있기 때문에 "편안 생물 통계학」(나카야마 서점)에 따르면, 연구원은 모평균 μ를 추정하고 싶습니다 당연하고, 또한 모집단의 데이터의 편차도 마찬가지로 관심이있을 것이다라고 말하고있다 ( 7) ( 그림 15 ). SD를 사용하는 연구자는 모집단의 데이터의 불균형에 관심을 가지고 표본 평균 ± SD를 사용하는 것일까? 만약 표본 평균 밖에 흥미가 없으면 SD보다 SE를 사용하는 것이 좋다 (SE는 다음 「개정 증보판 : II '에 등장한다).

결론

다음은 파라 메트릭 테스트 및 비모수 검정의 기초에 대해 말한다. 파라 메트릭 시험에서는 표준 오차 (SE)가 등장 해, 표준 편차 SD와의 차이를 명확하게한다. 본 세미나를 쓰는데 많은 통계 서에 신세를졌다. 특히 문헌에 언급 한 책은 비교적 알기 쉽게 쓰여져있다 ( 5-9) .

Reference

1 ) 이케다郁男: "실험에 사용 곳뿐만 생물 통계 1 김기홍의 키"개정판,羊土社2017.

2 ) 이케다郁男: "실험에 사용 곳뿐만 생물 통계 2 김기홍 홍"개정판,羊土社2017.

3 ) A. Reinhart : Statistics done wrong : The woefully complete guide, William Pollock, 2015 .

4 ) M. Baker : Nature , 533 , 452 ( 2016 ).

5 ) 이치하라 키요시 : "바이오 사이언스의 통계학",南江堂1990.

6 )石居진행 : "생물 통계학 입문", 배풍 관 1975.

7 ) 아다치 켄이치 : "편안 생물 통계학", 중산 서점, 1998.

8 ) 석촌 사다오 : "금방 알 통계 처리"도쿄 서적, 1994.

9 ) 석촌 사다오 : "금방 알 통계 분석", 도쿄 서적, 1993.

* 1  실험 동물을 이용하는 시험의 경우, 이상적으로는 모집단은 전세계의 같은 계통의 마우스라고 생각하면 세계적인 연구로 평가된다. 그러나 현실은 그렇지 않다. 같은 계통의 마우스에서도 동물을 납입하는 브리더마다 유전자는 완전히 같지는 않기 때문에 개종이 다르다고 실험에 대한 응답이 다른 것은 잘있다. 따라서 구입 한 개종 마우스 전체를 모집단으로 생각하는 편이 좋다. 필자는 어떤 계통의 쥐에서 연구 대상의 유전자가 개종 A에서는 결손 다른 종족 B의 결손 않았기 때문에 연구가 혼란에 빠진 경험이있다. 같은 계통이라면 어떤 종족의 동물에서도 동일하게 응답하는 생각하는 연구자가 많을지도 모르지만, 반드시 그렇지는 않기 때문에주의가 필요하다. 이처럼 동물 실험은 세계적인 연구로 자리 매김하고자하지만, 실은 로컬 실험을 실시하고 있기 때문에 유사한 시험에서도 다른 연구자들이 수행과 연구 결과가 다른 것은 일어날 수 생각해 두는 것이 좋다. 이러한 상황은, 식물, 물고기와 미생물 등의 연구에서도 마찬가지로 생각된다. 비슷한 실험에서 연구자에 따라 다른 결과가 출현하기 때문에 연구자를 괴롭히는 원인이되지만, 다양한 결과에 현혹되지이다. 생물을 이용한 시험이란 그런 것이고, 보편적 인 진실을 찾아내는 것은 쉽지 않다.

* 2  통계학은 모집단에서 추출한 표본의 수를 "표본의 크기"또는 "표본 크기" "샘플 크기"라고 영어로는 sample size이다. 표본수는 부르지 않는다. 표본수는 영어로 the number of samples이며 샘플이라고도 쉽게 말하면 군 수의 것이다. 매우 오해하기 쉽기 때문에주의하기 바란다.

* 3  이 편차는 측정 오차에 의한 불균형의 것이 아니라 (다음 참조) 생물 본래의 불균형이다. n 을 얼마나 먹으면 좋을지는 각각의 실험에 의존한다. 주로 데이터의 편차 방법 즉 분산이 관계한다. 편차가 크면 n 을 크게해야한다. 그러나 일반적으로 오차는 실험 해 보지 않으면 모르는 경우가 많고, 또한 측정 파라미터에 편차가 다르기 때문에 실험 시작시에 n 을 예측하는 것은 곤란하다. 논문이나 과거의 실험 결과 등으로부터 큰 편차가 예측되는 경우 n 을 크게하는 것을 생각해야한다.

* 4  실험 수행 상 문제와 측정 오차 등의 이유로 데이터에 자신이없는 경우는 똑같은 시험을 실시하고 결과를 확인하는 것은 유용하다. in vitro 시험에서 비교적 쉽게 바로 잡을. 그러나 동물 실험과 장기의 관찰 기간이 필요한 시료의 경우는 시도가 어려운 경우가 많기 때문에, 시험을 확실하게 수행하는 것이 중요하다. 보통 실험에서 재현성을 확인하려면 "개정 증보판 : III"로한다 "다중성 문제"를 고려해야 똑같은 시험을 반복하는 것보다 다른 각도의 실험을 여러 번 가서 비슷한 결과를 얻을 수 있는지 확인하는 것이 신뢰성 높은 시험으로 인식된다.

* 5  자동 피펫 눈금대로 용량을 측정 잡힌다고 믿는 학생이 있지만 반드시 그렇지는 않다. 게다가 눈금과 측정 잡히는 용량은 어긋나있다. 또한 숙련도가 낮은 편차가 커진다. 또한 자동 피펫 자체 종종 차질을 발생한다. 그 점을 이해하고있는 연구자라면 사용하는 모든 자동 피펫을 정기적으로 테스트하거나 사용하기 전에 시험하고있는 것이다. 덧붙여서 나의 연구실에서는 사용 전에 물을 사용하여 측정 복용 용량을 정밀 천칭 반복 중량 측정하고 제대로 측정오고 있는지를 검정하고 사용하고있다. 특히 여러 연구자가 자동 피펫을 공유하여 사용하는 경우는 믿지 말라. 사용 직전에 측정하는 것을 권장한다. 이 검정을 실시하고, 이상이 있으면 즉시 통지하고, 자동 피펫의 반복 정도가 어느 정도인지를 알 수 있으며 숙련도가 낮은 편차가 커지는 것을 이해할 수있다. 자동 피펫을 검정하여 사용하는 것은 연구자로서의 기본이다. 사실 유리 피펫도 기본이되어 있지 않은 학생의 무게 오차가 크다.

* 6  무작위 추출법은 연구의 종류에 따라 통틀어 말할 수 없기 때문에이 세미나에서는 언급하지 않는다. 통계서나 표본 추출의 전문 서적을 참고로 각 연구에 적합한 방법을 생각해야한다.

* 7  개 세미나의 모든 그림은 필자가 모식 적으로 묘사 한 것으로 반드시 정확한 것은 아니다.

* 8  정규성 검정의 원리는이 세미나에서는 설명하지 않는다.

* 9  예를 들어, 개종에서 구입 한 ICR 마우스 6 마리의 혈청 콜레스테롤 농도가 얼마나 바라つい있는지를 알고 싶다면 표본 분산하고있다. 그러나 세계의 ICR 마우스 (이를 모집단 가정)의 혈청 콜레스테롤 농도의 편차를 추정하고 싶다면 불편 분산을 계산해야한다.

* 10  실제로 정규 분포 모집단에서 표본을 가지고가는 것을 반복하여 표본 분산을 계산 해 보면 어머니 분산보다 작을 것이다. 또한 이론적으로 계산으로 구할 수 있기 때문에 관심이 있다면 "바이오 사이언스의 통계학」(南江堂)을 읽고 싶어 ( 5) .

* 11  자유도 내용은 다음 "개정 증보판 : II '에서 해설한다.

* 12  좀 더 자세히 말하면, 편견이 있다고는 표본의 크기 n 에 관계없이 (의존하지 않고), 어머니 평균과 모집단 분산을 편견없이 추정 할 수 있음을 의미한다. 물론 불편 분산 u 2 는 표본에서 계산 한 값이기 때문에, 어머니 분산 σ 2 와 반드시 일치하는 값은한다. 그러나 모집단에서 몇번이나 표본을 취하고 u 2 를 계산하는 것을 반복하여 평균 σ 2 과 일치하는 것이다.

* 13  "편견"에 대해서는 이미 * 12 에서 설명했다. 여기에서 u를 불편 표준 편차 라고 명명했다. 불편 표준 편차는 편견 정의에서 보면 어머니 표준 편차 σ를 추정 값 것이다. "통계 검정을 이해하지 않고 사용하는 사람을 위해 I '와 졸저도 그렇게 쓴 ( 1, 2) . 그러나 불편 분산 u 2 를 루트 한 u는 편견이 아니다 는 지적을 받았다. 살펴보면 그대로였다 ( 6) . 여기서 모집단 표준 편차 σ를 추정하는 값을 참 불편 표준 편차 이라고 명명하면 u는 참 불편 표준 편차는 차이가있다. 이 차이는 * 12 의 마지막에 말했다, 몇번이나 표본을 취하고 계산 한 u 2 의 평균치를 루트 값 (이것이 진정한 공정한 표준 편차)와 u 2 를 계산 할 때마다 루트하고 u를 계산하고 그 평균을 구한 값과 일치하지 않는 것에 기인한다. 우리는 보통 한 번 밖에 실험하지 않기 때문에 한번의 시험으로 구한 u 2 를 루트 할 수 밖에없고, 진정한 공정한 표준 편차를 알 수 없기 때문이다. n 이 크면 (대체로 n > 10), u는 참 불편 표준 편차에 가깝지만, n 이 작 으면 ( n≦ 10) 위화감이 커지고 보정이 필요하다 ( n 에 따라 달라 n이 작을수록 오차가 커지는). 따라서 진정한 공정한 표준 편차를 알기 위해서는 u를 1 미만의 계수로 나눈 보정 할 필요가있다. 예를 들어, n = 5에서 계수는 0.94이며, u / 0.94가 참 불편 표준 편차입니다 σ를 추정하는 값이된다 (6) . n ≦ 10에서 실험하고있는 연구원은 많다고 생각하지만, 데이터를 표본 평균 ± SD로 표기하고 SD로 u를 이용하는 경우는 참 불편 표준 편차가 아니라 약간 낮은 값을 표기하고있다 하게된다. 이 세미나에서는 u는 참 불편 표준 편차는 아니지만, 불편 표준 편차라고 부른다 것으로 조금 차이가 있지만 어머니 표준 편차 σ를 추정하는 값 으로 이야기를 진행한다.

반응형

+ Recent posts