(1) W型解決法
そもそも科学的研究というものは、一見したところ多種多様な現象から、その奥底に潜む普遍的な原理を帰納的に推理・洞察し、その原理に基いて色々な現象を統一的に説明できそうな仮説を立て、その仮説から演繹的に導かれる現象を予測し、実験や観測によって仮説を確認・修正しながら理論を確立していく作業です。 これを「仮説演繹法」といいます。 この仮説演繹法の作業手順を、文化人類学者の川喜田二郎博士が考案した「W型解決法」にあてはめると下図のように模式化することができます。
模式図の中の書斎科学というのは、問題提起、仮説や理論の構築、実験結果の実質科学的評価など、主として頭の中で行う作業だけで成立する科学のことです。 これには数学や理論物理学などが属します。 野外科学というのは、実験を行うことができないため、現場の調査や観測が中心になる科学のことです。 これには社会科学の多くが属します。 実験科学というのは、実験や試験を中心にした科学のことです。 これには化学や実験物理学などが属し、単に「科学」といえばこの実験科学を思い浮かべる人が多いと思います。
典型的な科学研究は、模式図に示したように、この3種類の科学をW字型に組み合わせた手順で行い、理論を確立していきます。
- 問題提起
問題を提起して研究テーマを明確にする。
科学的研究の最も重要な段階であり、研究テーマをミッションステートメント風に短い文章で表して、いつも意識しておく。 - 調査・観測
調査・観測等の探索型研究を企画・立案・実施し、結果を科学的に解釈し評価する。
探索型研究は、研究テーマについて科学的な理論やモデルを組み立て、仮説を設定するためのデータを収集することが主目的であり、スクリーニングや予備実験がこれに相当する。 ただし探索型研究の計画を立案する段階で、ある程度の理論と定性的な仮説を想定しておく。 そして検証型研究で用いる評価項目や評価指標、そしてその要約値(代表値)を選択するために、なるべく多くの候補項目を観測するようにする。
データを要約するには記述統計学的手法を用いる。
この段階で得られる客観的事実は主として定性的であり、それを科学的に解釈し評価する。 - 理論構築・仮説設定
探索型研究で得られた結果に基づいて、科学的な理論やモデルを組み立て、それから導かれる定量的な仮説を設定する。
仮説は、理論やモデルの正当性や妥当性を評価することができるようなものにする。 - 実験・試験
実験・試験等の検証型研究を企画・立案・実施し、結果を科学的に解釈し評価する。
検証型研究は、仮説を検証し、理論の正当性や妥当性を評価することが主目的であり、確認試験や本実験がこれに相当する。 検証型研究の計画を立案する段階で、仮説を検証するための評価項目や評価指標、そしてその要約値と統計手法、有意水準、信頼係数等を決定し、必要例数を計算しておく。
データを要約するには推測統計学的手法を用いる。
この段階で得られる客観的的事実は主として定量的であり、それを科学的に解釈し評価する。 - 理論・仮説の確認・修正
検証型研究で得られた結果に基づいて、仮説を確認または修正し、科学的な理論を確認または修正する。
これにより新たな問題提起や理論の修正をするなどして、適当な研究段階にフィードバックする。
W型解決法は、科学研究だけでなく色々な方面に応用することができます。 例えば、これを仕事に応用するとPDCA(Plan、Do、Check、Action)などのマネジメント・サイクルを詳細化したものになり、それにマクレガーのY理論を組み合わせたものが近代的な業務管理手法の代表的なものである──なんてぇことは、僕には興味が全く持てません。 OJTやOffJTなんて、クソくらえっ!凸(-"-) > 会社の人事部
……つい私情に走ってしまい、失礼しました。 科学的研究における統計学の役目は、模式図に示したようにデータの数学的な要約をすることです。 その際、W型の左側にある調査や観察で得られたデータには主に記述統計学を適用し、右側にある実験や試験で得られたデータには主に推測統計学を適用します。
統計学盲信と検定偏重主義の風潮から、研究現場では往々にして何でもかんでも検定をし、検定をしていないと文句をつけられるというおかしな傾向があります。 これは、実際の研究では、ひとつの試験で探索型研究と検証型研究の両方を同時に行ってしまうことにも起因しているようです。 特に医学分野や薬学分野の研究では、試験を実施するのに非常に手間と費用がかかるため、ひとつの試験に検証的なテーマと探索的なテーマの両方を盛り込むことが多くなります。 つまり、行きがけの駄賃に調べられるものは何でもかんでも調べてやろう、そしてせっかく調べたのだから、検定ぐらいはやっておかないと格好がつかないというわけです。
検定は、標本集団のデータから母集団の様子を推測して、仮説を検証するための手法です。 仮説を設定しない検定には何の意味もありませんし、厳密に計画された試験でなければ、検定を正しく適用することはできません。 厳密に計画されていない試験に検定を適用すると、間違った結論を導いてしまう危険性さえあります。
このため、明確な仮説を設定せず、厳密な計画を立てない探索型の調査や観測には、本来は検定を適用する必要はありません。 そして探索型研究と検証型研究を兼ねた試験では、検証的なテーマには検定を適用してもかまいませんが、行きがけの駄賃で調べた探索的なテーマにまで検定を適用する必要はありませんし、無闇に適用すべきではありません。
もちろん、探索型の調査や観測も、それなりにきちんとした計画を立てて実施します。 しかし、これらの研究の主目的は仮説や理論を組み立てるためのデータを集めることなので、あまり厳密な計画を立てず、臨機応変に計画を変更して、できるだけ幅広くデータを集めるようにします。
それに対して検証型の試験や実験は、仮説を検証するのに必要な条件を満足するように、実験計画法に基づいて厳密に計画し、それに従ってできるだけ厳格に実施します。 例えば探索型の調査や観測は、原則としてどのような例数を目標にして実施してもかまいません。 しかし検証型の試験や実験は、仮説を検証するのに必要な例数を数学的に算出し、それだけの例数を確保できるような計画を立ててから実施する必要があります。 (注1)
また多変量解析を利用して、ある値を推測するための予測式や、ある疾患の診断を行う診断ツールを作成することがあります。 その場合、W型解決法にしたがって、まずは探索型試験で集めたデータに基づいて予測式を組み立てます。 その後で、その予測式の妥当性を検証できるようなデータ内容を検討し、そのデータを集めるための計画を立てます。 そして、その計画に基づいて検証型試験を実施し、集めたデータに予測式を適用して妥当性を評価・検証します。
ところが医学分野や薬学分野では、往々にしてこれらの手順を一回の試験で済ませてしまうことがあります。 その場合、探索型研究で集めたデータを無作為に2つの群に分け、一方の群を予測式の作成用データとし、もう一方の群を検証用データとします。 そして作成用データに基づいて予測式を作成し、それを検証用データに適用して妥当性を評価・検証してしまうのです。
この方法は、見かけ上はW型解決法にしたがっているため、もっともらしい方法のように思えます。 しかし、この方法には致命的な欠点があります。 それは、検証用のデータが必ずしも予測式の妥当性を評価・検証するような内容ではないということです。
例えば予測式を作成した段階で年齢が重要な要因らしいということがわかれば、検証用のデータは、年齢層が偏らないようにできるだけ満遍なく、しかもできるだけ幅広く集めるようにします。 すなわち図1.19において、黒い実線で描いた楕円が予測式作成用データの範囲だとすれば、検証用データは赤い破線で描いた楕円の範囲をカバーする必要があります。
ところがこの方法の検証用データの年齢層は、原理的に予測式作成用データと同じであり、黒い楕円の範囲より外には出ないはずです。 これでは、作成した予測式が幅広い年齢層に適用可能かどうかを検証することができません。 つまりこの方法では作成した予測式が外挿可能かどうか、普遍性があるかどうかを評価・検証することができないのです。
この方法の検証用データに予測式を適用して結果が予想通りだった時は、予測式の妥当性を検証したわけではなく、単にデータをうまく均等な2つの群に分けたことを確認したにすぎません。 2つの群のデータ内容がほぼ同じならば、一方で作成した予測式がもう一方にもほぼ適用可能なはずですし、その予測式は、結局のところ、2群を合わせて全データを使用して作成した予測式とほぼ一致するはずです。 これでは、予測式の検証になるはずがありません。
実は、この方法をもう少し洗練した手法が「交差検証法(cross validation method)」として定式化されています。 しかしこの手法は、予測式がどの程度的中するかという確率を求めるためのものであり、予測式の外挿可能性や普遍性を検証するためのものではありません。
これらの手法はちょうどコップの中で嵐を起こしているようなもので、どんなにものすごい嵐でも、それがコップの外の世界にまで影響することはありません。 つまり探索型研究で集めたデータを用いる限り、どのような方法で予測式の妥当性を評価しても、その予測式がデータの範囲外まで外挿可能であり、普遍性があることを検証することはできないのです。 検証用のデータは、あくまでも予測式の妥当性を評価・検証できるように、計画的に集めたものでなければなりません。
(2) 科学的研究の種類
科学的研究法の種類については各種の定義があり、色々な分類をされています。 一般的な科学研究の種類について、統計学との関連で分類すると次のようになります。
悪い候補コミュニケーションスキル
1) 調査(survey)
研究者が直接的な介入を行わず、全ての要因を管理せずにそのまま観測したもの。 実験または試験を行うための予備的な研究に用いられることが多く、スクリーニング調査、アンケート調査などが代表的です。 探索的であり、記述統計学を適用します。
2) 試験(trial)
研究者が直接的に介入し、研究目的に影響を及ぼすと考えられる主要な要因だけを管理して観測したもの。 予備的な研究にも本格的な研究にも用いられ、臨床試験などが代表的です。 半探索的・半検証的であり、目的の要因の解析には推測統計学を適用し、その他の要因の解析には記述統計学を適用します。
3) 実験(experiment)
研究者が直接的に介入し、全ての要因を管理して観測したもの。 本格的な研究に用いられることが多く、化学実験、動物実験などが代表的です。 検証的であり、推測統計学を適用します。
(3) 科学的研究のデザイン
次に、研究デザインの面から分類すると次のようになります。 研究デザインの種類と原理を理解するためには、原因と結果を表1.3のような2×2分割表にまとめたものが役に立ちます。 原因とは、例えば喫煙の有無などのことであり、結果とは、例えば肺癌の有無などのことです。
結果 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
原因 | 無 | a | b | (a+b) |
有 | c | d | (c+d) | |
計 | (a+c) | (b+d) | N |
1) 観察的研究(observational study)
原則として、研究者が直接的な介入や管理を行わない研究。 疫学研究や社会学研究でよく用いられます。
a) 横断的研究(cross sectional study)
ある時点におけるデータを横断的に観測する研究法で、調査とほぼ同義です。 比較的手軽で迅速に実施できる反面、因果関係の検証はできません。 このため主として予備調査や探索的研究に用いられ、スクリーニング調査やアンケート調査などが代表的です。
統計学的な意味で言う横断的とは、時間に関して横断的というよりも、因果関係の方向に関して横断的ということであり、原因と結果をどちらも固定せずに観測するということです。 このため、ある時点のデータだけでなく、過去のデータについて観測しても原因と結果を固定せずに観測すれば横断的研究になります。
このデザインでは、原因と結果の2×2分割表において、全体の例数Nを指定し、現時点における原因の有無と結果の有無を調べてa、b、c、dを観測します。 ただし因果関係の検証はできないので、原因と結果はあくまでも想定したもの、または便宜的なものになります。 その代わり原因も結果も確率変数と考えることができ、両者の間の自然な関連性が反映されます。 このため相関分析系の手法を厳密に適用することができ、相関係数が正確な意味を持ちます。
疾患 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
危険因子 | 無 | 55(55%) | 5(5%) | 60(60%) |
有 | 25(25%) | 15(15%) | 40(60%) | |
計 | 80(80%) | 20(20%) | 100(100%) |
原因が危険因子(risk factor)で結果が疾患の時、次のような値が定義できます。
危険因子の出現率(危険因子頻度) pR= | c+d ―― N | = | 40 ―― 100 | =0.4 |
疾患の有病率(prevalence) pd= | b+d ―― N | = | 20 ―― 100 | =0.2 |
φ= | ad-bc ―――――――――――― √{(a+b)(c+d)(a+c)(b+d)} | = | 15×55-25×5 ――――――――― √(40×60×20×80) | ≒0.357 |
危険因子有の疾患オッズ(Odds、見込み) O+= | d ― c | = | 15 ―― 25 | =0.6 |
危険因子無の疾患オッズ O-= | b ― a | = | 5 ―― 55 | ≒0.09 |
疾患有の危険因子オッズ Od= | d ― b | = | 15 ―― 5 | =3 |
疾患無の危険因子オッズ Oc= | c ― a | = | 25 ―― 55 | ≒0.45 |
オッズ比(Odds Ratio、見込み比) OR= | O+ ―― O- | = | d/c ―― b/a | = | d/b ―― c/a | |
= | Od ―― Oc | = | ad ―― bc | = | 15×55 ――― 25×5 | =6.6 |
四分点相関係数(ファイ係数)は、2×2分割表における相関係数に相当します。 この値は危険因子の有無と疾患の有無の関連性が全くない時は0になり、完全に関連していると1または-1になります。 (→5.3 計数値の相関と回帰)
オッズ(見込み)は、ある反応を生じる確率と生じない確率の比のことです。 そしてオッズ比は、ある群におけるオッズと、別の群におけるオッズの比のことです。 このため表1.4の場合のオッズ比は、危険因子有群の疾患オッズが、危険因子無群の疾患オッズの何倍あるかを表す値になります。 この値は危険因子と疾患の関連性が全くない時は1になり、関連性があるほど1から離れます。 ただしこの値は上限と下限が無制限の上、計算不可能な場合もあるため、関連性の指標としては四分点相関係数の方が便利です。 (→3.4 2標本の計数値 (注7))
原因が危険因子で結果が疾患の時、さらに次のような値も定義できます。 ただしこの場合は分子も分母も確率変数になるため、値の信頼性が低くなります。
危険因子有における疾患の有病率 p+= | d ―― c+d | = | 15 ―― 40 | =0.375 |
危険因子無における疾患の有病率 p-= | b ―― a+b | = | 5 ―― 60 | ≒0.083 |
リスク比(Risk Ratio)または相対危険度(Relative Risk) RR= | p+ ―― p- | = | d(a+b) ―――― b(c+d) | = | 15×60 ―― 5×40 | =4.5 |
危険因子有における疾患の有病率 p+= | d ―― c+d | ≒ | d ―― c |
危険因子無における疾患の有病率 p-= | b ―― a+b | ≒ | b ―― a |
RR= | d(a+b) ―――― b(c+d) | ≒ | ad ―― bc | =OR … b< |
また危険因子を診断指標と考えると、次のような値が定義できます。 これらの値も分子と分母が確率変数になるため、値の信頼性が低くなります。 診断指標の場合、本来は疾患が原因で、診断指標が結果という因果関係を想定します。 しかし、このデザインでは因果関係は便宜的なものにすぎません。 このため、危険因子をそのまま診断指標と考えてしまってかまいせん。 (→9.2 群の判別と診断率)
危険因子の陽性率 pp= | c+d ―― N | = | 40 ―― 100 | =0.4 |
感度(Sencitivity) sn= | d ―― b+d | = | 15 ―― 20 | =0.75 |
特異度(Specificity) sp= | a ―― a+c | = | 55 ―― 80 | =0.6875 |
正診率(Accuracy) ac= | a+d ―― N | = | 15+55 ――― 100 | =0.7 |
陽性尤度比(Positive Likelihood Ratio) LR+= | sn ――― 1-sp | = | d(a+c) ―――― c(b+d) | = | 15×80 ――― 25×20 | =2.4 |
陽性尤度比は、真陽性確率(感度)つまり疾患群の診断指標が陽性になる確率と、偽陽性確率(1-特異度)つまり正常群の診断指標が陽性になる確率の比です。 この値は有病率でいえばリスク比に対応する値であり、感度と特異度が大きいほど1より大きくなり、診断指標の有用性を表す値になります。 そして有病率と同様に、陽性率が小さい時、感度と特異度はオッズに近似し、陽性尤度比はオッズ比に近似します。
ネバダ州の状態は何年になりました
感度(Sencitivity) sn= | d ―― b+d | ≒ | d ―― b |
特異度(Specificity) sp= | a ―― a+c | ≒ | a ―― c |
LR+= | d(a+c) ―――― c(b+d) | ≒ | ad ―― bc | =OR … c< |
b) 前向き研究(prospective study)
ある時点から、未来に向かってデータを観測する研究法。 実施に手間と時間がかかりますが、因果関係の検証が可能です。 このため主として検証的研究に用いられ、コホート研究(cohort study)が代表的です。 コホートとは共通した因子を持ち、時間を追って観察される集団のことです。 これは疫学分野でよく用いられる用語であり、コホート研究の対象になる母集団のことを指す場合が多いようです。
統計学的な意味で言う前向きとは、時間に関して前向きというよりも、因果関係の方向に関して前向きということであり、原因を固定して結果を観測するということです。
このデザインでは、原因と結果の2×2分割表において、原因無の例数(a+b)と原因有の例数(c+d)を指定し、それらの群について、結果の有無を経時的に調べてa、b、c、dを観測します。 そのため、因果関係の検証をすることができます。 そして結果だけが確率変数になるため、回帰分析系の手法を厳密に適用することができ、回帰直線が正確な意味を持ちます。
疾患 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
危険因子 | 無 | 40(80%) | 10(20%) | 50(100%) |
有 | 20(40%) | 30(60%) | 50(100%) | |
計 | 60(60%) | 40(40%) | 100(100%) |
このデザインでは原因の有無の例数を任意に指定することができるため、危険因子の出現率と疾患の有病率、そして危険因子オッズは定義できません。 そして危険因子を診断指標と考えることができなくなり、診断率を計算することができなくなります。 その代わり、次のような値が定義できます。
θ2=φ2= | (ad-bc)2 ―――――――――― (a+b)(c+d)(a+c)(b+d) | = | (30×40-20×10)2 ――――――― 50×50×40×60 | ≒0.167 |
危険因子有における疾患の発症率 p+= | d ―― c+d | = | 30 ― 50 | =0.6 |
危険因子無における疾患の発症率 p-= | b ―― a+b | = | 10 ― 50 | =0.2 |
リスク比 RR= | p+ ―― p- | = | d(a+b) ―――― b(c+d) | = | 30×50 ―――― 10×50 | =3 |
危険因子有の疾患オッズ O+= | d ― c | = | 30 ―― 20 | =1.5 |
危険因子無の疾患オッズ O-= | b ― a | = | 10 ―― 40 | =0.25 |
オッズ比 OR= | O+ ―― O- | = | d/c ―― b/a | = | ad ―― bc | = | 30×40 ―――― 20×10 | =6 |
疾患の発症率が小さい時、次のようにリスク比はオッズ比に近似します。
疾患 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
危険因子 | 無 | 99 | 1 | 100 |
有 | 98 | 2 | 100 | |
計 | 197 | 3 | 200 |
クラメールの関連係数θ2=0.00169 θ=0.0411
オッズ比OR=2.02
リスク比RR=2
疾患 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
危険因子 | 無 | 70 | 30 | 100 |
有 | 40 | 60 | 100 | |
計 | 110 | 90 | 200 |
クラメールの関連係数θ2=0.0909 θ=0.302
オッズ比OR=3.5
リスク比RR=2
疾患 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
危険因子 | 無 | 2 | 98 | 100 |
有 | 1 | 99 | 100 | |
計 | 3 | 197 | 200 |
クラメールの関連係数θ2=0.00169 θ=0.0411
オッズ比OR=2.02
リスク比RR=1.01
ご覧のように、表1.6と表1.7のリスク比はどちらも2です。 しかし表1.6の場合は、たった1例の違いがそのままリスク比に反映されているため、リスク比の信頼性が低く、感覚的に2倍ほど危険性が高いとは思えないところがあります。 それに対して、表1.8の場合もたった1例の違いですが、リスク比はほとんど1に近く、こちらの方は感覚的に納得できると思います。
これらのことは、3つの表の関連係数とオッズ比を見ると、よりはっきりします。 表1.6と表1.8の関連係数とオッズ比は同じ値であり、危険因子と疾患の関連性の強さが同じであることを表しています。 そして表1.7の関連係数とオッズ比は他の2つよりも大きく、危険因子と疾患の関連性がより強いことを表しています。 特に、関連係数がそのことをはっきりと表しています。
つまり疾患の発症率が低い時は、リスク比の信頼性が低くなり、相対的な危険性というよりも、単なる関連性の指標であるオッズ比に近くなると解釈した方が良いということになります。
c) 後ろ向き研究(retrospective study)
ある時点から、過去にさかのぼってデータを観測する研究法。 このデザインは心筋梗塞のような稀な疾患の研究に適しているものの、因果関係の検証はできません。 このため主として探索的研究に用いられ、症例対照研究(case-control study)が代表的です。 ただし、稀な疾患では検証的研究に用いられる時もあります。
統計学的な意味で言う後ろ向きとは、時間に関して後ろ向きというよりも、因果関係の方向に関して後ろ向きということであり、結果を固定しておき、過去にさかのぼって原因を調べるということです。 このため過去にさかのぼってデータを観測しても、原因と結果を固定せずに観測すれば、後ろ向き研究ではなく横断的研究になります。
このデザインでは、原因と結果の2×2分割表において、結果無の例数(a+c)と結果有の例数(b+d)を指定し、それらの群について、過去にさかのぼって原因の有無を調べてa、b、c、dを観測します。 ただし因果関係の検証はできないので、原因と結果はあくまでも想定したもの、または便宜的なものになります。 そして結果が確率変数ではなくなるため、回帰分析系の手法は厳密には適用できなくなり、回帰直線が正確な意味を持たなくなります。
疾患 | 計 | |||
---|---|---|---|---|
無 | 有 | |||
危険因子 | 無 | 40(80%) | 20(40%) | 60(60%) |
有 | 10(20%) | 30(60%) | 40(40%) | |
計 | 50(100%) | 50(100%) | 100(100%) |
このデザインでは結果の有無の例数を任意に指定することができるため、危険因子の出現率と有病率、そして発症率とリスク比と疾患オッズは定義できません。 その代わり、危険因子を診断指標と考えると次のような値が定義できます。
"記事を書くようにいくつかのテクニックは何ですか? "
感度 sn= | d ―― b+d | = | 30 ―― 50 | =0.6 |
特異度 sp= | a ―― a+c | = | 40 ―― 50 | =0.8 |
正診率 ac= | a+d ―― N | = | 30+40 ――― 100 | =0.7 |
陽性尤度比 LR+= | sn ――― 1-sp | = | b(a+c) ―――― c(b+d) | = | 30×50 ―――― 10×50 | =3 |
疾患有の危険因子オッズ Od= | d ― b | = | 30 ―― 20 | =1.5 |
疾患無の危険因子オッズ Oc= | c ― a | = | 10 ―― 40 | =0.25 |
オッズ比 OR= | Od ―― Oc | = | d/b ―― c/a | = | ad ―― bc | = | 30×40 ―――― 10×20 | =6 |
危険因子の陽性率が小さい時、次のように陽性尤度比はオッズ比に近似します。
疾患の事前確率、つまり一般的な有病率πdがわかっていれば、事前確率に関するベイズの定理を利用して、次のような値を求めることができます。
ppt= | πdsn ――――――――― πdsn+(1-πd)(1-sp) | = | 1 ――――――――― 1+{(1-πd)/πd}/LR+ |
npt= | (1-πd)sp ――――――――― (1-πd)sp+πd(1-sn) | = | 1 ――――――――― 1+{πd/(1-πd)}LR- |
危険因子無における有病率 p-=1-npt
リスク比 RR= | p+ ―― p- | = | ppt ――― 1-npt |
危険因子有の疾患オッズ O+= | πd ――― 1-πd | LR+ |
危険因子無の疾患オッズ O-= | πd ――― 1-πd | LR- |
オッズ比 OR= | O+ ―― O- | = | LR+ ―― LR- | = | ad ―― bc | = | Od ―― Oc |
p+=ppt= | πdsn ―――――――――― πdsn+(1-πd)(1-sp) | ≒ | πdsn ――――――― (1-πd)(1-sp) | = | πd ――― 1-πd | LR+ | =O+ |
p-=1-npt=1- | (1-πd)sp ―――――――――― (1-πd)sp+πd(1-sn) | = | πd(1-sn) ―――――――――― πd(1-sn)+(1-πd)sp |
≒ | πd(1-sn) ――――― (1-πd)sp | = | πd ――― 1-πd | LR- | =O- |
RR= | p+ ―― p- | ≒ | O+ ―― O- | =OR |
したがって前向き研究と同様に、有病率が低い時は、リスク比はオッズ比に近似します。 ただし有病率が低い時は、リスク比の信頼性が低くなり、相対的な危険性というよりも、単なる関連性の指標であるオッズ比に近くなると解釈した方が良いということも前向き研究と同様です。
なお、前向き研究と後ろ向き研究を合わせて「縦断的研究(longitudinal study)」と呼びます。 統計学的な意味で言う横断的・縦断的または前向き・後ろ向きとは、時間に関するものというよりも、因果関係の方向に関するものです。 つまり、原因を固定して結果を観測するのが前向き研究であり、結果を固定して原因を調べるのが後ろ向き研究、どちらも固定せずに観測するのが横断的研究です。 (注2)
2) 実験的研究(experimental study)
研究者が直接的に介入し、要因を管理して行う研究法。 実施に手間と時間がかかり、場合によっては実施不可能なこともありますが、厳密な因果関係の検証が可能です。 このため主として検証的研究に用いられ、化学実験、動物実験、臨床試験などが代表的です。
実験的研究は必ず原因を固定して結果を観測するため、前向き研究になります。 そのためこのデザインでは、原因と結果の2×2分割表は前向き研究と同じものになり、同じ値が定義できます。
1.計量値・1標本の場合
1標本t検定の原理を応用した、次のような計算式を用います。 これは第6節で説明した「お座敷」そのものです。 (→3.1 1標本の計量値、3.3 2標本の計量値)
α=0.05の時、t(∞,α)=1.96≒2より、
有意水準と検出力は研究者が任意に設定し、検出差と母標準偏差は、実質科学的知見または探索研究で求めた推定値を代入します。 1標本t検定の場合、検出差は母平均推定値と基準値との差になり、対応のあるt検定の場合、検出差は対応のある2標本の差の平均値になります。 有意水準を5%、検出力を80%、検出差を10、母標準偏差推定値を10として、実際に計算すると次のようになります。
2.計量値・2標本の場合
2標本t検定の原理を応用した、次のような計算式を用います。 (→3.3 2標本の計量値)
α=0.05の時、
有意水準を5%、検出力を80%、検出差を10、母標準偏差推定値を10、群1の例数と群2の例数の比率を1として、実際に計算すると次のようになります。
必要例数の計算式からわかるように、合計例数は群1の例数と群2の例数の比率が1の時に最小になります。 したがって群1と群2のデータを集める労力が同じならば、2群の例数をできるだけ同じにすると効率が良くなります。 しかし、例えば群1が疾患群、群2が健常群であり、健常群のデータよりも疾患群のデータを集める労力の方が大きい時は、疾患群の例数はどうしても少なくなりがちです。 そのような場合は、合計例数を多くするために、健常群の例数を多くする必要があります。
ただし、疾患群の例数があまりにも少ないと偏った群になる可能性が高くなり、母集団から満遍なく無作為抽出した標本集団と見なしにくくなります。 例えば疾患群がたった3例しか集められず、それらがたまたま男性ばかりだったとすると、「その疾患は男性しか罹患しない」あるいは「性がその疾患のリスクファクターである」という誤った結論を導いてしまう危険性があります。
このため必要例数の計算式から理論的に求められる例数とは別に、現実的な必要最低限の例数が存在します。 臨床試験の場合、結果の信頼性をある程度高くするためには、少なくとも1群10例以上は必要でしょう。
3.計数値・1標本の場合
二項検定の原理を応用した、次のような計算式を用います。 (→3.2 1標本の計数値、3.4 2標本の計数値)
特にπ0=0.5、つまり符号検定の時は次のようになります。
有無の母出現率は、実質科学的知見または探索研究で求めた推定値を代入します。 有意水準を5%、検出力を80%、有の母出現率を0.6、無の母出現率を0.4として、実際に計算すると次のようになります。
4.計数値・2標本の場合
χ2検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値)
または、
有意水準を5%、検出力を80%、群1の母出現率を0.6、群2の母出現率を0.4、群1の例数と群2の例数の比率を1として、実際に計算すると次のようになります。
または、
5.相関係数の場合
相関係数の検定の原理を応用した、次のような計算式を用います。 (→5.1 相関係数と回帰直線、5.3 計数値の相関)
順位相関または四分点相関係数の場合
母相関係数は、実質科学的知見または探索研究で求めた推定値を代入します。 有意水準を5%、検出力を80%、母相関係数を0.2として、実際に計算すると次のようになります。
順位相関または四分点相関係数の場合
ちなみに、群1と群2を「1:群1、0:群2」というダミー変数で表した時の相関係数の検定は、2標本t検定に相当します。 また四分点相関係数は2×2分割表の相関係数であり、その検定はχ2検定に相当します。 このため相関係数と平均値の間、または四分点相関係数と出現率の間には次のような関係があります。 (→5.1 相関係数と回帰直線 (注4)、5.3 計数値の相関 (注2))
この式を利用すると、計量値の場合の必要例数も計数値の場合の必要例数も、相関係数の必要例数を求める式によって同じように計算することができます。 例えば2番の計量値・2標本の計算例と、4番の計数値・2標本の計算例についてこの式を利用して計算すると、次のようにほぼ同じ例数になります。
・計量値・2標本の計算例:δ=10 σ=10
・計数値・2標本の計算例:π1=0.6 π2=0.4 π=0.5
6.順位和検定の場合
ウィルコクソンの順位和検定の原理を応用した、次のような計算式を用います。 (→3.4 2標本の計数値)
順序分類 | 1 | … | i | … | h | 計 | 順位和 |
---|---|---|---|---|---|---|---|
群1 | n11 | … | n1i | … | n1h | N1 | T1 |
群2 | n21 | … | n2i | … | n2h | N2 | T2 |
計 | g1 | … | gi | … | gh | G | Tg |
順位 | r1 | … | ri | … | rh | - | - |
ここでN1=N2=Nとすると、
7.傾向検定の場合
コクラン・アーミテージの傾向検定の原理を応用した、次のような計算式を用います。 (→5.3 計数値の相関と回帰)
説明変数 | 例数 | 非出現例数 | 出現例数 | 出現率 |
---|---|---|---|---|
x1 | n1 | s1 | r1 | p1 |
: | : | : | : | : |
xi | ni | si | ri | pi |
: | : | : | : | : |
xk | nk | sk | rk | pk |
全体 | N | S | R | p |
ここでn1=…=ni=…=nk=nとすると、
なお生命表解析の必要例数の計算式については、第11章で説明します。 (→11.6 パラメトリック生命表解析 (注3))
8.探索研究の場合
仮説を検証する検証的研究ではなく、仮説を組み立てるためのデータを集める探索的研究の場合、原則として必要例数の計算はしません。 しかし集めたデータの信頼性を高くするためには、ある程度の例数が必要になります。 例えば、ある疾患のリスクファクターを探索する研究を行いたいとします。 そして、その疾患の一般的な発症率が10%と予想されたとすると、少なくとも10例以上は調査しないと疾患例が観測できない恐れがあります。
しかしリスクファクターを探索するためには、そのリスクファクターを持っている人と、持っていない人の発症率を比べる必要があります。 例えば、性がリスクファクターであることを検討するためには、男と女の発症率を比べ、一方が他方よりも高いかどうかを調べる必要があります。 このため男女比を1対1とすると、少なくとも全体で20例以上はないと、男女の発症率を比べることはできません。 ところがこれは必要最低限の例数ですから、発症率の信頼性を高くするためには、できればこの5〜10倍の例数が欲しいところです。
このような考察から、ある疾患のリスクファクターを探索するためには、疾患の予測される発症率をπdとし、リスクファクターの予測される発現率をπfとすると、全体として次のような例数が必要になります。
またデータから計算した統計量の信頼性は、例数の平方根に比例して高くなります。 そして多変量解析のように多くの変数を用いる解析法では、得られた統計量の信頼性は変数の数に反比例して低くなります。 このため多変量解析で得られた統計量は、一般に次のような条件を満足していないと信頼性の高いものにはなりません。 (→7.2 重回帰分析の解釈 (注2))
n≧{(変数の数)2 または (変数の数)×10}の大きい方
n≧{102 または 10×10}の大きい方=100
たとえ探索研究でも、結果についてある程度の信頼度を確保したい時には、信頼区間の原理に基づいて必要例数を計算します。
・計量値の場合
・計数値の場合
許容誤差は実質科学的な誤差範囲であり、信頼区間は数学的な誤差範囲です。 したがって信頼区間の原理に基づく必要例数の計算は、数学的な誤差範囲を実質科学的な誤差範囲以内にする時の必要例数を求めていることになります。 そして計量値の計算式は、許容誤差eを検出差δとし、検出力を50%(βエラー=0.5)にした時の「お座敷」に相当します。
計数値の場合、95%許容誤差eを母出現率πの半分にして計算した必要例数は、必要最低限の例数のだいたい10倍の例数に相当します。 例えば母出現率を0.1とすると、必要最低限の例数は10例であり、その10倍は100例です。 この時、95%許容誤差を0.05として必要例数を計算すると次のようになります。
ちなみに、ある特定の集団を対象にしたアンケート調査のように、全体の例数がNである有限母集団から標本を抽出する時の必要例数は、上記の計算式に有限修正を施した次のような計算式を用います。
・計量値の場合
・計数値の場合
1.コホート内症例対照研究(nested case-control study)
大規模なコホート研究の中で、疾患を発症した人の中から症例群を選び、疾患を発症しなかった人の中から対照群を選んだ症例対照研究です。 観測時期などの背景因子を、症例群と対照群で合わせることが比較的容易なため、偏りの入らない比較を行うことができます。 また研究開始時に対象者の血液を冷凍保存しておき、必要なものだけ検査することができるため、検査に費用がかかる研究に適しています。
2.コホート内症例コホート研究(nested case-cohort study)
単に症例コホート研究またはケースコホート研究と呼ばれることもある方法で、コホート内症例対照研究と同様に、大規模なコホート研究の中で、疾患を発症した人の中から症例群を選びます。 しかし対照群は、コホート内症例対照研究と違って、研究開始時の全ての対象者から無作為に選択します。 このため、対照群には後に疾患を発症する人も含まれます。 この研究は症例対象研究の対照群を特定する簡単な方法であり、危険因子に関する様々な情報を提供することができます。
このデザインでは、原因と結果の2×2分割表において、後ろ向き研究と同様に、症例群である結果有の例数(b+d)と対照群の例数を指定します。 しかし対照群は結果無ではなく、全コホートと同じ結果無+有になりますから、その例数は(a+c)ではなくなります。 仮に症例群として疾患を発症した全ての人を選択し、対照群として全コホートを選択すると、原因と結果の2×2分割表は次のようになります。
疾患 | 計 | |||
---|---|---|---|---|
無+有(全体) | 有 | |||
危険因子 | 無 | (a+b) | b | (a+b)+b |
有 | (c+d) | d | (c+d)+d | |
計 | N | (b+d) | N+(b+d) |
このように、このデザインで得られたデータから計算したオッズ比は、稀な疾患ではなくてもリスク比と一致します。 その代わり、症例群と対照群が独立の群ではなくなりますので、オッズ比の検定や関連性の検定を適用することはできません。
実際には、症例群は疾患を発症した全ての人から無作為に選択し、対照群も全コホートから無作為に選択する場合がほとんどです。 しかし、それらの群の危険因子オッズが全疾患群と全コホートの近似値ならば、稀な疾患ではなくても、オッズ比をリスク比の近似値と考えることができます。
疾患 | 計 | |||
---|---|---|---|---|
無+有 | 有 | |||
危険因子 | 無 | 40 | 20 | 60 |
有 | 10 | 30 | 40 | |
計 | 50 | 50 | 100 |
こういった複合研究は、大規模なコホート研究の進行中に、小規模な探索的研究を行う時や、費用などの関係で、全コホートを対象にした解析を行うことが難しい時に行われる、いわば行きがけの駄賃的なものです。 全コホートを対象にした本来の研究を行うことができれば、それに越したことはありません。
0 件のコメント:
コメントを投稿