統計学入門−第1章 (1) W型解決法 そもそも科学的研究というものは、一見したところ多種多様な現象から、その奥底に潜む普遍的な原理を帰納的に推理・洞察し、その原理に基いて色々な現象を統一的に説明できそうな仮説を立て、その仮説から演繹的に導かれる現象を予測し、実験や観測によって仮説を確認・修正しながら理論を確立していく作業です。 これを「仮説演繹法」といいます。 この仮説演繹法の作業手順を、文化人類学者の川喜田二郎博士が考案した「W型解決法」にあてはめると下図のように模式化することができます。
模式図の中の書斎科学というのは、問題提起、仮説や理論の構築、実験結果の実質科学的評価など、主として頭の中で行う作業だけで成立する科学のことです。 これには数学や理論物理学などが属します。 野外科学というのは、実験を行うことができないため、現場の調査や観測が中心になる科学のことです。 これには社会科学の多くが属します。 実験科学というのは、実験や試験を中心にした科学のことです。 これには化学や実験物理学などが属し、単に「科学」といえばこの実験科学を思い浮かべる人が多いと思います。
典型的な科学研究は、模式図に示したように、この3種類の科学をW字型に組み合わせた手順で行い、理論を確立していきます。
問題提起 問題を提起して研究テーマを明確にする。 科学的研究の最も重要な段階であり、研究テーマをミッションステートメント風に短い文章で表して、いつも意識しておく。 調査・観測 調査・観測等の探索型研究を企画・立案・実施し、結果を科学的に解釈し評価する。 探索型研究は、研究テーマについて科学的な理論やモデルを組み立て、仮説を設定するためのデータを収集することが主目的であり、スクリーニングや予備実験がこれに相当する。 ただし探索型研究の計画を立案する段階で、ある程度の理論と定性的な仮説を想定しておく。 そして検証型研究で用いる評価項目や評価指標、そしてその要約値(代表値)を選択するために、なるべく多くの候補項目を観測するようにする。 データを要約するには記述統計学的手法を用いる。 この段階で得られる客観的事実は主として定性的であり、それを科学的に解釈し評価する。 理論構築・仮説設定 探索型研究で得られた結果に基づいて、科学的な理論やモデルを組み立て、それから導かれる定量的な仮説を設定する。 仮説は、理論やモデルの正当性や妥当性を評価することができるようなものにする。 実験・試験 実験・試験等の検証型研究を企画・立案・実施し、結果を科学的に解釈し評価する。 検証型研究は、仮説を検証し、理論の正当性や妥当性を評価することが主目的であり、確認試験や本実験がこれに相当する。 検証型研究の計画を立案する段階で、仮説を検証するための評価項目や評価指標、そしてその要約値と統計手法、有意水準、信頼係数等を決定し、必要例数を計算しておく。 データを要約するには推測統計学的手法を用いる。 この段階で得られる客観的的事実は主として定量的であり、それを科学的に解釈し評価する。 理論・仮説の確認・修正 検証型研究で得られた結果に基づいて、仮説を確認または修正し、科学的な理論を確認または修正する。 これにより新たな問題提起や理論の修正をするなどして、適当な研究段階にフィードバックする。 W型解決法は、科学研究だけでなく色々な方面に応用することができます。 例えば、これを仕事に応用するとPDCA(Plan、Do、Check、Action)などのマネジメント・サイクルを詳細化したものになり、それにマクレガーのY理論を組み合わせたものが近代的な業務管理手法の代表的なものである──なんてぇことは、僕には興味が全く持てません。 OJTやOffJTなんて、クソくらえっ!凸(-"-) > 会社の人事部
……つい私情に走ってしまい、失礼しました。 科学的研究における統計学の役目は、模式図に示したようにデータの数学的な要約をすることです。 その際、W型の左側にある調査や観察で得られたデータには主に記述統計学を適用し、右側にある実験や試験で得られたデータには主に推測統計学を適用します。
統計学盲信と検定偏重主義の風潮から、研究現場では往々にして何でもかんでも検定をし、検定をしていないと文句をつけられるというおかしな傾向があります。 これは、実際の研究では、ひとつの試験で探索型研究と検証型研究の両方を同時に行ってしまうことにも起因しているようです。 特に医学分野や薬学分野の研究では、試験を実施するのに非常に手間と費用がかかるため、ひとつの試験に検証的なテーマと探索的なテーマの両方を盛り込むことが多くなります。 つまり、行きがけの駄賃に調べられるものは何でもかんでも調べてやろう、そしてせっかく調べたのだから、検定ぐらいはやっておかないと格好がつかないというわけです。
検定は、標本集団のデータから母集団の様子を推測して、仮説を検証するための手法です。 仮説を設定しない検定には何の意味もありませんし、厳密に計画された試験でなければ、検定を正しく適用することはできません。 厳密に計画されていない試験に検定を適用すると、間違った結論を導いてしまう危険性さえあります。
このため、明確な仮説を設定せず、厳密な計画を立てない探索型の調査や観測には、本来は検定を適用する必要はありません。 そして探索型研究と検証型研究を兼ねた試験では、検証的なテーマには検定を適用してもかまいませんが、行きがけの駄賃で調べた探索的なテーマにまで検定を適用する必要はありませんし、無闇に適用すべきではありません。
もちろん、探索型の調査や観測も、それなりにきちんとした計画を立てて実施します。 しかし、これらの研究の主目的は仮説や理論を組み立てるためのデータを集めることなので、あまり厳密な計画を立てず、臨機応変に計画を変更して、できるだけ幅広くデータを集めるようにします。
それに対して検証型の試験や実験は、仮説を検証するのに必要な条件を満足するように、実験計画法に基づいて厳密に計画し、それに従ってできるだけ厳格に実施します。 例えば探索型の調査や観測は、原則としてどのような例数を目標にして実施してもかまいません。 しかし検証型の試験や実験は、仮説を検証するのに必要な例数を数学的に算出し、それだけの例数を確保できるような計画を立ててから実施する必要があります。 (注1)
また多変量解析を利用して、ある値を推測するための予測式や、ある疾患の診断を行う診断ツールを作成することがあります。 その場合、W型解決法にしたがって、まずは探索型試験で集めたデータに基づいて予測式を組み立てます。 その後で、その予測式の妥当性を検証できるようなデータ内容を検討し、そのデータを集めるための計画を立てます。 そして、その計画に基づいて検証型試験を実施し、集めたデータに予測式を適用して妥当性を評価・検証します。
ところが医学分野や薬学分野では、往々にしてこれらの手順を一回の試験で済ませてしまうことがあります。 その場合、探索型研究で集めたデータを無作為に2つの群に分け、一方の群を予測式の作成用データとし、もう一方の群を検証用データとします。 そして作成用データに基づいて予測式を作成し、それを検証用データに適用して妥当性を評価・検証してしまうのです。
この方法は、見かけ上はW型解決法にしたがっているため、もっともらしい方法のように思えます。 しかし、この方法には致命的な欠点があります。 それは、検証用のデータが必ずしも予測式の妥当性を評価・検証するような内容ではないということです。
例えば予測式を作成した段階で年齢が重要な要因らしいということがわかれば、検証用のデータは、年齢層が偏らないようにできるだけ満遍なく、しかもできるだけ幅広く集めるようにします。 すなわち図1.19において、黒い実線で描いた楕円が予測式作成用データの範囲だとすれば、検証用データは赤い破線で描いた楕円の範囲をカバーする必要があります。
ところがこの方法の検証用データの年齢層は、原理的に予測式作成用データと同じであり、黒い楕円の範囲より外には出ないはずです。 これでは、作成した予測式が幅広い年齢層に適用可能かどうかを検証することができません。 つまりこの方法では作成した予測式が外挿可能かどうか、普遍性があるかどうかを評価・検証することができないのです。
この方法の検証用データに予測式を適用して結果が予想通りだった時は、予測式の妥当性を検証したわけではなく、単にデータをうまく均等な2つの群に分けたことを確認したにすぎません。 2つの群のデータ内容がほぼ同じならば、一方で作成した予測式がもう一方にもほぼ適用可能なはずですし、その予測式は、結局のところ、2群を合わせて全データを使用して作成した予測式とほぼ一致するはずです。 これでは、予測式の検証になるはずがありません。
実は、この方法をもう少し洗練した手法が「交差検証法(cross validation method)」として定式化されています。 しかしこの手法は、予測式がどの程度的中するかという確率を求めるためのものであり、予測式の外挿可能性や普遍性を検証するためのものではありません。
これらの手法はちょうどコップの中で嵐を起こしているようなもので、どんなにものすごい嵐でも、それがコップの外の世界にまで影響することはありません。 つまり探索型研究で集めたデータを用いる限り、どのような方法で予測式の妥当性を評価しても、その予測式がデータの範囲外まで外挿可能であり、普遍性があることを検証することはできないのです。 検証用のデータは、あくまでも予測式の妥当性を評価・検証できるように、計画的に集めたものでなければなりません。
(2) 科学的研究の種類 科学的研究法の種類については各種の定義があり、色々な分類をされています。 一般的な科学研究の種類について、統計学との関連で分類すると次のようになります。
!doctype>