メインコンテンツにスキップ
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

統計テストの前提事項と技術的詳細


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQでは、統計テストを直感的でエラーのないものにすることを目的として、統計検定が選択されます。

このページでは、Stats iQのアプローチの全体的なテーマと、特定のテストに関する特定の決定事項について説明します。

基本的な前提事項

Stats iQでは、可能な限り、前提を少なくしてテストするようにデフォルトで設定されています。たとえば、独立サンプル t 検定は、等サイズのサンプルまたは差異が想定されているかどうかに応じて、複数の方法で計算することができます。Stats iQは最小限の前提でテストを実行します。

さらに、Stats iQは統計的テストの前提の違反をインテリジェントに軽減します。たとえば、比較的小さいサンプルでの t 検定では、正規に分散されたデータが正確である必要がある。異常値または非正規分布は、誤解を招く結果をもたらします。のすべてのデータポイント

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

はすべての内のどのデータポイントよりも小さくなっています

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

しかし、これらのグループの独立サンプル t 検定は、外れ値 2000 が t 検定仮定に違反するため、統計的に有意な差をもたらしません。Stats iQは外れ値を認識し、代わりにランク付けされたt検定を推奨します。これにより、グループ間の差異が非常に明確になります。

ランク変換

Stats iQは、パラメータテストの条件の違反が検出された場合に、非パラメータテストの実行にrank トランスフォームメソッドを頻繁に使用します。Stats iQの順位変換では、値がランク順に置き換えられます(例)

[86, 95, 40] は [2, 3, 1] に変換されます。

– 次に、変換されたデータに対して一般的なパラメータテストを実行します。結び付けられた値には、結び付けられた値の平均ランクが与えられるため、

[11, 35, 35, 52] は [1, 2.5, 2.5, 4] になります。

ピアソン相関とスピアマン相関の違いで最も一般的に見られるのは、ランク変換テストは非正規分布や異常値に対して頑健であり、概念的にはやや一般的な非パラメトリックテストを使用するよりも単純である。

ANOVA

ユーザーが3つ以上のグループを含む1つのカテゴリ変数と1つの連続変数または離散変数を選択すると、Stats iQは一方向ANOVA(WelchのFテスト)と一連のペアワイズの「ポストアドホック」テスト(Games-Howellテスト)を実行します。一方通行のANOVAは2つの変数間の全体的な関係をテストし、ペアワイズテストはグループの可能な各ペアをテストして、一方のグループがもう一方よりも高い値を持つ傾向があるかどうかを調べる。

Welch の F テスト ANOVA の前提事項

Stats iQでは、データに関する複数の仮定がある場合、順位に基づかないWelchのFテストを推奨します。

  • サンプルサイズは、計算におけるグループの数の 10 倍以上であり (値が 1 つしかないグループは除外されます)、したがって、中央限度定理は正規分布データの要件を満たします。
  • 連続/離散データに外れ値がほとんどないか、またはまったくありません。

少し一般的な等差の F 検定とは異なり、Welch の F 検定では、比較されるグループの差異が等しいとは見なされません。等分散によって結果が低くなるのは、差異が実際には等しくなく、その結果が実際に等しい場合に非常に似ていると仮定します (Tomarken と Serlin, 1986)。

順位に基づいたANOVA

想定に違反した場合、順位に基づかない ANOVA は有効でなくなる可能性があります。その場合、Stats iQはランク付けされたANOVA(「ランク上のANOVA」とも呼ばれます)を推奨します。Stats iQは、データを変換し(値をランク順に置き換えます)、その変換されたデータに対して同じANOVAを実行します。

ランク付けされたANOVAは、外れ値と正規分布でないデータに強調です。ランク変換は、仮定違反から保護するための確立された方法(「非パラメータ型」方式)であり、ピアソン相関関係とスピアマンの相関関係の違いで最もよく見られる。ランク変換はWelchのFテストとKruskal-Wallis Test (Zimmerman, 2012)と同様である。

Stats iQの順位と順位に基づかないANOVA効果サイズ(Cohen’s f)は、F 検定の F 値を使用して等しい差異を計算します。

Games-Howell ペアワイズテストの前提事項

Stats iQは、ANOVAテストの結果に関係なく、Games-Howellテストを実行します(2010年Zimmermanによると)。Stats iQでは、順位付けされたANOVAとランク付けされていないANOVAに使用された条件と同じ基準に基づいて、順位付けされていないテストまたはランク付けされたGames-Howellペアワイズテストが表示されます。そのため、高度な出力に「ランク付けされたANOVA」が表示されている場合は、ペアワイズテストもランク付けされます。

Games-Howell は基本的に、不等差の t 検定であり、多くのペアワイズテストを実行するときに統計的に有意な結果が偶然見つかる可能性が高くなることを説明しています。やや一般的なTukeyのb検定とは異なり、Games-Howellテストでは、比較されるグループの分散が等しいとは想定されない。等差を仮定すると、差異が等しくなく、差異が実際に等しいと結果が非常に類似している場合、結果の精度は低くなります (Howell, 2012)。

順位付けされていないペアワイズ検定では、2つのグループの方法の等価性がテストされますが、順位付けされたペアワイズ検定では、グループの意味や中央値間の差異を明示的にテストすることはありません。むしろ、あるグループがもう片方よりも大きな値を持つという一般的な傾向がテストされる。

また、Stats iQでは4値未満のグループのペアワイズテストの結果は表示されませんが、それらのグループはその他のペアワイズテストの自由度の計算に含まれます。

ANOVAの追加の考慮事項

  1. サンプルサイズが小さい場合でも、データを視覚的に検査して、実際に正規分布であるかどうかを判断できます。正規分布である場合、順位に基づかない t 検定の結果は小さいサンプルでも有効です。実際には、このアセスメントは難しい場合があるため、Stats iQではデフォルトで小さいサンプルに対してランク付けされたt検定を推奨しています。
  2. サンプルサイズが大きい場合、外れ値は結果に悪影響を及ぼす可能性が低くなります。Stats iQでは、Tukeyの「外部フェンス」を使用して、25パーセンタイル点を上回るか25パーセンタイルポイントを下回る四分位範囲に3倍を超えるポイントとして外れ値を定義します。
  3. マラソンの完了済み教育の最高レベルや終了順序などのデータは、明確な序数です。リッカート尺度(1が非常に不満足、7が非常に満足)が序数であるが、社会科学では連続的(つまり順位に基づかないt検定)として扱われるのが一般的である。

Stats iQ偶発事象テーブル

ユーザーが2つのカテゴリ変数を選択すると、Stats iQはそれら2つの変数が統計的に関連しているかどうかを評価します。Stats iQは、可能な場合はFisherの正確なテストを実行し、それ以外の場合はピアソンのカイ二乗検定を実行します(通常は「カイ二乗」と呼ばれます)。

カイ二乗vs. フィッシャーの正確な検定

フィッシャーの正確な検定は、実行できるときはいつでも偏らないが、テーブルが 2 x 2 より大きいか、サンプルサイズが 10,000 より大きい場合(現代のコンピューティングでも)、実行は計算的に困難である。カイ二乗検定は、サンプルサイズが小さい場合(技術的には、予想されるセル数が 5 を下回る場合)に偏った結果になる可能性があります。

幸い、この 2 つのテストは、フィッシャーの正確な検定は、通常、カイ二乗検定が偏る(小さなサンプル)場合に計算しやすく、フィッシャーの正確な検定が計算しにくい場合、カイ二乗は偏りがない傾向にあります(大きなサンプル)。小さなサンプルを含む大きなテーブルほど問題が生じる可能性があります(Stats iQではFisherの正確なテストを実行できません)。Stats iQは、潜在的な複雑さについてユーザーに警告します。

調整済残差

Stats iQは、他の統計ソフトウェアと同様に、調整された残差を使用して、個々のセルが統計的に予想を大幅に上回っているか、下回っているかを評価します。基本的に、調整後の残差は「このセルには、これら 2 つの変数の間に関係がないと予想するよりも多くの値がありますか」という質問が出されます。

各列の合計が 100% になるようなデータを表示している場合は、「他の業種の回答者と比較して、「自分の仕事を愛している」と回答した金融/銀行の回答者の割合は、通常よりも低くなっています」と言えます。

Stats iQでは、調整された残差から計算されたP値に応じて、最大3個の矢印が表示されます。Stats iQでは、結果の重要度に応じて異なる数の矢印が表示されます。具体的には、p 値がアルファ (1 – 信頼水準) より小さい場合は 1 つの矢印、p 値がアルファ/5 未満の場合は 2 つの矢印、p 値がアルファ/50 未満の場合は 3 つの矢印が表示されます。たとえば、信頼水準が 95% に設定されている場合:

  • p-value <= .05: 1 つの矢印
  • p-value <= .01: 2 つの矢印
  • p-value <= .001: 3 つの矢印

調整された残余の計算、および特定のアルファレベルとの比較には、”z-test” または “z-test for a sample percentage” というラベルを付けることができます。文学は一般に、結論は調整された残差に基づいていたと単純に言っている。

信頼区間

Stats iQは、偶発事象表やCategory Describe棒チャートを含むすべての二項信頼区間について、Wilson Score Intervalを使用して信頼区間を計算します。

Stats iQの相関

ユーザーが2つの連続変数または離散変数を選択すると、Stats iQは相関関係を実行して、これら 2 つのグループが統計的に関連しているかどうかを評価します。Stats iQのデフォルトは、最も一般的な相関関係タイプであるPearsonのrを計算することです。このテストの前提が満たされない場合、Stats iQはSpearmanのrhoを計算して、同じテストのランク付けされたバージョンを推奨します。さらに、Stats iQはFisher変換を使用して相関係数の信頼区間を計算します。

ピアソンの R の前提事項

Stats iQでは、データに関する特定の仮定が満たされた場合、有効な相関関係指標としてピアソンのrを推奨します。

  • 連続/離散データに外れ値がありません。
  • 変数間の関係は線形です(例:y = 2x, not y = x^2)。

Stats iQは、これらの想定違反を検出した場合、最適な線を表示しません。

ランク付けされた相関関係(スピアマンズ・リョ)

仮定に違反した場合、ピアソンの r は有効な相関測度ではなくなることがある。その場合、Stats iQはSpearmanのrhoを推奨しています。Stats iQはデータを変換し(値をランク順に置き換えます)、通常の相関関係を実行します。ランク変換は仮定違反から守るための確立された手法であり(「非パラメトリック方式」方式)、ピアソンからスピアマンへのランク変換が最も一般的である (Conover and Iman, 1981)。なお、スピアマンのリョウは、やはり変数間の関係は単調であると仮定している。

相関関係に関するその他の考慮事項

  1. サンプルサイズが大きい場合、外れ値は結果に悪影響を及ぼす可能性が低くなります。Stats iQでは、Tukeyの「外部フェンス」を使用して、25パーセンタイル点を上回るか25パーセンタイルポイントを下回る四分位範囲に3倍を超えるポイントとして外れ値を定義します。
  2. Stats iQは、Spearman’s rho > 1.1 * ピアソンの r と Spearman’s rho が統計的に有意である場合、関係を非線形として識別します。
  3. リッカート尺度(1 が「非常に不満」、「7」が「非常に満足」の 1~7 尺度)は技術的な序数ですが、社会科学では連続的であるかのように扱うのが一般的です(つまり、ピアソンの r を使用します)。

Stats iQtテスト

ユーザーがバイナリ変数を連続変数または離散変数に関連付ける場合、Stats iQは、連続変数/離散変数のどちらかの値が他よりも高い傾向があるかどうかを評価するために、2尾のt検定を実行します(クアルトリクスの統計テストはすべて2テールです)。Stats iQのデフォルトは、Welchのt検定です。不等分散のt検定とも呼ばれます。このテストの仮定が満たされない場合、Stats iQは同じテストの順位付けバージョンを推奨します。

ウェルチの T 検定の前提

Stats iQでは、データに関するいくつかの仮定がある場合、Welchのt検定(以下「t検定」)を推奨します。

  • 各群の標本サイズは 15 以上である(したがって、中央極限定理は正規分布データの要件を満たす)。
  • 連続/離散データに外れ値がほとんどないか、またはまったくありません。

等差のやや一般的なt検定とは異なり、ウェルチのt検定では、比較される2つのグループの差異は等しいとはみなされない。現代のコンピューティングは、その仮定を不要にした。さらに、差異が等しくなく、実際に差異が等しいと結果が正確でなくなると、均等差異が結果の精度を低下させると仮定します (Ruxton, 2006)。

順位に基づいたt検定

仮定に違反した場合、t 検定は有効でなくなる可能性があります。その場合、Stats iQはランク付けされたt検定を推奨します。Stats iQランクは、データを変換し(値をランク順に置き換えます)、変換したデータに対して同じWelchのtテストを実行します。ランク付けされたt検定は、外れ値と正規分布でないデータに強固です。ランク変換は、仮定違反から保護するための確立された方法 (非パラメータ方式) であり、ピアソン相関と Spearman 相関関係の違いで最もよく見られます (Conover and Iman, 1981)。ランク変換後のWelchのt検定は、実質的にはMann-Whitney Uテストと同様であるが、やや効率的である(Ruxton, 2006; Zimmerman, 2012)。

t検定は、2つのグループの手段の等価性をテストするが、ランク付けされたt検定は、グループ間の差異を明示的には意味または中央値をテストしない。むしろ、あるグループがもう片方よりも大きな値を持つという一般的な傾向がテストされる。

t検定に関するその他の考慮事項

  1. サンプルサイズが 15 未満の場合でも、データを視覚的に検査して、正規分布であるかどうかを判断することができます。正規分布である場合、順位に基づかない t 検定の結果は小さいサンプルでも有効です。実際には、このアセスメントは難しい場合があるため、Stats iQではデフォルトで小さいサンプルに対してランク付けされたt検定を推奨しています。
  2. サンプルサイズが大きい場合、外れ値は結果に悪影響を及ぼす可能性が低くなります。Stats iQでは、Tukeyの「外部フェンス」を使用して、25パーセンタイル点を上回るか25パーセンタイルポイントを下回る四分位範囲に3倍を超えるポイントとして外れ値を定義します。
  3. 「完了した教育の最高レベル」や「マラソンでの順序の終結」などのデータは、明確に順序付けされます。リッカート尺度(1が非常に不満足、7が非常に満足)が序数であるが、社会科学では連続的(つまり順位に基づかないt検定)として扱われるのが一般的である。

回帰分析

Stats iQでは、主に2つのタイプの回帰実行があります。出力変数が数値変数である場合、Stats iQは線形回帰を実行します。出力変数がカテゴリ変数の場合、Stats iQはロジスティック回帰を実行します。線形回帰のデフォルト出力は、相対的重要性 (特に、Johnson の相対的な重み) と通常の最小二乗の組み合わせです。Stats iQは「最小二乗の普通」回帰を実行するとき、「M推定」と呼ばれるバリエーションを使用します。これは、外れ値の効果を抑制し、より正確な結果を得るための最新手法です。

詳細については、「回帰および相対的重要性」を参照してください。

FAQ

当サポートサイトの日本語のコンテンツは英語原文より機械翻訳されており、補助的な参照を目的としています。機械翻訳の精度は十分な注意を払っていますが、もし、英語・日本語翻訳が異なる場合は英語版が正となります。英語原文と機械翻訳の間に矛盾があっても、法的拘束力はありません。