なぜなら、「100mSv以下の被ばくにより健康影響があるか」を評価するための最も重要なデータとされる広島・長崎の原爆被爆生存者寿命調査データ(LSSデータ)を統計的に分析した最新の報告(2012年のいわゆるLSS14報)に対しても統計手法をめぐる不正があるのではないか、という疑いがあるからです。
原告は、準備書面(67)で、2015年9月の雑誌「科学」に掲載された濱岡豊慶応大学教授の「広島・長崎被爆者データの再分析」という論文(濱岡論文〔※〕)に基づいて、LSS14報に対する「統計手法の不正」くを明らかにしたものです。
〔※〕この論文とほぼ同一内容の論文-->こちら
〔※〕この論文とほぼ同一内容の論文-->こちら
濱岡論文にはLSS14報の固形がんの分析に対して、10以上の問題点が指摘されていますが(878頁表3)、上記準備書面では次の2つの問題点を指摘した。
①.モデル選択の未完成(未遂)
現代統計学においては、観測データに対して、候補にあがった様々なモデルのうち最もあてはまりのよいモデルを選択するという「モデル選択」が決定的に重要な問題であり、LSS14報も過剰相対リスクを推定するために、線量-応答関数のモデルの候補をを6つ取り上げ、これらの6つのうちどれが最良のモデルかを選択する「モデル選択」に着手しました。ところが、どうした訳か(その訳はこのあと明らかにされる!)、最良のモデルが何かを最後まで選択せず、その作業を途中でほおり投げてしまった。にもかかわらず、モデル選択が未完成のまま、この研究をLSS14報として公表してしまった。
そのため、LSS14報の概要では2つのモデルが断片的に記述され、その記述の解釈をめぐり﨑山比早子氏の意見書9頁(->全文)とこれを真っ向から否定する国側の17名連名意見書7~8頁(->全文)の対立が発生し、LSS14報の筆頭著者の小笹晃太郎氏は専門家会議に呼ばれ、証言し、それが国側の17名連名意見書の最も有力なお墨付きとされています(専門家会議での小笹証言-->こちら)。
しかし、この紛糾の原因はもとはと言えば、LSS14報がモデル選択を最後まで完遂せず、途中でほおり投げた(にもかかわらず、あたかも最後まで遂行したような振りをして公表した)という、統計の専門者としておよそ考えられない異常な手法をとったことにあります。
そこで、我々が何をなすべきかは明快です。LSS14データの「モデル選択」を最後まで完遂することです。
それを実際にやってのけたのが濱岡論文です。
それは、1970年初頭に提唱され、今日、モデル選択の規準として通説的地位を占める赤池情報量規準(AIC)に従って再分析を行った最もオーソドックスなものです。
それによると、結論として「100mSv以下の被ばくにより健康影響がある」とする閾値なしの線形モデル(いわゆるLNTモデル)が最良のモデルであることが導かれました。これがLSS14データの正しい再分析により得られる最も重要な帰結なのです。
②. 層別集計による情報損失
一般に、集めた標本データをそのまま利用せず、いくつかのカテゴリに分類、各カテゴリの中央値でもって統計処理を行うと、元の標本データが有していた情報が失われてしまう、いわゆる「層別集計による情報損失」という問題があります。これについて、最大の問題はこの情報損失が正しい統計的推測にとってどのような影響を及ぼすかです。
結論を述べると、仮説検定において、本来なら仮説が棄却されるべきものが、この情報損失のために、棄却できずに生き残ってしまう、つまり正しい検定ができなくなる可能性があることです。
これは統計的推測にとって極めて由々しい事態です。
LSS14報の場合でいうと、低線量被曝の健康影響を評価する上で、LSS14データをそのまま利用すれば得られるはずの統計的推測(影響があると推測できるの)が、カテゴリに分類したため、情報損失を招き、この得られるはずの統計的推測が得られなくなる可能性があることです。
コンピュータのパワーが低いかつての時代ならともかく、そのような制約が存在しない現代において、個人レベルデータを用いた統計分析を行わないのは「統計不正」ではないかと疑われても仕方がありません。
***************
原告 原告1-1ほか
被告 国ほか
準備書面(67)
――LSS14報の統計不正問題、その再検証により最良と判明
したLNTモデル及びその限界――
2019年 2月 8日
福島地方裁判所民事部 御中
原告ら訴訟代理人 柳 原 敏 夫
ほか18名
目 次
1、問題の所在
はじめに
本書面は以下の4点について述べる。
第1、100mSv問題[1]をめぐる統計不正[2]と再検証による最良モデルの判明。
LSS[3]最新データ(以下、LSS14データという)を統計分析したLSS14報(甲B71)は統計解析の手法をめぐって統計不正が疑われており、不正を除去し適正に再分析すればLNTモデル[4]が最良のモデルであることが導かれる、つまり正しい再検証により100mSv問題は決着がついていること。
第2、LNTモデル批判に対する反論。
「LNTモデルは仮説にすぎない」という被告国の批判は現代の科学哲学の常識に照らし、的外れの批判にすぎないこと。
第3、LNTモデルの限界。
もともと放射線被ばくによる健康影響の原因には人体の外部からの被ばく(外部被ばく)と人体内部における被ばく(内部被ばく)の2つの類型がある。LNTモデルではたとえ低線量被ばくによる影響を解明し得たとしても、あくまでも外部被ばくによる影響にとどまる。LNTモデルはもう一方の内部被ばくによる影響の解明まで及ばないこと。
第4、内部被ばくによる健康影響の統計的解明
LNTモデルの意義と限界を踏まえた上で、内部被ばくによる健康影響について統計的に明らかにした優れた業績がこれまでに公表されており、これらの統計的分析によれば、放射線被ばくによる健康被害の主たる要因は内部被ばくによるものであること、つまり内部被ばくの問題こそ放射線被ばくによる健康影響の最重要論点であることが明らかにされていること。
第1、100mSv問題[1]をめぐる統計不正[2]と再検証による最良モデルの判明。
LSS[3]最新データ(以下、LSS14データという)を統計分析したLSS14報(甲B71)は統計解析の手法をめぐって統計不正が疑われており、不正を除去し適正に再分析すればLNTモデル[4]が最良のモデルであることが導かれる、つまり正しい再検証により100mSv問題は決着がついていること。
第2、LNTモデル批判に対する反論。
「LNTモデルは仮説にすぎない」という被告国の批判は現代の科学哲学の常識に照らし、的外れの批判にすぎないこと。
第3、LNTモデルの限界。
もともと放射線被ばくによる健康影響の原因には人体の外部からの被ばく(外部被ばく)と人体内部における被ばく(内部被ばく)の2つの類型がある。LNTモデルではたとえ低線量被ばくによる影響を解明し得たとしても、あくまでも外部被ばくによる影響にとどまる。LNTモデルはもう一方の内部被ばくによる影響の解明まで及ばないこと。
第4、内部被ばくによる健康影響の統計的解明
LNTモデルの意義と限界を踏まえた上で、内部被ばくによる健康影響について統計的に明らかにした優れた業績がこれまでに公表されており、これらの統計的分析によれば、放射線被ばくによる健康被害の主たる要因は内部被ばくによるものであること、つまり内部被ばくの問題こそ放射線被ばくによる健康影響の最重要論点であることが明らかにされていること。
広島・長崎の原爆被爆生存者寿命調査データ(LSSデータ)は、放射線被ばくによる健康影響評価のための最も重要なデータとされている。それゆえ、「100mSv以下の被ばくによる健康影響はあるか」と問ういわゆる100mSv問題を解明する上でもLSSデータが最も有力なデータである。ところが、昨今、国政を揺るがす「統計不正」問題の例に漏れず、その最新データ(以下、LSS14データという)を統計解析した2012年のReport14(LSS14報〔甲B71〕)に対しても「統計不正」があるのではないか、その結果、LSS14報のアブストラクト(概要。〔甲B43の4〕)の記述も不明確とならざるを得ず、紛糾をもたらす結果となったのではないか、という問題が存在する。
LSS14報の統計方法には「統計不正」と疑われても仕方ない複数の重大な問題があり、それを是正した方法でLSS14データを再分析すれば、「100mSv以下の被ばくにより健康影響がある」とするいわゆるLNTモデルが最良のモデルであることが導かれる。
3、理由
LSS14報には、以下に詳述する通り、少なくとも①「モデル選択」の未完及び②「層別集計」による情報損失という2つの重大な「統計不正」の問題が存在する。(1)、「モデル選択」の未完問題
ア、現代統計学の基本問題である「モデル選択」
現代の統計学である統計的推測[5]の目的は、観測されたデータ(標本)に基づいて、母集団の特性(傾向)を推測することである。そのため、観測データに対して、候補にあがった様々なモデルのうち最もあてはまりのよいモデルを選択するというモデル選択が決定的に重要な問題になることは現代統計学の基本問題としてつとに知られている(甲B145放送大学テキスト「改訂版統計学」10頁以下参照)。
「モデル選択」が決定的に重要な問題であることは、例えば、LSSデータに対し閾値なしの線形モデルを選択するのか、それとも閾値ありの線形モデルかを選択するかは、低線量被ばくによる健康影響の有無をめぐって統計的推測の結果が正反対になるからである。つまりモデルの選択次第で、統計的推測の結果はいかようにも変わってしまう。
「モデル選択」が決定的に重要な問題であることは、例えば、LSSデータに対し閾値なしの線形モデルを選択するのか、それとも閾値ありの線形モデルかを選択するかは、低線量被ばくによる健康影響の有無をめぐって統計的推測の結果が正反対になるからである。つまりモデルの選択次第で、統計的推測の結果はいかようにも変わってしまう。
そこで、いかなる規準でもって「モデル選択」を行うのがよいかが、ここでの問題となる。
イ、「モデル選択」規準の通説であるAIC
この「モデル選択」規準の問題に対して、重要な貢献をしたのがLSS14報の概要(甲B43の4)11頁にも登場する赤池情報量規準(以下、AICでという)である。AICとは赤池弘次博士が「1970年初頭、汎用性と情報数理的な裏付けをもった、画期的にして実用性の高いモデル選択の規準としてAICを提唱し、データの世界とモデルの世界を結びつける画期的な新しいパラダイムを打ち立てることに成功した」世界標準の規準だからである(甲B146「赤池情報量規準AIC」はじめに。甲B146放送大学テキスト「改訂版統計学」12頁)。AICが「モデル選択」規準として通説的地位を獲得した理由の1つが、統計学のモデルを選択する目的を、現在のデータをできるだけ忠実に記述したり「真の分布」を推定することよりも、将来得られるデータをできるだけ精確に予測することにある(予測の視点)として捉え、この予測の視点を実現する規準を打ち立てたことにある(甲B147小西貞則ほか「情報量規準」1統計モデリングの考え方1頁以下)。
そして、この「予測の視点」を実現したAICは、驚くべきことに次の単純な式で表され、この式の値が小さいほどモデルのあてはまりがよいとされる。
AIC=-2LL+2k
そして、この「予測の視点」を実現したAICは、驚くべきことに次の単純な式で表され、この式の値が小さいほどモデルのあてはまりがよいとされる。
AIC=-2LL+2k
ここで、LLは対数尤度、kはモデルの未知パラメーターの数
上記の式の1項目(-2LL)はモデルのあてはまりの悪さを表し、2項目(2k)はモデルに含まれる未知のパラメーターの数に関する項であり、未知パラメーターの数が多いほどあてはまりの悪さを表す。すなわち、より未知パラメーターの少ないシンプルなモデルを選択するという「節約の原理」[6]に基づくものであることを示す。換言すれば「節約の原理」はAICを支える基本理念である(以上、甲B125濱岡豊「広島・長崎被爆者データの再分析」〔以下、濱岡論文という〕877頁左段参照)。
従って、低線量被ばくによる健康影響の有無という現在解明中の問題について、できるだけ精確に予測をすることが重要なテーマであるLSSデータの統計的解析において、「予測の視点」に立って最良のモデル選択をするAICを「モデル選択」の規準として採用することは言うまでもない。
ウ、LSS14報のモデル選択
この点、LSS14報でも、過剰相対リスク[7](ERR)を推定するために、線量-応答関数のモデルが問題となり、これについて以下の表の通り、6つのモデルが候補にあがり、これらのうちどれが最良のモデルかを選択する「モデル選択」の問題に直面した。ところが、LSS14報はこのモデル選択に着手しながら、どうした訳か、最良のモデルが何かを最後まで選択しなかった(その具体的な内容については別紙1の「LSS14報のモデル選択」第1参照)。なおかつ、不可解極まりないことに、モデル選択の作業を途中でほうり出したまま、この未完成の統計的推測をLSS14報として公表した(甲B71)。当然のこと、この「モデル選択」未完はLSS14報のアブストラクト(概要。甲B43の4)にも反映し、そこにはモデル選択されなかった2つのモデル(LNTモデルと手動線形スプラインモデル)が断片的に記述され、そのため、この記述の解釈をめぐり﨑山比早子氏の意見書(乙B7)12頁とこれを否定する17名連名意見書(乙B6)8頁イ及びLSS14報筆頭著者小笹晃太郎氏の「東京電力福島第一原子力発電所事故に伴う住民の健康管理のあり方に関する専門家会議」におけるしどろもどろの証言(乙B13)等いわゆるLSS14報解釈をめぐる事態紛糾をもたらした。しかし、この紛糾の原因はもとはと言えば、LSS14報がモデル選択を最後まで完遂せず、途中でほおり投げたことにある。我が国の放射線による健康影響のリスク評価に最も影響を及ぼす最重要データであるLSSデータに対するこうした「モデル選択」未遂というズサン極まりない統計解析は統計学者としておよそ考えられない異常な事態である。
(甲B125濱岡論文876頁)
(甲B125濱岡論文876頁)
エ、LSSデータの再分析(「モデル選択」の再実施)
そこで、「モデル選択」未遂事件を起こしたLSS14報に代わって、LSS14データの「モデル選択」を最後まで実施する必要がある。この「モデル選択」を再実施したのが、前述の濱岡論文(甲B125)884頁である。その再分析の具体的内容は別紙1第2に譲るとして、結論は以下の通りである。
《AIC、 BICに基づきモデル選択した結果、LNTもしくは閾値1mSv 、5mSv、20mSvのモデルのあてはまりが同等となった。‥‥「節約の原理」に基づけば、LNTを選択することが妥当である》(甲B125濱岡論文冒頭の要約。本文884頁参照)
すなわち、AICを支える基本理念である「節約の原理」に基づけば、「0~5mSvでERR=0」という仮定(制約)を設定している手動閾値モデルより、このような仮定(制約)を設定していないLNTモデルのほうがシンプルであり、優れている。
そして、濱岡論文によれば、LSS14報のアブストラクトの意味不明の原因もモデル選択を最後までやらず途中でやめてしまったことにある。「モデル選択」が未完のためアブストラクトでは、線形モデルに関する記述と手動線形スプラインモデルに関する記述が混在したまま記載され、読む者にとってどちらのモデルで理解したらよいか分からないからである。
オ、小括
以上から、LSS14データに正しく最後まで「モデル選択」を実施すれば、LNTモデルが最もあてはまりのよいモデルであると判明しており、低線量被ばくによる健康影響、いわゆる100mSv問題にとって最も重要なLSS14データについては統計学上、LNTモデルで基本的に決着がついている。
(2)、「層別集計」による情報損失問題
ア、層別集計による情報損失の発生
一般に、集めた標本データをそのまま統計的推測に利用せず、いくつかのカテゴリーに分類し(層別集計)、各カテゴリーの中央値でもって統計的推測を行うと、元の標本データが有していた情報が失われてしまう(これを「層別集計による情報損失」という)。
例えば、標本データが1から10までの10個の整数とすると、この標本データのばらつき具合を表す指標=「分散[8]」を以下のように計算すると9.17となる。 しかし、この標本データを1~2、3~4、‥‥と5つのカテゴリに分類し、1.5、3.5、‥‥9.5と各カテゴリーの中央値に置き換えると、「分散」の値は8.89に減少する。 さらに、この標本デーを1~5、6~10と2つのカテゴリに分類し、3と8と各カテゴリーの中央値に置き換えると、「分散」の値はさらに6.94に減少する。 つまり、カテゴリの区間を大きく取れば取るほど、標本データのばらつき具合が減少し、元のばらつき具合の情報が失われる(甲B125濱岡論文877右段~878頁左段参照)。
例えば、標本データが1から10までの10個の整数とすると、この標本データのばらつき具合を表す指標=「分散[8]」を以下のように計算すると9.17となる。 しかし、この標本データを1~2、3~4、‥‥と5つのカテゴリに分類し、1.5、3.5、‥‥9.5と各カテゴリーの中央値に置き換えると、「分散」の値は8.89に減少する。 さらに、この標本デーを1~5、6~10と2つのカテゴリに分類し、3と8と各カテゴリーの中央値に置き換えると、「分散」の値はさらに6.94に減少する。 つまり、カテゴリの区間を大きく取れば取るほど、標本データのばらつき具合が減少し、元のばらつき具合の情報が失われる(甲B125濱岡論文877右段~878頁左段参照)。
不偏分散は、個々のデータの値と平均値の差を二乗した合計をデータの総数-1で割ったものであるから、ここでは次の計算により求める。
10個の整数:平均値は5.5だから、
不偏分散=1/9×{(1-5.5)2+(2-5.5}2+‥‥+(9-5.5)2+(10-5.5)2}=9.17
5つのカテゴリ:平均値は5.5だから、
不偏分散=1/9×{(1.5-5.5)2+(1.5-5.5)2+‥‥+(9.5-5.5)2+(9.5-5.5)2}=8.89
2つのカテゴリ:平均値は5.5だから、
不偏分散=1/9×{(3-5.5)2+(3-5.5)2+‥‥+(8-5.5) 2+(8-5.5)2}=6.94
イ、層別集計による情報損失の問題点
問題は、このような情報損失が正しい統計的推測にとってどんな影響を及ぼすかである。
仮説検定のアイデアは数学の背理法と共通で、証明したい命題が成立しないと仮定し、その仮定から推論を進めていき矛盾に逢着することで仮定を否定し、命題を証明するものである。仮説検定ではこれを、標本データから計算して導かれた統計量の実現値が標本モデルの「棄却域に落ちる」というやり方をとる。例えば有意水準を5%と設定し、標本モデルが標準正規分布の場合、以下の図の通り、統計量の実現値が1.96以上になった場合、棄却域に落ちたとして仮説が棄却される。他方、統計量の実現値が1.96以下になると、棄却域に落ちなくなり、仮説を棄却できなくなる。つまり、一般に統計量の実現値が小さくなると、棄却域に落ちにくくなる。
(山田 剛史/村井 潤一郎「よくわかる心理統計」113頁〔ミネルヴァ書房。2004年9月25日初版第1刷〕)
これによると、検定量は線量の分散(Variance)の平行根に比例する。従って、線量の分散の値が小さくなると、検定量の値も小さくなり、それだけ棄却域に落ちにくくなる。その結果、元のデータのままなら棄却される仮説検定が、層別集計したために分散の値が減少し、棄却できなくなるおそれがある(その詳細は別紙2の「層別集計による情報損失は仮説検定にどのような影響を及ぼすか」参照)。
つまり正しく統計的推測をすれば仮説を棄却して、対立仮説を採用できるのに、層別集計をしたために、それが阻まれる(これを検定力の低下という)。このような不正なやり方はおよそ統計学者のやることではない。
ウ、LSS14報における情報損失の具体的問題
以上は、観測データの情報損失が仮説検定に及ぼす不正な影響の一般論であるが、さらにその具体論についても述べておく。
ウ、LSS14報における情報損失の具体的問題
以上は、観測データの情報損失が仮説検定に及ぼす不正な影響の一般論であるが、さらにその具体論についても述べておく。
(甲B125濱岡論文879頁)
上記表5によれば、カテゴリが22→11→6と集中されるに従い、イで前述した通り、データの分散の値が減少し、また線量の係数(傾き)の推定値も小さくなる。これらの値をイのt値の式に代入すれば、t値も小さくなる。その結果、仮説検定で「棄却域に落ちる」t値が落ちなくなり、棄却できるものが棄却できなくなるおそれが生じる。つまり検定力の低下をもたらす。
また、閾値直接推定モデルの閾値について、カテゴリが22→11→6と集中されるに従い、閾値は-23mGy→3mGy→37mGyと高くなる。つまり集計の集中により閾値はより高く推定される。言い換えれば、データを集計せず、そのまま用いれば、集計で推定される閾値より低い値が推定されることになる。
エ、小括
以上の通り、層別集計による情報損失はデータの分散の値も線量の係数(傾き)の推定値も小さくし、その結果、t値も小さくし、仮説検定を正しく行う検定力の低下をもたらすのである。
尤も、以上に対し、LSS14のような「個人レベルのデータを層別に集計して」統計的推測を行うのが放射線疫学の標準的な手順であるという反論が出るかもしれない。しかし、濱岡論文が指摘する通り、
《このような手法は計算機のパワーが低い時代には正当化されたが、現在はそのような制約は存在しない。個人レベルデータを用いた再分析を行うべきである》(887頁左段18行目以下)
実際も、マーケティング分野の統計的推測においては、1983年以来、個人レベルデータを用いたロジット・モデルを適用する研究が多く行われるようになっており(濱岡論文887頁注24)、30年以上も遅れた分析手法が正当化される理由は乏しい。
(3)、100mSv問題をめぐる統計不正の結論
ア、濱岡論文の結論
以上の通り、LSSデータの分析の問題点を指摘し、再分析をおこなった濱岡論文のエッセンスはラストに次の通り述べられている。
《低線量被曝の影響を評価するには、本研究で指摘した問題点を克服した分析、つまり個人レベルのデータで、仮説を数式として明示し、全データを用いて推定し、モデル選択を行うべきである》(887頁右段末尾)
ところで、LSSデータの分析の問題はひとりLSS14報にとどまらず、イに述べる通り、放射線被ばくによる健康影響に関する科学的知見とそれに基づく国の被ばく政策を左右する重大な問題である。
イ、放射線被ばくによる健康影響に関する科学的知見について被告国の考え方
被告国は、低線量被ばくの健康影響に関する科学的知見については、17名連名の意見書(乙B6。以下、連名意見書という)に集大成されている旨を主張し(被告国第6準備書面第1)、従って、放射線被ばくによる健康影響に関する科学的知見をどのように獲得するかという問題についても、連名意見書の見解に従えば、科学的知見に関して形成された国際的合意によることになり、その国際的合意形成のための仕組みの重要な1つが国連科学委員会(UNCSEAR)の報告書である(乙B6。2頁2)[11]。ところが、そのUNCSEARが放射線被ばくによる健康影響に関する科学的知見をまとめるにあたって最も重要視しているのがLSSデータを分析したLSS14報などのレポートである。しかし、上述した通り、LSS14報には統計的推測にあたって重大な欠陥があり、その欠陥が統計的推測の結論にも欠陥として反映し、このまま科学的知見として取り入れることは到底不可能である。
それゆえ、UNCSEAがこのLSSレポートの欠陥に気がつかず取り入れているとしたら、UNCSEAR報告書も同様の欠陥を帯びざるを得ず、UNCSEAR報告書を「合意に達した科学的知見」とする被告国の根拠も失われる。被告国は、LSSデータの分析の問題点を直視して、濱岡論文で開示された再分析の妥当性について、すみやかに深刻かつ真摯な吟味をすべきである。
[1] 100mSv問題とは、一般に「100mSv以下の被ばく線量で健康影響があるか」という問題だが、厳密には科学的レベルで、被ばく線量と健康影響の関係を問う問題と放射線防護の政策レベルで被ばく線量と健康影響の関係を問う問題と、次元の異なる2つの問題があり、両者を混同せずそれぞれ適正に吟味する必要がある(因果関係に事実的因果関係と法的因果関係があるのと同様である)。
[2] 従来、研究不正はねつ造、改ざん、盗用等のケースを指したが、昨今の厚生労働省の統計不正問題、個人線量データに関する宮崎・早野論文不正問題は、統計や研究の手法をめぐる不正を指している、本書面の「統計不正」も統計解析の手法の不正の意味である。
[3] 被爆生存者寿命調査(Life Span Study:LSS)の略。放射線影響研究所が1950年以降の国勢調査で生存が判明した原爆被爆者を対象としたコホート(固定された調査集団)を設定し、被爆者の寿命や死因を非被爆対照群のそれらと比較するために行っている疫学調査。
[4]LNTモデルとは線形モデルのこと。閾値ありの線形モデルと区別するため、閾値なしの線形モデル(Linear Non-Threshold Model)と英語の頭文字を取ってLNTモデルと呼んでいる。
[5] 統計学には記述統計と推測統計の2つがあり、前者は例えば身長のデータの平均を出し、ばらつき(標準偏差)を出し、或いは身長と体重という2つのデータ同士の散布図を作成し両者の関係(相関関係)を明らかにするといった観測データ自身の特徴を分析し、記述するもの。後者は観測データ(標本)からそのデータを取り出した集団(母集団)の特性を推測するもので、前者が「十を聞いて十を知る」ものだとしたら、後者は「一を聞いて十を知る」ものである。
[6] 「ある事実を同様に説明できるのであれば仮説の数(またはパラメーターや制約などの数)は少ないほうが良い」とする原理で、オッカムの剃刀とも言われる(東京大学教養学部統計学教室「自然科学の統計学」205頁参照)。
[7]過剰相対リスク(Excess of
Relative Risk、ERR)は放射線被ばくの健康影響を表わす方法の1つで、被ばく者を被ばくしない人に比べたリスクとして示したもの。その求め方は、被ばく者の絶対リスク Aを非被ばく者の絶対リスクA0で割った被ばく者の相対リスクRR(= A÷A0)が被ばくしない人の相対リスク1(= A0÷A0)よりどれだけ大きい(過剰)か、つまりRR −1として求まる。
[9]仮説検定で最初に設定する仮説のこと。仮説検定の目的は背理法と同様、最初に設定した仮説を棄却することにあるので、「無に帰することを目的とした」仮説という意味で、こう呼ばれている。
[10]標本データから計算して導かれる統計量の分布(標本分布)としてt分布が適用されるとき、この標本分布図の横軸の値となる統計量のことをt値という。
[11]2014年12月公表の「東京電力福島第一原子力発電所事故に伴う住民の健康管理のあり方に関する専門家会議 中間取りまとめ」でも、《原爆被爆者等を対象とした約12万人の調査の結果から、100~200mSv(短時間1回の被ばく)より高い被ばく線量では発がんによる死亡のリスクが増加することが確認されている[6]。》と後注[6]UNCSEAR2011年報告書が引用されている。
別紙1
別紙2
0 件のコメント:
コメントを投稿