第27回集団遺伝学講座

2016/07/14

安田徳一{YASUDA,Norikazu}

遺伝子頻度の確率分布

これまで遺伝子頻度は特定の遺伝子座の特定遺伝子を数えて、その遺伝子プールでの割合と定義した。これは個々の遺伝子が離散的な数量であることを反映しており、モデルとしてまず考えられるのである。ところが進化の問題で、非常に長い時間で世代あたりの遺伝子頻度の変化がごくわずかであるという事実を踏まえると、連続的な扱いの方がモデルの構築を容易にし、しかも現象の全体像をよく把握することができる。

離散模型での遺伝子頻度pはp・1、すなわち底辺が1、高さpの長方形の面積として視覚化できよう。このことは頻度は確率pとその確率が生じる範囲(1-h/2,1+h/2)の二つの積であらわせることを意味する。連続模型ではこの長方形の面積をφ(p)hであらわす。離散型模型では常にh=1であるが、ここではhは任意の正の数であるが、通常十分0に近い小さな数を念頭においている。このとき離散模型での確率pに相当するφ(p)を連続模型では確率密度(分布)という。

確率密度φ(p)が世代tとともに変化するのであればφ(x,p;t)と書くことにしよう。xは世代とともに変化する遺伝子頻度、pは最初の世代(t=0)での遺伝子頻度である。進化における基本的な過程は集団の遺伝子頻度の変化である。機会的に抽出される配偶子が継世代的に伝えられ、メンデルの法則やハーディ・ワインベルグの法則にみられる結果に個体の行動や環境の影響が作用して行くのである。今日では遺伝子DNAの塩基配列の並び方の相違を調べて進化の過程を研究することが盛んであるが、時間とともに進行する確率現象の連続、すなわち確率過程の理論はその解決の基礎となるものである。

11.1 連続確率過程モデル

自然集団は一般に多数の個体からなり、したがってその遺伝子頻度はかなりゆっくりと変化する。したがって遺伝子頻度の変化を表す変数xは事実上連続変数として取り扱うことができ、xの時間的変化は近似的に連続確率過程としてみることができよう。すなわち、短い時間Δtでのxの変化Δxは小さいのである。また遺伝子頻度の変化は、時間tにおける遺伝子頻度の確率密度がそれ以前の時間t₀<tにおける遺伝子頻度に依存するが、さらにさかのぼってどのような経過をへてt₀における頻度に至ったかという歴史にはよらない、とする。これによって数学でいうマルコフ過程の理論を遺伝子頻度の変化過程に適用することができる。その上でもっとも有力なのがコルモゴロフの拡散方程式(Kolomogorov 1931)を用いる方法である(国澤,1951)。

11.1.1 拡散方程式による方法diffusion method

ある時間tでの対立遺伝子G,gの頻度をそれぞれx,1-xとする。短い時間Δt後でのxの変化をΔxとして、2つのxとtの関数をA(x,t)、B(x,t)を次のように定義する。

A(x,t)→E(Δx)/Δt	(t→0)
B(x,t)→E{(Δx)²}/Δt	(t→0)

ここで→は右辺の値がtを限りなく0に近い状態で、左辺の値にちかづくことを表している。E(・)は括弧内の値の平均値を示す。n≧3については

E{(Δx)ⁿ}/Δt→0

(t→0)

を仮定すると、遺伝子頻度の確率密度の時間的変化はつぎの偏微分方程式の解として得られる。

∂φ(x,p;t)/∂t = (1/2)∂²{Vｘφ(x,p;t)}/∂x² -∂{Mｘφ(x,p;t)}/∂x

ここにφ(x,p;t)は最初pであったG遺伝子がt時間後にxないしx+Δxとなる確率密度である。また

M_x=E(Δx)、 V_x=E{(Δx)²}-{E(Δx)}²

はそれぞれ遺伝子頻度の(世代あたりの平均的変化)あるいは定方向的変化率、および機会的変動による変化率をあらわしている。

確率論ではこれをコルモゴロフ方程式(詳しくは前向き方程式forward equation)と呼んでいる。物理学者はフォッカー・プランク方程式(Fokker-Planck equation)という。フォッカーが1914年に定常状態での式(Fokker 1914)を、プランクが後にこれを一般的な場合に拡張した(Planck 1917))ことによる。厳密な数学的な基礎づけはコルモゴロフが最初に行っている(Kolomogorov 1931)。集団遺伝学にこの方程式を最初に一般的な形で導入したのはライトである(Wright 1945)。

一方、後ろ向き方程式backward equationはKimura(1962)が突然変異遺伝子の固定確率の計算ではじめて使用した。これは現在の遺伝子頻度x、時間tが与えられて、それ以前の時間τ<tの微小変化により遺伝子の初期頻度が微小変化したときの確率密度φ(p,x,:τ,t)の満たす偏微分方程式である。すなわち、

∂φ(p,x,:τ,t)/∂τ=(V_p/2)∂²{φ(p,x,:τ,t)}/∂τ²+M_p∂{φ(p,x,:τ,t)}/∂τ

この後ろ向き方程式から現在の遺伝子頻度xに到達する可能性が初期頻度がpであるとき、どの程度の確率で実現するかを求めることができる。一方、前向き方程式からは初期頻度pが与えられたときの任意の時間tでの遺伝子頻度xがどうなるかという問いに対する答えが得られる。以下、具体的な場合についての解は、その求める手法がかなり高度の数学を習熟する必要があるので省略し、集団遺伝学で基本とみられるいくつかのモデルで得られた結果のみを示すにとどめよう。

11.2 前向き方程式の応用

11.2.1 機会的浮動

集団の有効な大きさをN、対立遺伝子G、gの頻度をそれぞれx,1-xとしよう。任意交配が行われ、ランダムに抽出されたN個の精子とN個の卵子が受精して子ども世代が構成されるものとする。遺伝子頻度の実際は

0,1/(2N),2/(2N),…(2N-1)/(2N),1

という不連続な値をとり、1世代あたりのxの変化δxは平均0、分散x(1-x)/(2N)の二項分布にしたがう。したがってx=i/(2N)から次の世代でx’=j/(2N)となる(遷移)確率は

p(j/i)=_2NC_jx^j(1-x)^2N-j

ここに_2NC_jは二項係数である。たとえば2N=4ならば P(j/i)は次のように行列Tで表わすことができる。

i＼j	0	1	2	3	4
0	1	0	0	0	0
1	.316	.422	.211	.047	.004
2	.062	.025	.375	.25	.062
3	.004	.047	.211	.422	.316
4	0	0	0	0	1

対立遺伝子の数を行ベクトルX=(0,1,2,3,4)で表わせば、子ども世代での数は

X’_j=ΣX_iT_ij、すなわち、行列演算で

X‘=XT

となる。X‘は対立遺伝子の数を列ベクトルで表わしたものである。手計算は面倒であるが電算機を用いると容易である。行列Tの最大固有値はλ=1-1/(2N)で、これは定常状態でのヘテロ接合の頻度Hの世代あたりの減少率にほぼ等しい。集団の繁殖個体数が大きくなると遷移行列Tの要素が個体数の2乗に比例して多くなり、電算機を用いても計算時間を多大に要するようになる。離散模型の実際上の限界でもある。

一般に自然集団では有効な大きさは相当大きく、進化の過程での諸現象を論じるには1,000程度以上が普通であるから、遺伝子頻度xは近似的に連続変数として扱うことができよう。遺伝子頻度は0と1との間の値をとる。まず2つの対立遺伝子が共存する0<x<1の状態について考察しよう。

遺伝子頻度の変動の要因として機会的浮動だけが考えられる場合は

M_x=E(Δx)=0、 V_x=E(Δx)²=x(1-x)/(2N)

であるから、拡散方程式は次のようになる。

∂φ(x,p;t)/∂t=(1/2N)∂²{x(1-x)φ(x,p;t)}/∂x²

この方程式の数学的に厳密な解は求められている(Kimura 1955)が、その漸近的な式は

φ(x,p;t)=6p(1-p)e^-t/(2N)+30p(1-p)(1-2p)(1-2x)e^-(3t)/(2N)+…

である。

最初の状態から十分時間が経過した定常状態に近い頃には

φ(x,p;t)dx～6p(1-p)e^-t/(2N)dx

がほぼ成り立つ。これは遺伝子頻度が0あるいは1であることを除き、中間の遺伝子頻度ではxに依存しないから、すべて一様な確率で現われることを意味する。しかもこの確率は毎世代1/(2N)ずつ減少していく。これを最初に指摘したのはWright(1931)である。しかもさらに時間が経過する(t→∞)とφ(x,p;t)dx→0となる。これは有限集団では突然変異や他の集団からの個体の移入がなければ、毎世代遺伝子の固定(x=1)あるいは消失(x=0)は不可逆的であることを考えると、当然生じる現象である。

次に遺伝子が固定あるいは消失する確率を考察しよう。遺伝子Gがt世代までに固定する確率をf(1,p;t)、消失する確率(これは対立遺伝子gが固定する確率である)をf(0,p;t)で表わすと、次の関係が成り立つ(くわしくはCrow & Kimura 1970;pp379-380 参照)。

df(1,p;t)/dt=φ(1,p;t)/(4N)

df(0,p;t)/dt=φ(0,p;t)/(4N)

最初の式の左辺はt世代目でのG遺伝子の固定率で、右辺は(1/2){φ(1,p;t)/(2N)}と書き改めることができる。中括弧の中はg対立遺伝子が1つで、他はすべてG遺伝子のクラスのG遺伝子の頻度を確率密度であらわしたものである。離散模型による(2N-1)/2Nの近似値になっている。固定あるいは消失していないクラスの遺伝子頻度は

x= 1/(2N), 2/(2N),…,(2N-1)/(2N)

であるから、固定に最も近いクラスの頻度の半分に相当する量が毎世代固定の状態に遷移するのである。消失確率についても同じく消失に最も近いクラスの頻度1/(2N)の半分に相当する量がG遺伝子を毎世代消失の状態に遷移する。

また、どの世代においても

f(1,p;t)+φ(x,p;t)dx+f(0,p;t)=1

が成立するが、究極には

f(1,p;t→∞)=p、 φ(x,p;t→∞)dx=0、 f(0,p;t→∞)=1-p

となる。固定確率、消失確率はそれぞれ対立遺伝子それぞれの初期頻度に等しいことがわかる。任意の世代での固定確率ならびに消失確率の厳密な解析的な公式も求められている(Kimura 1955)。

集団中の任意の個体が第t世代でヘテロである割合H_tは確率分布の積率からもとめられる。すなわち

H_t=∫2x(1-x)φ(x,p;t)dx = 2p(1-p)e^-t/(2N)=H₀e^-t/(2N)

積分の範囲は(0,1)である。これからもヘテロ個体の予測頻度は毎世代1/(2N)の割合で減少することがわかる。両ホモの割合も積率から直接求められる。

GGホモ：	∫x²φ(x,p;t)dx	= p²+p(1-p){1-e^-t/(2N)}
ggホモ：	∫(1-x)²φ(x,p;t)dx	=(1-p)²+p(1-p){1-e^-t/(2N)}

f_t=1-e^-t/(2N)とおけば6章(第16回講座)で近親交配の考えで得た結果でのt-1とｔの違いでしかない。機会的浮動が子世代のサイズで測られるのに対して、近親交配の影響は親もしくは祖先遺伝子の数によるから、この違いは明らかであろう。また世代の離散模型の結果と比較するならば、十分大きなNでは

{1-1/(2N)}^t≒e^-t/(2N)

であるから、本質的にはほぼ同じ結果となる。

遺伝子頻度の世代にわたる平均および分散もそれぞれ確率密度の積率から計算することができる。

平均:	∫xφ(x,p;t)dx	=p
分散:	∫(x-p)²φ(x,p;t)dx	=p(1-p){1-e^-t/(2N)}

3対立遺伝子、さらに任意個の複対立遺伝子の機会的浮動の過程の解析も行われ、前者についてはその全過程の厳密解(Kimura 1956)、後者についてはその漸近解が得られている(Kimura 1959)。たとえば、m個の複対立遺伝子の初期頻度をp_(k)とすると、第t世代でk(≦m)個の複対立遺伝子が共存してその頻度の合計Σx_(k)が1である確率密度は漸近的に

φ(x₍₁₎,x₍₂₎,..,x_(k))～(2k-1)!{Πp_(j)}e^{-{k(k-1)/(4N)}}

で与えられる。ここにΠはj=1,2,..,kについての積をあらわす。添字の括弧は共存する対立遺伝子の番号である。これらは必ずしも最初の世代での対立遺伝子の番号と同じではない。

機会的変動の進化学的意義としては、基本的には集団に共存する複対立遺伝子の数を減少する方向にたえず作用している(変異の減退)といえよう。

11.2.2 突然変異あるいは移住と機会的浮動

これまでは配偶子の機会的抽出のみの遺伝子頻度への効果を考察してきたが、これに突然変異や移住の作用がある場合を取り上げよう。むしろこの方が生物として自然であろう。突然変異があると遺伝子頻度の平均的変化はもはや0ではなく、

M_x=-ux+v(1-x)

となり、もし考察している集団に外部からの移住者があれば(ライトの島模型)

m(x_I-x)

がM_xにさらに加わる。x_Iは移住してくる個体群でのG遺伝子の頻度、mは一世代あたりの個体の交換率である。一般に突然変異率はきわめて低く、これによって集団の突然変異遺伝子が一定の割合で変化することはまれであるが、移住は分集団の遺伝子頻度を一定の方向に変える上で重要な役割をすることが少なくない。したがって、ライトの島模型での移住と機会的浮動による遺伝子頻度の拡散方程式は

∂φ(x,p;t)/∂t=(1/2N)∂²{x(1-x)φ(x,p;t)}/∂x²-m∂{(xＩ-x)φ(x,p;t)}/∂x

もしmが十分小さく、したがって突然変異率が無視できない状況では、上の式でmの代わりにm+u+v、mx_Iの代わりにmx_I+vを用いる。その場合m=0とすれば突然変異の効果と機会的浮動の作用する過程が解き明かされる。

フランスの数学者マレコー(Malecot 1948)がはじめてこの方程式の解法に取り組んだが果たせず、その厳密解は後に得られた(Goldberg 1950; Crow & Kimura 1956)。

個体の交換率mと移住者群のG遺伝子の頻度x_Iが毎世代同じで、最初の世代の頻度がpなら、求める解は次の形で表わされる。

φ(x,p;t)=ΣX_j(x,p)e^{-j{m+1/(4N)}t}　　(j=0,1,2,…)

X_j(x,p)はtに依存しないx、p、それにNおよびmで表わされる多項式である。その数学的な詳細についてはたとえばCrow & Kimura (1956)を参照されたい。

この積率を用いて遺伝子頻度の平均や各遺伝子型の頻度を求めることができる。たとえば

G遺伝子の頻度:	∫xφ(x,p;t)dx=x_I+(p-x_I)e^-mt
G遺伝子頻度の分散:	V_ｘ	=∫x²φ(x,p;t)dx-[∫xφ(x,p;t)dx]² =αx_I(1-x_I)+(p-x_I)e^-mt+(p-x_I)²e^{-{2m+1/(2N)}t}

ここに B=c{(1-α)(1-x_I)²+α(1-x_I)}-(1/2)(1-c)(1-p)+(1-p)²でα=1/(1+4Nm)、c=2Nm/(1+2Nm)≡(1-α)/(1+α)である。

とくに初期頻度pが移住者の遺伝子頻度x_Iと同じ(p=x_I)なら、次のような簡単な結果が得られる(第17回講座(6.3.1)参照)。このモデルは最初の移住者の遺伝的構成がそのまま継世代であまり変化しない状況にあてはまると考えられる(Morton 他,1971)。

G遺伝子頻度:		p	=x_I
G頻度の分散:		V_x	=x_I(1-x_I)α{1-e^{-{2m+1/(2N)}t}}
		F_ST(t)	=V_x/x_I(1-x_I)=α{1-e^-t/(2Nα)} (Morton他,1971)
GG接合頻度:	x_I²			+	x_I	(1-x_I)α{1-e^{-{2m+1/(2N)}t}}
gg接合頻度:	(1-x_I)²			+	x_I	(1-x_I)α{1-e^{-{2m+1/(2N)}t}}
Gg接合頻度:	2x_I(1-x_I)			–	2x_I	(1-x_I)α{1-e^{-{2m+1/(2N)}t}}

いずれの数量も世代が十分経過(t→∞)して新しい定常状態になると、初期頻度pに関らず移住者の頻度xＩとα{=1/(1+4Nm)}で決まるることに注意したい。つまり過去の状態に関係なく、定常状態では移住者の遺伝的構成によって確率密度の積率が定まる。

次に一方向の突然変異だけが定方向的作用としてある場合を考えてみよう。すなわち、ある集団でg→Gの方向に毎世代vの割合で突然変異が起き、逆のG→gの突然変異uがなく、また移住もないm=0の状態である。このときの拡散方程式は

∂φ(x,p;t)/∂t=(1/2N)∂²{x(1-x)φ(x,p;t)}/∂x²– v∂{(1-x)φ(x,p;t)}/∂x

で、もちろんこの厳密解も得られている(Crow & Kimura 1970)が、ライトが最初に求めたtが十分大きいときの漸近解(Wright 1931)は次のようになる。

φ(x,p;t)～4Nv(4Nv+1)(1-p)x^4Nv-1e^-vt

この分布の積率から

g対立遺伝子の頻度:	1-(1-p)e^-vt
g対立遺伝子の分散:	[(1-c)-(1-p)e^-vt+(c-p)e^-{v+1/(2N)}](1-p)e^-vt
ggホモ遺伝子型頻度:	1-(1-p)(1+c)e^-vt+(1-p)(c-p)e^{-{2v+1/(2N)}t}
GGホモ遺伝子型頻度:	(1-p)(1-c)e^-vt+(1-p)(c-p)e^{-{2v+1/(2N)}t}
Ggヘテロ遺伝子型頻度:	2(1-p)ce^-vt-2(1-p)(c-p)e^{-{2v+1/(2N)}t}

ここに c=2Nv/(1+2Nv)である。

第t世代までにG遺伝子が固定する確率の厳密解も求められているが、十分大きなtについては

f(1,t)～1-(4Nv+1)(1-p)e^-vt

である。当然ながら毎世代生じる突然変異の蓄積で、その逆突然変異がないのだから十分時間の経った状態で、G遺伝子が固定するのは明らかであろう。また

f(1,t)+∫φ(x,p;t)dx=1

であるから、f(0,t)=0。すなわち、G遺伝子が消失することはないと予測される。

文　献

Crow JF and Kimura M, 1956. Some genetic problems in natural populations. Proc 3rd Berkeley Symp on Math Stat and Prob 4:1-22.
Crow JF and Kimura M, 1970. An introduction to population genetic theory. Harper & Row, Publishers. New York. Pp.392-395.
Fokker AD, 1914. Die mittlere Energie rotierender elektrischer Dipole im Strahlungsfeld. Ann d Phys 43: 810-820.
Goldberg S, 1950. On a singular diffusion equation. Ph.D. Thesis, Cornell Univ, Unpublished.
Kimura M, 1955. Solution of a process of random genetic drift with a continuous model. Proc Natl Acad Sci, USA. 41: 144-150.
Kimura M, 1955. Random genetic drift in multi-allele locus. Evolution 9: 419-435.
Kimura M, 1956. Random genetic drift in a tri-allelic locus: exact solution with a continuous model. Biometrics 12: 57-66.
Kimura M, 1962. On the probability of fixation of mutant genes in a population. Genetics 47: 713-719.
Kolomogorov A, 1931. Uber die analytischen Methoden in der Wahrschein-lichkeitsrechung. Math Ann 104: 415-458.
国沢清典, 1951. 近代確率論(改定版「確率論とその応用」, 1982). 岩波全書、東京
Morton NE, Harris DE, Yee S and Lew R, 1971. Pingelap and Mokil atolls: Migration. Amer J Hum Genet 23:339-349.
Planck M, 1917. Uber einen Satz der statistischen Dynamik ind seine Erweiterung Quantentheorie. Sitz der preuss Akad. Pp.324-341.
Wright S, 1931. Evolution in Mendelian populations. Genetics 16: 97-159.
Wright S, 1945. The differential equation of the distribution of gene frequencies. Proc Natl Acad Sci,USA. 31: 382-389.