第15回　Research – プログラミングとCotterman’ Factor Union Algebra(10/1/2004)

2015/04/10

6.5. Research

近親婚の割合がヒト集団でどのくらいなのか、遺伝学者には興味ある話題である。近親婚夫婦から同一の遺伝子のコピーを子どもが受け取るチャンスが高まるので、他人婚からの子どもよりホモ接合になり易くなる。特に問題の遺伝子が健康を損なう原因となるのであれば、近親婚の影響は目立つ。「良い遺伝子」のホモ接合も増えるが、「普通」と「良い」形質との線引きは難しいからまず区別しない。この調査で手っ取り早いのが近親者に問い合わせる方法である。しかし聞き手の問い方や聞かれる方の度忘れなどで完全な調査は望めない。学術的により客観的なのは記録を利用する方法である。日本の戸籍、お寺の過去帳、外国ではカソリック教会の赦免状dispensationなどがよく知られている。近年の日本では学術目的での戸籍の閲覧は非常に難しくなったが、1960年代では可能であった。イタリーのグループは1951年から半世紀以上の期間にわたってカソリック教会の特別赦免状dispensationの調査研究を行ったが、その忍耐と根気にはただただ脱帽する(Cavalli-Sforza LL, Moroni A & Zei G 2004. Consanguinity, Inbreeding, and Genetic Drift in Italy. Princeton University Press, Princeton)。後にポストドクとしてCavalli-Sforza教授の教えを受ける機会を持ったが、このことは後述する。

集団遺伝学的なアプローチの一つとして多型頻度を利用するのも一法である。ブラジルでの調査は血液型や酵素などの多型データを集めていたので、これらのマーカー座位がハーデイワインベルグ法則からの偏りから近親婚の程度を表わす、近交係数、あるいは親縁係数を求め、問答法で得た近交系数と比べてみようというのが私の学位論文の主テーマであった。その他、配偶者の出生地間距離も調査してあったので、近親婚と出生地間距離の関係を調べてマレコ−のisolation by distanceの理論(Malecot G, 1948. Les Mathematiques de L’Heredite. Masson & Cie)をヒトで最初にテストすることも含まれていた。その他、学位論文をまとめている段階で姓氏(同姓率)を用いる方法として、Wisconsin大学のCrow から原稿(Crow JF & Mange AP, 1965. Eugen Quart 12: 199-203)が送られてきた。このアプローチについては十分な時間がないため学位論文には取り上げないことにした。後に帰国後、戸籍を用いて研究した。

データの解析には同じような計算を繰り返すこと、遺伝子頻度の推定にも解析的解答が得られず、これまた反復計算で近似解の精度を上げるなど、とても卓上電動計算機では追い付かない。大学のコンピュータセンターでは32Kメモリを使えるIBMマシンがあり、教室には8〜16KのCDCマシンがある。この環境では好むと好まざるともプログラミング技法を習得せざるを得ない。そこで科学技術計算用の言語FORTRANを学習することと相成った。講習会の話しを聞いてもさっぱりである。ずぶの素人が話しを聞いただけではどうにもならない。Dr MPはとにかく簡単な計算のプログラムを書きなさいと指導してくれ、まさにpush! Push!である。コントロールカードをプログラムカードの前後に付けて電算室にいく。結果は理解し難いエラーメッセージのみ。MPのアドバイスでいくつかの命令文を書き直し、電算室へと飛び出す。カードデックを小脇に抱え、研究室と電算室の間をみどりの芝生を散布する水に気を付け、ときおり駆け足で来るシャワーの攻撃を避け、時にはbeautifulな女子学生を気にしながらキャンパスを小走りに往復する。こんな姿は思えばよい運動でもあり、気分転換でもあった。一日中研究室で紙とボールペンのお相手ではどうなっていたことか。こんな状況が半年も続いたが、あるときパッとひらめいた(blind flash!)。今考えると他愛ない誤解でコンピュータと意志の疎通が計れなかったのだ。メモリーを表わす記号の物理的位置とその内容の区別がつかなかったのである。わかってしまえば何でもないことなのだが、数学で用いる記号は常に定義された一定の内容をもつ。プログラムの記号はメモリアドレスで、命令文の前後で同じアドレスの中身は変わり得るのである。なまじ少々数学をかじっていたため、これに気が着かなかった誤解でこれはまさに「河童の川流れ」である。それにしても半年も何をしていたのだろう。まわりの人たちも恐らく呆れ果てていたのではなかろうか。後にコーヒールームでMP曰く、何をやっているのかどんなに説明しても頓珍漢なことをやっている。それが何故なのか口を酸っぱくして説明したのにさっぱり理解しない。それがある日突然あれよあれよと言う間に結果を出しだして来たのでやれやれと思った。どうもありがとうございましたDr MP。

6.5.1. 集団構造

婚姻の発生に関わるあらゆる要因について研究する領域を「集団構造」という。歴史、社会学、あるいは人間の行動に関わりのある多彩な問題に多くの研究者が関心を持っている。しかし、遺伝疫学者は集団構造がどのように遺伝子頻度、遺伝子型頻度に影響するか、という問題に焦点を合わせる。これは病気が時間的にも地理的にも集積する要因の解明という点で従来の疫学の立場と重なる。

集団遺伝学の基本の考えに「遺伝子プール」がある。一般に各個体は父親由来と母親由来の遺伝子を対でもっている。したがって100人(簡単のため男女50人づつとする)の集団は200個の遺伝子の集合である。これを遺伝子プールという。この親世代の遺伝子プールから子どもに伝えられた2つの遺伝子が受精する。子ども世代の遺伝子プールの誕生である。この過程は子どもが生まれる限り永遠に続く。その意味で遺伝子プールは不老不死である。受精が起こる前に婚姻が先行する。2つの遺伝子がどのようにして遺伝子プールから選ばれるかはまさに婚姻の諸要因で決まる。その一番簡単なモデルは任意婚でどの遺伝子も機会均等にパートナーに遭遇するというものである。これを定式化したのがよく知られているハーデイワインベルグの法則である。

近親婚は俗に血のつながりのある男女の婚姻である。正確には先祖の遺伝子を夫婦が共有することであるが、人類の歴史でかって「子どもの種」は血液が凝縮して生じると考えられたことに由来する表現であろう。遺伝子を共有するとはその先祖が複数の子ども(きょうだい)をつくり、それに伴う減数分裂で先祖の遺伝子の正確なコピーがきょうだい一人一人に伝わる(減数分裂)。それぞれの子どもがまた子ども(先祖の孫)をつくり、孫同士が結婚すれば、これはいとこ婚である。先祖から2人の子どもに伝わった遺伝子は別々の経路を通りひ孫でホモ接合(厳密にはオート接合)になるチャンスを高める。これを測る尺度に子どもについては近交係数、その両親については親縁係数が考案されている。この二つの尺度の間には「子どもの近交係数は両親の親縁係数に等しい」関係がある。この尺度(F)はたとえば任意婚ではF=0、いとこ婚ではF=1/16である。

遺伝子頻度と近交(あるいは親縁)係数を用いて、個体の遺伝子型頻度を表現することができることは知られているが、婚姻型頻度についてはブラジル滞在中に私が初めて導いた。ちなみにブラジルでの調査は子どものいる核家族をサンプリングの単位としているから、婚姻型頻度のFは近交係数である。一般には子どものいない夫婦や未婚者もいるから無作為に選んだ2人についての頻度のパラメータは親縁係数である。集団近交係数の推定には家系調査によるが、遺伝子型(婚姻型)頻度を用いるアプローチは欠点はあるにしても、一世代の資料で得られるメリットがある。学位論文のテーマの一つは違うアプローチで得られた推定値を比較し、論じることであった。

6.5.2. プログラミングとCotterman’ Factor Union Algebra

両親をばらばらにして一つの集団をつくり、それから十幾つかの多型についての表現型データから遺伝子頻度と近交係数を求める電算機プログラムを書くことになった。

最初に考えたのは個々の座位ごとに解析解を工夫して、それをプログラムしようというものである。それではブラジルのデータだけのプログラムで使い捨てになるので、より汎用性のあるプログラムを工夫できないか考えた。もしできればデータに適切な情報を加えることで、ABO式血液型やRh血液型、Gm型などを同じプログラムで処理できるではないか。

パラメータの推定にはフィッシャーの最尤法を用いた。推定に必要なスコア(UとK)を個体ごとに計算しニュートン法で精度を上げて行くやり方である。問題となったのは個体ごとのスコアをどのように分類するかである。ドミナンスがあるとヘテロとホモは同じ表現型になるのでスコアはプールしなければならない。そこで表現型の判定と分類に眼を向けた。血液型は血球抗原それぞれの抗体に反応する、しないで判定している。酵素はゲル上の特定の位置にバンドが現れる、現れないで表現型が決まる。それなら対応する因子があるかないかをバイナリー(1あるいは0)で表わせば計算機上でスコアの分類が自動的に行えるではないか。Rh血液型のようにいくつもの抗体を使用する場合はベクトル表記にすればよい。ABO血液型の場合、A、B血清を因子として用いるから、A遺伝子=(10)、B=(01)、O=(00)。これから遺伝子型O=(00)、A=(10)、B=(01)、

AB=(11)を生成するには因子の間に次の演算則を決めてやればよい。

0 + 0 = 0、1＋0 = 0 + 1 = 1、1 + 1 = 1.

これは後にFactor Union AlgebraとCotterman教授が命名した。この因子演算により、遺伝子型から表現型へのグルーピングは電算機内で自動的に行えるようになった。A型はAAとAOの遺伝子型で表現されるから、AA遺伝子型は(10)+(10)=(10)、AO遺伝子型は(10)+(00)=(10)、したがってAAとAOのスコアは表現型(10)のクラスにまとめることが可能になる。以上のアイデアで書き上げたのがG-TYPEである。原則的に同じアルゴリズムで婚姻型についてはMATYPEと名づけた。両者をまとめてALLTYPEと呼ぶことにした。しかしALLTYPEが実用化するまで半年以上の月日を費やしてしまった(Yasuda N, 1969. In Computer Applications in Genetics. Ed NE Morton, Univ Hawaii Press, Pp87-102)。この仕事の発表は小グループのシンポジウムであったので、あまり世に知られなかったのは残念であった。

G-TYPEはMNSsの2座位ハプロタイプ(もちろんその当時この用語はなかった)の4対立ハプロタイプ頻度の計算やRh血液型の3座位ハプロタイプの8対立ハプロタイプ頻度の計算も易々とやってくれた。ドミナンスもエピスタシスも何のその。まれな抗原も含めた複対立遺伝子(最近のマイクロサテライト)の場合も、すなわちsnpサイトが2以上の複対立遺伝子の座位ハプロタイプの計算がトピックスの一つとなっているが、はからずも私のプログラムが最初(1964年秋)である。このプログラムの欠点はパラメータの適切な初期値を入力しなければならない点であったが、当時としてはその汎用性というメリットからやむを得なかった。後に初期値の問題はカウント法である程度解決することがわかったが、新たにプログラムを改良することはしなかった。私は統計学よりも遺伝学により興味があったのだ。またこのプログラムの計算で、ときには解が収束せず計算がループしているらしいことや、初期値の違いで異なる推定値が得られ、しかもどちらも生物学的に妥当で、多数？のハプロタイプの同時推定にはきめこまかい数理解析の必要性も実感はしていた。このプログラムは退官するまで使用したが、もはや手許にリストはない。現在少なくともProf NE Mortonのラボで稼動している筈である。

最近2座位ハプロタイプの問題で生物学的にも意味のある解析解が3つあることの証明がなされた(Mano, Yasuda et al. 2004. Ann Hum Genet 68: 257-264)。多くの汎用アルゴリズムはモンテカルロ法やグラフ理論など様々な数学的考えで発達した(並列型)高速電算機を用いて「えいや！」と答えを引き出している。そういったアプローチが生物学的に意味のある答えを出しているのかは気になる今日この頃である。