なぜ音階は「ドレミファソラシド」なのか

 ピアノには白黒合わせて1オクターブに12の鍵盤がありますが、小学校で最初に習う曲は白鍵の「ドレミファソラシ」だけを使って演奏できるものばかりで、黒鍵はあまり使われません。なぜ12音中この7音が選ばれたのか、私にとってはずっと謎でしたが、最近ブルーバックスの「音律と音階の科学」(小方厚著)を読んでその理由がわかったのでまとめてみようと思います。要はこの本の紹介をやりたいのですが、できるだけ丸写しにならないように配慮はしている積もりです。ちゃんと勉強したい人は、是非ブルーバックスを読んでください。多数の図や表が使われていて理系の人間にとってもわかりやすい解説ですし、音律、音階の歴史的な経緯や今後を見据えた発展などが面白く、とても楽しめました。
 結論から言うと、綺麗なハーモニー(和音)を出すためにこの音階が決められているようです。これを解説してみます。
 まず、臨界帯域幅という用語があるようです。二つの純音を同時に鳴らして、その周波数差を徐々に広げていきます。それらが独立した2音として聞こえ、うなりも、ゴロゴロするような不快な音も聞こえなくなった時の周波数差を臨界帯域幅と言うようです。
 臨界帯域幅をグラフにするとこうなります。元のグラフは、J.G.Roederer “The Physics and Psychophysics of Music” に載っているようです。
music1.jpg
 これは、多くの被験者に心理的な実験を行って得られたグラフなのでしょう。見ての通り、線形ではありません。近似式を作ってみました。数値計算上、高速で精度良く計算できるように式を変換しています。
(97.27500666976535 + x*(-0.10438654962335651 + x*(0.00013795361645053944 + x*(-7.50643237852489e-8 + (3.864047759875421e-11 – 2.715433778943346e-15*x)*x))))/
(1 + x*(-0.0009358884960842764 + x*(4.5256275668615123e-7 + (3.595960994872951e-11 – 2.546811069035789e-15*x)*x)))
 次に、2つの純音を鳴らした時の不協和度のグラフがあります。これも心理学的実験から得られたもので、被験者がどれぐらいの違和感を感じるのかをテストして作られています。
music2.jpg
 近似式はこうなります。 
(-0.00020410890928780975+x*(11.293912104998519 + x*(-64.80401525171715 + x*(142.52964847415188 + x*(-128.65558599526295 + 40.28982394173413*x)))))/
(1 + x*(-1.1833111299032766 + x*(-4.205411534000957 + x*(0.8554237901431951 + 21.877444099945798*x))))
 横軸は純音の周波数差なのですが、先ほどの臨界帯域幅に対する比となっています。従って、周波数によって横軸のスケールが変わることになります。こちらのグラフは、W.A.Sethares, “Tuning, Timbre, Spectrum, Scale” 2nd. ed に元図があります。
 実際にC4(ド)音付近の2つの純音を聴いてみましょう。
周波数差が臨界帯域幅の0.275倍
 グラフでは、最も不協和度が高いところです。うなりがはっきり聞こえて違和感がありますね。
周波数差が臨界帯域幅の0.6倍
 うなりが消えて、2音の平均周波数の単音のみが聞こえます。ただし、ゴロゴロ感があります。
周波数差が臨界帯域幅の0.8倍
 そろそろ音が2つ聞こえるようになります。ゴロゴロ感が少しだけ残っています。
周波数差が臨界帯域幅の1倍
 より強く、2音と認識できるのではないでしょうか。違和感がかなり少なくなりました。
周波数差が臨界帯域幅の1.2倍
 ここまで来ると、和音の違和感が全くないはずなのですが、どうでしょう。
 もちろん、人によって感じ方に差はあるかと思います。
 以上は純音の話でした。これだけなら話は簡単なのですが、実際のピアノの音は2倍音、3倍音といった倍音が豊富に含まれています。ピアノだけではなく他の楽器や人の歌声も同様です。この倍音を含めた不協和度を考える必要があります。2つの鍵盤から出る倍音を計算し、それらの2音の組み合わせ全てを求めてその不協和度を足し算すれば良いわけです。S1(x),S2(x)をそれぞれ鍵盤1,鍵盤2から出る音の振幅(周波数xの関数)、U(x,h)を周波数xでh離れた音との不協和度とすると、全ての倍音を含めた不協和度は次に示すような畳み込み積分となります。ブルーバックスには振幅をどう使うのか明確な記述が無かったので、2つの音の振幅をかけ算してみました。
music8.jpg
 実際には、馬鹿正直に積分する必要はなくて、離散的に足せば良いでしょう。ド(C)の音を基準とした不協和度のグラフはこうなります。P109図37です。ピアノの倍音の大きさに関しては、ブルーバックスに載っている記述と同じ設定を使っています。
music5.jpg
 不協和度が小さいほど協和している音なので、注目すべきは下に凸の点です。このボトムの位置が、平均律ではおおよそミのフラット(E♭)、ミ(E)、ファ(F)、ソ(G)、ラ(A)の周波数となります。この「おおよそ」というのが重要で、ピッタリの位置ではないわけです。正確にボトムの周波数で音階を作るのが純正律なわけですが、後に述べるようにいろいろと不都合があって、現在はややずれがある平均律がメジャーに使われています。平均律は、図で言えば横軸が100で割り切れる位置にある音階です。
 いよいよ問題の核心部分です。ミのフラットはすぐ隣にミがあるのでちょっと横に置いて(短音階で使われます)、ボトムにミ、ファ、ソ、ラが出てきました。グラフを見ると、ドと最も協和する音はソのようです。ではそのソと協和する音は何かを探します。グラフを平行移動すれば良いわけです(厳密には臨界帯域幅が変わるので少し形が変わります)。すると、シ(B)、ド(C)、レ(D)、ミ(E)が出てきて、これでドレミファソラシドの全てが揃いました。これが、音階がドレミファソラシドである理由です。
 次に、グラフでボトムの位置を数値計算で求めてみました。横軸はセントと言って100セントが平均律の半音階に当たる単位です。これを使って書くと、315.64, 386.31, 498,04, 701.96, 884.36にボトムがあります。これを1200で割って2の肩に置くとド音との周波数比がでてきて、それぞれ1.2000=6/5, 1.2500=5/4, 1.3333=4/3, 1.5000=3/2, 1.6667=5/3となり、見事に純正律で使われる音階と一致します。当然、この音階を使った方が良く協和するハーモニーが奏でられるのですが、それぞれの間隔が均等でないのがネックになります。特に移調や転調を行った時に、曲調ががらっと変わってしまい、あまり使われなくなってしまったようです。もっとも、どれぐらい酷いことになるのか実際の音を私は聞いたことが無いので、何とも言えませんが。
 ちなみに不協和度のグラフですが、ドを基音として3和音のグラフを描くとこうなります。P117の図41を再現してみました。やはり、グラフのボトムの位置に現れる和音が、良く使われるようです。
music6.jpg