一般社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS

信学技報 IEICE Technical Report CPM2013-115,ICD2013-92(2013-11)

# 単一磁束量子デバイスを用いた次世代プロセッサの マイクロアーキテクチャ探索

横田 順平† 津秦 伴紀† 井上 弘士†† 田中 雅光†††

† 九州大学大学院システム情報科学府情報知能工学専攻 〒 819-0395 福岡市西区元岡 744
†† 九州大学大学院システム情報科学研究院情報知能工学部門 〒 819-0395 福岡市西区元岡 744
††† 名古屋大学大学院工学研究科量子工学専攻 〒 464-8603 名古屋市千種区不老町
E-mail: †{yokota,tsuhata,inoue}@soc.ait.kyushu-u.ac.jp, ††masami\_t@ieee.org

**あらまし**単一磁束量子(Single-Flux-Quantum; SFQ)マイクロプロセッサは,超伝導体素子によって構成され,極 めて低消費電力で動作する次世代プロセッサである.デバイスの特性上,CMOS プロセッサと異なる新たなパイプラ イン構成およびビット幅の設計空間が考えられる.そこで,本稿ではSFQ マイクロプロセッサの性能モデリングを行 い,モデルに基づくマイクロアーキテクチャ探索を行う.

キーワード SFQ 回路, マイクロプロセッサ, アーキテクチャ, 性能モデリング

# Exploring Microarchitecture for Next Generation Single-Flux-Quantum Processors

Jumpei YOKOTA<sup>†</sup>, Tomonori TSUHATA<sup>†</sup>, Koji INOUE<sup>††</sup>, and Masami TANAKA<sup>†††</sup>

† Department of Advanced Information Technology, Graduate School of Information Science and Electical Engineering, Kyushu University Motooka 744, Nishi-ku, Fukuoka-shi, 819–0395 Japan

†† Department of Advanced Information Technology, Kyushu University – Motooka 744, Nishi-ku, Fukuoka-shi, 819–0395 Japan

††† Department of Quantum Engineering, Graduate School of Engineering, Nagoya University Furo-cho, Chikusa-ku, Nagoya-shi, 464–8603 Japan

E-mail: <sup>†</sup>{yokota,tsuhata,inoue}@soc.ait.kyushu-u.ac.jp, <sup>†</sup>†masami\_t@ieee.org

**Abstract** Single-Flux-Quantum (SFQ) is a promising device technology to implement high-performance low-power microprocessors. Since it operates at the superconductive condition, the negative impact of resistance can dramatically reduced. Previous design of a SFQ microprocessor employs a bit-serial implementation for instruction pipelining. However, since there is a trde-off between bit-level parallelsim and operation frequency, it is still not clear that this kind of bit-level operation is suitable for SFQ microprocessors. To answer this question, this paper explore the SFQ pipeline micro-architecture and evaluates their performance.

Key words SFQ, Microprocessor, Architectuire, Performance Modeling

# 1. はじめに

単一量子磁束(Single Flux Quantum; SFQ)デバイスは,超 伝導ループ中の磁束消失時に放出される微弱電圧パルス(SFQ パルス)を情報担体として動作する.その主な特徴としては, 1)超伝導状態で動作するため抵抗成分が限りなくゼロに近く なり100 GHz といった超高速動作が可能となる,2)信号伝搬 には電荷の充放電が不要なため論理ゲート当りの動的消費電力 が CMOS 回路の 1/1,000 と極めて小さい,の2 点が挙げられ る[3].これらの特徴に着目し,従来の CMOS 回路では実現で きない超高速かつ低消費電力なマイクロプロセッサの開発に関 する研究開発が進められてきた.例えば,文献[2]では8ビッ ト SFQ プロセッサの設計・試作を行い, 演算回路といったプロ セッサ構成要素に関しては 20 GHz での動作が確認されている.

基本的に, SFQ 回路はパルス波を用いて信号を伝搬する. そ のため, 100 GHz クラスの超高速動作を実現するためにはピ コ秒オーダでのタイミング調整が必要となり,数 GHz クラス の CMOS 回路の実装と比較して回路/レイアウト設計がより 難しくなる. この問題を回避するため,現在の SFQ プロセッ サは1ビット単位での演算や通信を基本動作とするビットシリ アル方式を採用している. 例えばデータ語長が 32 ビットの加 算を行う場合には,1ビット幅の加算回路を実装し,下位ビッ トから上位ビットに向けて1ビット加算を 32 回繰り返す. こ れにより,実装面積が小さくなり (単純には 32 ビット加算器の 1/32 の面積),総配線長が短縮されると供に配線長のばらつき も低減されるため、タイミング設計の複雑さを緩和することが できる.しかしながらその反面、ビットレベル並列性を活用で きないため、データ語長に比例した回数の計算が必要となり、 計算結果を得るまで(または、通信が完了するまで)のレイテン シが増大する.通常、プロセッサの性能は、動作周波数のみな らず命令実行レイテンシにも大きく依存する.そのため、SFQ プロセッサの実現においては、必ずしもビットシリアル方式が 適切であるとは限らない.

そこで本研究では、SFQ プロセッサ設計において、同時に処 理するビット幅と動作周波数の間にトレードオフ関係が存在す ることに着目する.そして、このトレードオフを考慮した評価 を行うことで、SFQ プロセッサにおいて活用すべきビットレ ベルの並列性を明らかにする.具体的には、SFQ プロセッサ・ アーキテクチャの設計選択肢を整理し、幾つかの代表的な設計 点に着目した性能モデリングを行う.そして、文献[2]の実設 計データを用いることで、命令パイプラインレベルで達成可能 な動作周波数を明らかにする.また、ここで得られた結果と、 現在の CMOS ベースの最先端プロセッサの動作周波数とを比 較し、SFQ プロセッサ・アーキテクチャの採るべき方向性を議 論する.

本稿の構成は以下の通りである.第2章では SFQ 回路の特 性について説明し,第3章で SFQ プロセッサ・アーキテクチャ の設計選択肢を整理する.そして第4章で性能モデリングを行 い,第5章で最大動作周波数に着目した性能評価の結果を示す. 最後に,第6章でまとめる.

## 2. SFQ 回路の特性

SFQ 回路はパルス論理であり、CMOS 回路と動作原理が根本的に異なる.クロックパルスの間隔内にデータパルスが存在すれば論理値'1',存在しなければ論理値'0'を表す.データパルスの生成,保持,伝播,分岐,合流,消滅などの組合わせによって論理演算を実現する.本節では、SFQ 回路素子の動作原理と、クロック同期式論理ゲート、クロックスキューおよびフィードバックループについてそれぞれ説明する.

## 2.1 SFQ 回路素子の動作原理

SFQ 回路の主要な構成要素はジョセフソン接合である. こ れは,図1(a)のように2つの超伝導体の間に絶縁体などの薄 い障壁膜を挟み,弱結合したデバイスである. ジョセフソン接 合は,図1(b)のように,接合を流れる電流値が臨界電流値*I*。 を下回っている場合には電位差を発生せずに電流が流れ,*I*。を 超えた瞬間から超伝導体の状態が変化して抵抗が生じ,電位差 が発生するといった電気的特性を持つ. この現象は,ジョセフ ソン接合が「スイッチする」あるいは「接合が切れる」と呼ば れる.

超伝導体で構成されるループの中では、磁束は  $\Phi_0$ (= h/2e = 2×10<sup>-15</sup> Wb = 2.07 mV・ps, ここで h はプランク定数, e は 電子の電荷, また  $\Phi_0$  は磁束量子と呼ばれる)の整数倍に量子 化される. 図 2 に示す等価回路のように、超伝導体のデータ線 とグランドをジョセフソン接合を含むバイアス電流線で接続し た回路において、例えば J<sub>1</sub>, L<sub>1</sub>, J<sub>2</sub> はループが構成されている. このループはインダクタンスをもつため、磁束が入ると周回電 流が流れる. この時, ループの周回電流とバイアス電流の和が  $I_c$  を下回ると、磁束はそのままループ内に留まる. 一方、 $I_c$  を 上回る場合は、J<sub>2</sub> がスイッチして SFQ パルスがデータ線を伝 搬し、隣接する J<sub>2</sub>, L<sub>2</sub>, J<sub>3</sub> のループに磁束が移動する. 図 2 の ようにループを数珠つなぎにして、インダクタンスを小さく することで、磁束および SFQ パルスが次々に伝搬する伝送路 となる. これをジョセフソン伝送路 (Josephson transmission line, JTL) と呼ぶ.

次に,単純なラッチ機能を持つ D フリップフロップについ



図 1 ジョセフソン接合の (a) 基本的構造と (b) 電気的特性



図 2 ジョセフソン伝送路の等価回路



図3 Dフリップフロップの等価回路

て説明する.図3に等価回路を示す.J<sub>1</sub>, L<sub>s</sub>, J<sub>2</sub> で構成される ループは磁束を保持できるように L<sub>s</sub> を大きくする. d<sub>in</sub> から SFQ パルスが入力されるとループに磁束が保持された状態と なる.この状態でクロック信号線から SFQ パルスが伝搬され ると,J<sub>2</sub>にはバイアス電流と周回電流に加え,クロック信号線 からの SFQ パルス (クロックパルス)による電流が流れるこ とで J<sub>2</sub> はスイッチする.その結果,ループの磁束は放出され, フリップフロップは初期状態に戻る.

#### 2.2 クロック同期式論理ゲート

論理ゲートの動作例として、AND ゲートについて説明する. AND ゲートの等価回路を図4に示す.入力データパルスが到達 すると、 $J_9 - L_{s1} - J_1$ のDフリップフロップと $J_{10} - L_{s2} - J_2$ のDフリップフロップにそれぞれ磁束が保持される.そこへ、 クロックパルスが分岐して同時に各Dフリップフロップに入る ことで、それぞれの磁束は放出され、 $J_7$ にパルスが伝搬する.  $J_7$ は、パルス2つ分の電流が加わる時、すなわち2つとも磁 束が入っている状態の時のみスイッチするようにインダクタン スを定める.これにより、2入力とも1の場合のみパルスが出 力する動作が実現し、AND ゲートの機能を果たす.ここで示 したように、SFQ 回路における論理ゲートはパルスの相互作用 によって演算を行うため、SFQ パルスの待ち合わせが必要とな る.したがって、図5のように、SFQ 回路の論理ゲートはク ロックパルスの入力を要するDフリップフロップ機能付き論理 ゲートである.

#### 2.3 クロックスキュー

図 6(a) のような3つのクロック同期式論理ゲートに対して, クロックパルスが入力されてから出力したデータパルスが次の



図 5 論理ゲート動作とクロック信号伝搬

論理ゲートに入力されるまでの時間をそれぞれ T1, T2 とする. T<sub>1</sub>, T<sub>2</sub> はそれぞれ, 主にクロックが入力されてデータパルスが 出力するまでの論理ゲートの遅延時間と、次の論理ゲートに到 達するまでに含まれる非同期の分岐や PTL 配線(パルスを電 磁波の状態で伝搬する伝送路)といった配線要素の遅延時間の 和によって決まる.図 6(a)のように $T_1 = T_2$ となる場合,ク ロックサイクル時間は  $T = T_1 = T_2$  と定めればよい. 一方で,  $T_1 \neq T_2$ の場合, CMOS 回路では図 6(b) のようにクロックサ イクル時間を大きい  $T = T_2$  に合わせる必要がある. これは. 電圧論理の CMOS 回路において、クロック同期間での状態値は 1つしか取ることができないためである. しかしながら, SFQ 回路は図 6(c) のようにクロックサイクル時間を小さい T<sub>1</sub> に合 わせ, T<sub>2</sub> かかる論理ゲート間のクロックには T<sub>1</sub> からの超過分 クロックパルスの伝搬も遅らせる(クロックスキューを入れる) ことで、正しい論理動作を行うことができる、これは、SFQ 回 路がパルス論理であるため、クロック同期間に複数のパルスを 保持することができるからである. クロックスキューを用いた 設計により、回路中に遅延時間が大きい部分が存在しても、ク ロック周波数を高速に保つことができる.

2.4 フィードバックループ

論理ゲートの出力パルスを入力に返す構造(フィードバック ループ)がある場合,その部分にクロックスキューを入れるこ とはできない.なぜなら,出力パルスが到達するよりも先に後 続のクロックが到達すると,演算結果に誤りが生じてしまうか らである.そのため,SFQ回路ではフィードバックループ部分 が存在すると,その部分の論理ゲート遅延時間および配線遅延 時間によってクロックサイクル時間が決定される.

# SFQ プロセッサアーキテクチャの設計空間と 性能モデル

前節では、SFQ 回路が論理ゲート1つ1つの動作にクロック 同期を必要とする特徴を説明した.本節では、SFQ 回路の特性 上考えられるアーキテクチャ設計空間および性能モデルを示す. 前節で述べたクロックは、論理ゲートを動作させるために必 要なクロックであり、ローカルクロックと呼ばれる.ローカル クロックの動作周波数を f<sub>G</sub>、サイクル時間を T<sub>G</sub> と表記する. 一方で、SFQ プロセッサにおいて図 7 のような 5 段命令パイ



(c)  $T_1 < T_2$ の時(クロックスキューあり)

図 6 クロック入力のタイミング



図 7 プロセッサの命令パイプラインモデル

プライン(IF, ID, EX, MEM, WB)を想定すると,パイプラ インステージの遷移にもクロックが必要となる.このクロック を,ローカルクロックと区別し,以降グローバルクロックと呼 称する.グローバルクロックの動作周波数を  $f_L$ ,サイクル時間 を  $T_L$  とする.

プロセッサ性能は、プログラムの実行時間の逆数によって評価できる.実行時間は、*CPI*(Cycles per Instruction;1命令当たりのグローバルクロックサイクル数)、*IC*(Instruction Count;実行命令数)を用いて、下式で定式化される.

実行時間 = 
$$\frac{1}{f_G} \times CPI \times IC$$
 (1)

アーキテクチャが5段命令パイプライン構成を取るとき,同 一命令を実行する場合の CPI, CI の値は一致する.すなわち, グローバルクロック周波数 *f<sup>G</sup>* と性能は比例すると言える.

# 3.1 Unit-Level Pipeline(ULP)

まず,従来の CMOS プロセッサと同様に,一般的に 5 段命 令パイプライン (IF, ID, EX, MEM, WB)を構成し,命令を ユニット単位でパイプライン処理するアーキテクチャが考えら れる.概要図を図 8 に示す.データを複数のスライスに分割し て処理するビットスライス処理,もしくはビットシリアル処理 を選択した場合,ユニット内部ではスライス幅(命令を分割し た1つのスライスのデータサイズと定義する)のビットパラレ ル処理をスライス数回繰り返すことで 1 命令を処理する.

1つのスライスがユニットに入力され、出力が完了するまで



の通過時間を  $T_{unit}$ ,出力スライス数を slicenum,データ語長 N ビット,スライス幅 k ビット と定義すると,ULP における  $T_G$  は 1 命令の処理時間以上となるよう設計されることから,以 下のように定式化できる.

$$T_G \ge T_{unit} \times slicenum \times (N/k) \tag{2}$$

 $T_{unit}$  はさらに、ユニット内のクリティカルパスにおける論 理ゲートの段数 gatenum、クロックスキュー clockskew を用 いて、

$$T_{unit} = gatenum \times T_L + clockskew \tag{3}$$

と変形できる.よって,(2)式に(3)式を代入し,ULPのグローバルクロックサイクル時間について下式が導出される.

 $T_G \ge (gatenum \times T_L + clockskew \times slicenum \times (N/K) \ (4)$ 

#### 3.2 Hybrid Pipeline(HP)

HP は、ユニット間の遷移は ULP と同様に命令単位で行う が、ユニット内部では論理ゲートがクロック同期式である SFQ 回路の特性を用いて論理ゲートレベルのパイプラインを構成し、 スライス単位での並列処理を行うパイプライン構成である.概 要図を図9に示す.スライス数だけの回数を繰り返して演算す る必要があった ULP と比較して、スライス処理が高速化でき る.また、スライス幅が小さくなると回路規模も小さくなり、 回路面積を抑制できるメリットもある.

1 命令の処理に必要な時間は、ユニット通過時間  $T_{unit}$  に、 全データスライスの出力に要する時間  $T_{data}$  を加えたものとな るから、 $T_G$  は下式で表せる.

$$T_G \ge T_{unit} \times T_{data} \tag{5}$$

ユニット内部の論理ゲートレベルのパイプラインでは、スラ イス間で桁上げ等のビット情報の受け渡し(フィードバックルー プ)が存在する.フィードバックループ部分には、スライスが 通過するまで後続のスライスを入力することができない.すな わち、フィードバックループ部分がローカルクロックサイクル 時間 *T<sub>L</sub>* と入力間隔を決定する.よって、入力間隔を *interval* とおくと *T<sub>data</sub>* は下式で表せる.  $T_{data} = (slicenum - 1) \times inteval \times T_L$  (6)

*T<sub>unit</sub>* は (3) 式と一致するため, (5) 式に (3) 式を代入して下 式を得る.

 $T_G \ge (gatenum + (slicenum - 1) \times interval) \times T_L + clockskew$ (7)

## 3.3 Gate-Level Pipeline(GLP)

論理ゲートレベルのパイプラインステージをプロセッサ全体 で同期することで、極めて深いパイプラインでデータスライス を処理するパイプラインアーキテクチャも新たに設計可能とな る. GLP は ULP, HP と比較して極めて高速な動作と高いス ループットが得られると予想される一方で、CMOS プロセッサ と大きく異なるアーキテクチャ構成を取り、制御も非常に複雑 になると考えられる. GLP の性能モデルについては今後の課 題とする.

### 4. 加減算器回路遅延モデル

式(4)ならびに式(7)から、1命令の処理時間が最も大きいユ ニットに関するパラメータである論理ゲート段数 gatenum, ロー カルクロックサイクル時間 TL, クロックスキュー clockskew, およびスライスの入力間隔 interval (HP のみ)を明らかにす ることで ULP, HP それぞれのグローバルクロックサイクル時 間が算出できることが分かる、そこで本節では、加減算器に着 目し、これらのパラメータをモデル化する.加減算器は、算術 演算や、ロード、ストア、分岐命令におけるアドレスの計算な ど、多くの命令を処理する演算器であり、CMOS プロセッサ の性能評価においても動作周波数を決定するクリティカルパス となりうるユニットの一つとして加減算器を取り上げた研究が あり [1], SFQ プロセッサにおいても加減算器がクリティカル パスとなる可能性は大きい. SFQ 加減算器回路のアルゴリズ ムおよび内部設計は、もっとも高速かつファンアウトが少ない Kogge-Stone 桁上げ先見加算アルゴリズムを用いて設計した文 献 [4] に基づく.

## 4.1 ビットパラレル加減算器

ULP にはビットパラレル加減算器を用いる.回路構成を図 10 に示す. $g_i$  は桁上げ発生信号, $p_i$  は桁上げ伝搬信号と呼ば れ、入力値の各桁に対して GP 生成回路によってそれぞれ生成 される(1 段目の XOR ゲートによって入力値の2の補数を取 り、減算も行う).その後,他の桁の GP 信号との合算を。演 算子によって行い、最後に排他的論理和をとって和が計算され る.論理ゲート段数は、GP 生成回路が 2 段、。演算子が LSB から MSB までの伝搬を行うため  $\log N$  段を要するので、最後 の排他的論理和を含めて合計  $\log N + 3$  段となる.

ビットパラレル加減算器において、フィードバックループは 存在しない.そのため、ローカルクロック周波数はデータパル スの衝突が起こらない範囲で極めて高速に設定できる.一方 で、ローカルクロックサイクル時間間隔で処理が終わらない論 理ゲート段に対してクロックスキューの入力は必要となる.論 理ゲート*i*段目における、論理ゲートにローカルクロックが 入力されてデータが次の論理ゲートへ到達するまでの最長時 間を*latency<sub>i</sub>*とすると、*latency<sub>i</sub>*がローカルクロックサイク ル時間より大きい場合、その差分が*i*段目のクロックスキュー *clockskew<sub>i</sub>*である.

$$clockskew_{i} = \begin{cases} 0 & (latency_{i} < T_{L}) \\ latency_{i} - T_{L} & (otherwise) \end{cases}$$
(8)

ユニット 全体 に入る クロックス キュー clockskew は  $clockskew_i$  の総和であるから、下式となる.



$$clockskew = \sum_{i=1}^{gatenum} clockskew_i$$
 (9)

#### 4.2 ビットスライス加減算器

ビットスライス加減算器の回路構成を図 11 に示す.入力間 隔 *interval* = 0, すなわち,スライスが論理ゲートを1 段通過 すれば即座に後続のスライスが入力可能となるよう設計されて いる.黒のDフリップフロップ,および。演算子の最後の段は 後続のスライスへデータを伝搬するための配線であり,ローカ ルクロックサイクル時間を決定するクリティカルパスとなる. 図の例ではスライス幅4ビットで,。演算子の1段目は GP 信 号を1桁前と,2桁目は3桁前までと,3桁目はそれ以前の全 ての桁とそれぞれ合算することで桁伝搬を行う.従って,。演 算子の段数はスライス幅 k ビットに対して log k + 1 段である. GP 生成回路部,排他的論理和を含めると,論理ゲート段数は logk + 4 段となる.出力されるスライス数は,入力スライスに 対して桁上げの1スライスが加わるため,(N/k)+1となる.

ローカルクロックサイクル時間はフィードバックループ部分 によって決定される.。演算子の log k 段から log k + 1 段にか けて、最も長い配線長となる部分がクリティカルパスとなる. この経路に含まれる論理ゲートおよび配線要素は AND ゲート, SPL と PTL 配線である.PTL 配線は送受信回路の遅延時間 *PTL*<sub>transmission</sub> と,配線長に比例する、高さ1列当たりの伝 搬遅延 *PTL*<sub>propagation</sub> に分けることができる.配線は MSB か ら LSB にかけての配線となるので、k - 1列分の高さである. したがって、下式となる.

$$T_L = AND + SPL$$

 $+ PTL_{transmission} + (k-1) \times PTL_{propagation}$ 

(10)

# 5. 最大動作周波数に関する評価

本節では、実設計に基づく回路遅延パラメータをこれまで求めた性能モデルに適用し、SFQ プロセッサのパイプライン構成法が異なる場合における最大動作周波数を評価する.なお、CPI(Clock-cycles Per Instruction)といった動作周波数以外の性能決定要因を考慮した評価は今後の課題である.





図 12 ULP のデータ語長別グローバルクロック周波数特性

## 5.1 評価方法

データ語長 N ビットに対して,SFQ プロセッサ・アーキテ クチャはスライス幅 1~N ビットの ULP 方式,または,スラ イス幅 1~N-1 ビットの HP 方式が選択可能となる.第3節で 示したグローバルクロック周波数がプロセッサの最大動作周波 数になると想定し,ULP 方式に関しては式(4),HP 方式に関 しては式(7)を用いて導出した.さらに,第4節では加減算器 に着目し,ユニット内部のパラメータのモデル化を行った.

なお,第4節で導出した回路遅延モデルより,SFQ 回路の論 理ゲートならびに配線要素の遅延時間が必要である.そこで本 評価では,2.5 kA/cm<sup>2</sup> (1µm)Nb プロセスを想定した表1の 実設計値を用いた.

| 表1 論埋ケート,配線要素の遅延時間    |                     |
|-----------------------|---------------------|
| 論理ゲート,配線要素の種類         | 遅延時間                |
| AND                   | 7.9 ps              |
| XOR                   | 6.5  ps             |
| CB                    | 8.2 ps              |
| SPL                   | $4.3 \mathrm{\ ps}$ |
| $\PTL_{transmission}$ | $7.4 \mathrm{\ ps}$ |
| $PTL_{propagation}$   | 2.24 ps/height      |

#### 5.2 評価結果

ULP のスライス幅を変化させた時のグローバルクロック周 波数の変化を図 12 に示す.ULP では、スライス幅がデータ語 長と等しい (ビットパラレル) アーキテクチャを選択した時に 最も性能が高く、スライス幅が縮小すると大きく性能が低下す ることが分かる.これは、式 (4) から、スライス数の増加が  $T_G$ に与える影響が大きいためと考えられる.ただし、図 13 に示 すように、スライス幅が拡大するとクロックスキューは増加し、  $T_G$ の増大を招く.そのためグローバルクロック周波数はスラ イス幅に比例しない.

次に,HPのスライス幅を変化させた時のグローバルクロック周波数の変化を図14に示す.式(5)から,HPはスライス幅が拡大すると出力スライス数が減少する一方,ゲート段数は増加し,ローカルクロック周波数も図15のように低下するト



図 13 ULP におけるクロックスキュー特性



図 14 HP のデータ語長別グローバルクロック周波数特性



図 15 HP におけるローカルクロック周波数特性

レードオフ関係が存在することが分かる.実際,図14のよう に,各データ語長に応じてスライス幅のトレードオフポイント が存在することが確認できる.

最後に、データ語長を 64 ビットに固定して ULP 方式と HP 方式のグローバルクロック周波数 ( $f_G$ )を比較する.図 16 に 示す通り、ULP 方式におけるスライス幅 64 ビット (ビットパ ラレル)のとき性能は最大となり、 $f_G$ は 2.78 GHz となった. 以上の結果より、以下のような結論を得た.

• 現時点で最高の 1µm 製造プロセスを想定して作成する SFQ プロセッサでは、CMOS プロセッサと比較してグローバルクロックに関する動作周波数の大きな優位性は確認できなかった.ただし、この微細加工寸法は例えば 22nm という CMOS-LSI の最先端技術と比較して極めて遅れている.現状の SFQ 回路は CMOS 回路と同様にスケーリング則が成り立つため、今後製造プロセスの向上によりこの差が縮まる場合には、CMOS プロセッサより高速となる可能性がある.

 図 12 に示すように、データ語長が 8 ビットの場合には 7 GHz 程度の動作速度となる.実際、多くのアプリケーションで はプロセッサのデータ語長全てを活用する場合は希であること が知られている.例えば、画像処理向けプログラムでは、1 画



図 16 データ語長 64 ビットにおけるグローバルクロック周波数特性

素が8ビット単位で構成されていることから、多くの場合で8 ビット以上の演算は行われない.このように、アプリケーショ ンが必要とするデータ語長に基づく最適化により、高性能化を 実現できる可能性がある.

• 論理ゲートレベルのパイプライン構成を取りうる SFQ プロセッサでは、ビットスライス処理を行うことのメリットが CMOS プロセッサより大きい.そのため本稿ではモデル化およ び評価を行わなかったが、極めて高速かつ深いパイプライン構 成を取る GLP が高い性能を得る可能性は高いと考える.

SFQ回路のもう一つの大きな特徴として、充放電を伴わない極低消費電力性が挙げられる。冷凍機が必要となるといった欠点が存在するものの、冷却コストを隠蔽できる技術が開発できれば、現在の CMOS プロセッサと同程度の性能を維持しつつ、消費電力を大幅に削減できる可能性がある。今後は、高性能化ではなく消費電力削減に注力した研究開発が重要になると考える。

# 6. おわりに

本稿では,SFQ プロセッサの性能評価を行うために,SFQ 回路特性を応用したパイプライン構成および性能,加減算器の 回路遅延のモデル化を行った.また,モデルに基づく定性的評 価の結果,HPにおけるスライス幅のトレードオフポイントよ りも ULP のビットパラレルアーキテクチャを選択した方が高 い性能が得られるという結論が得られた.

謝辞 日頃からご討論いただく九州大学システム LSI Lab. の諸氏に感謝する.

文

#### 献

- [1] Tong Liu and Shih-Lien Lu. Performance improvement with circuit-level speculation. pp. 348–355, 2000.
- [2] Y. Yamanashi, M. Tanaka, A. Akimoto, H. Park, Y. Kamiya, N. Irie, N. Yoshikawa, A. Fujimaki, H. Terai, and Y. Hashimoto. Design and implementation of a pipelined bit-serial sfq microprocessor, corel β. Applied Superconductivity, IEEE Transactions on, 2007.
- [3] 田中雅光.単一磁束量子回路に基づくマイクロプロセッサに関す る研究.名古屋大学大学院工学科研究科電子情報システム専攻博 士論文,2006.
- [4] 朴熙中,山梨裕希,吉川信行,田中雅光,藤巻朗,寺井弘高,萬伸 一. Sfq 論理回路を用いた 4-b ビット・スライス・アダーの設計 (ディジタル・一般).電子情報通信学会技術研究報告. SCE,超 伝導エレクトロニクス, 2007.