【共同発表】量子物理学の理論や波動関数に基づく新たな深層学習技術を開発－学習データにはない、分子構造が大きく異なる未知化合物に対する物性の外挿予測が可能－（発表主体：産業技術総合研究所）

2020.11.11

プレスリリース

○発表のポイント：
◆量子物理学の理論や波動関数に基づくことで、計算の中身を物理的に理解できる深層学習技術を開発
◆データの偏りに影響されない手法で、従来技術では難しい未知化合物に対する物性の外挿予測が可能
◆材料開発や創薬の分野での大規模な有用物質探索に貢献

○概要：
　国立研究開発法人産業技術総合研究所【理事長石村和彦】（以下「産総研」という）人工知能研究センター【研究センター長辻井潤一】機械学習研究チーム麻生英樹研究チーム長、椿真史研究員と、国立大学法人東京大学生産技術研究所溝口照康教授は、量子物理学の密度汎関数理論（注１）に基づく深層学習（注２）技術を開発した。この技術は、化合物の原子配置だけから、その電子の確率分布を表す波動関数（注３）への変換を経由して、電子密度、そしてエネルギーなどの物性値を高速・高精度に外挿予測できる。
　材料開発や創薬の分野では、化合物のさまざまな物性値の計算が必要不可欠であるが、深層学習技術を用いて物性値を予測することで、計算量を抑えられることが知られている。今回開発した技術では、深層学習モデルの内部に、波動関数と電子密度という量子物理的に最も基本的な情報を顕わに表現することによって、現在深層学習で大きな問題となっている予測結果の解釈性・信頼性の問題を解決する。また、波動関数と電子密度という、データの偏りに影響されない普遍的な情報に基づくことで、学習データとは分子構造が大きく異なる未知化合物の物性を外挿予測できる。これによって、材料開発や創薬の分野における大規模な有用物質探索への貢献が期待される。
　この技術の詳細は、2020年11月10日（米国東部時間）にアメリカ物理学会から出版されているPhysical Review Lettersに掲載された。

図1：開発した深層学習技術によって推定された化合物の電子密度
　波動関数が得られて初めて、このような電子密度を予測し可視化できる。数秒以内で一つの化合物の電子密度が予測できる。この図では、白色が水素H、灰色が炭素C、青色が窒素N、赤色が酸素O、緑色がフッ素Fを表し、化学結合にあたる部分により電子が集まっているのがわかる（赤色で示された部分）。

○開発の社会的背景：
　材料開発や創薬の分野では、化合物のさまざまな物性値（物質のエネルギー、触媒の反応収率、発電材料の効率、薬剤の活性など）の計算・予測が必要不可欠である。その計算・予測には、量子物理学に基づく理論計算・シミュレーション（注４）が有用と認識されてきた一方で、膨大な計算コストという問題がある。これを解決するために近年、人工知能技術の一つである深層学習が用いられるようになってきた。しかしながら、理論計算・シミュレーションとは異なり、深層学習の計算の中身はブラックボックスなので、材料開発や創薬の現場で重要な解釈性・信頼性が低いことが大きな問題となっている。さらに人工知能技術は一般に、存在するデータから答えを導く内挿は得意だが、存在しないデータを推測して答えを導く外挿は不得意であり、性能が著しく悪化することが多い。例えば、物性値予測での外挿とは、学習用のデータと分子構造が大きく異なる化合物の物性予測などである。なお、内挿とはその逆で、分子構造がほぼ同じ化合物の物性予測である。外挿予測は新規の材料や薬剤の開発に極めて重要である。

○研究の経緯：
　産総研では、最先端の機械学習技術の理論・アルゴリズムの開発から実データへの応用まで、幅広く研究を行ってきた。その一環として、材料開発や創薬で重要な化合物の物性値予測について、高い解釈性・信頼性を持つ深層学習技術の研究開発に取り組んできた。また東京大学生産技術研究所では、機械学習技術を材料開発に利用するマテリアルズインフォマティクスに関する研究を行ってきた。その一環として、界面構造を高速に決定する手法の開発や、スペクトルから物性を予測する手法の開発に取り組んできた。
　なお、本研究開発はJSPS 科研費 20K19876、MEXT 科研費 19H05787、19H00818 による助成を受けて行った。

○研究の内容：
　今回開発した技術では、まず化合物Mの原子配置の情報を、理論計算・シミュレーションで用いられる原子の波動関数φに変換して、量子物理的に正しい計算の出発点を得る。次に、波動関数の重ね合わせの原理（注５）に従い、このφから分子の波動関数ψを計算する。そして、このψから物性値Eを学習する。加えて、分子の波動関数ψから得られる電子密度ρと原子配置から計算できるポテンシャル（注６）V とが一対一対応するというホーヘンベルグ・コーンの定理（注７）を、モデル全体への物理制約として課す。これらはすべて、密度汎関数理論の枠組みに基づいていることが重要な点である。このモデルを、化合物の原子配置（入力）と物性値（出力）に関する大規模データベースを用いて学習させることで、波動関数と電子密度を経由した物性値の予測が可能になる。量子物理的に最も基本的な情報であるψやρを経由して物性値が導かれるため学習データの偏りに影響されない化合物の本質を捉えることができ、物性値の外挿予測が可能になる。具体的には、分子の波動関数ψから物性値Eの予測を行うニューラルネットワークと、電子密度ρにポテンシャルVの制約を課すニューラルネットワークという、二つのニューラルネットワークを交互に学習する。ψとEを繋ぐ関数と、ρとVを繋ぐ関数は、どちらも正確な形がわかっていない複雑な関数であり、これらを大規模データベースから学習する。図2に、この深層学習モデルの概略図を示す。

図2：今回開発した深層学習モデルの概略図
　今回の技術で得られた分子の波動関数から電子密度を計算し、可視化したのが図1である。これらの電子密度は、理論計算・シミュレーションの結果と比較して妥当であった（図3）。理論計算で得られる値は実験で得られる値を1〜2kcal/molの誤差で予測できる一方で、今回の技術はその理論計算値を1〜3kcal/molの誤差で予測できる。つまり、実験値を2〜5kcal/molの誤差で外挿予測できることになり、これは従来技術よりも高い精度であり充分実用に耐えうる精度と言える（図4）。さらに、理論計算は1種類の分子に数十分から数時間かかるが、今回の技術は数分で1万種類の分子を予測できる。このように、実用に耐えうる外挿精度を保ちながら理論計算を10万倍以上高速化した今回の技術は、新規の材料や薬を大規模に探索し効率的に発見・開発するという実応用では重要となると考えられる。

image003.j.jpg
図3：今回の機械学習と理論計算で得られたエタンとベンゼンの化学結合の電子密度の比較
　理論計算で得られる電子密度には二つのピークがあり、今回開発した機械学習でもその二つのピークを再現できた。

図4：物性値（エネルギー）の外挿予測精度
　横軸は分子の大きさを表し、学習用のデータには14原子以下の分子だけを用いている。縦軸はエネルギーについての理論計算と予測結果との誤差を示し、小さいほど理論に近い精度で予測できていることになる。今回開発した機械学習技術では、分子が20原子以上と大きく未知で複雑な構造になっても、予測誤差を小さく保てている。

　今回開発した技術の大きな特徴は、密度汎関数理論に基づき、波動関数と電子密度を深層学習モデルの内部で表現・経由した上で、化合物の物性値を予測する点である。このように、物理理論の理解に基づくことで深層学習モデルのブラックボックス性が解消され、材料開発や創薬の実応用の際の解釈性・信頼性が向上する。

○今後の予定：
　今後は、材料開発や創薬の実応用で今回開発した技術を用い、有用な触媒や薬剤の大規模な探索を行う。また、物理学者・化学者と協力して、物理学・化学に関する知識をより多く取り入れ、より高精度の予測ができる深層学習技術の開発を目指す。

○発表雑誌：
雑誌名：Physical Review Letters
論文タイトル：Quantum deep field: Data-driven wave function, electron density generation, and energy prediction and extrapolation with machine learning
著者：Masashi Tsubaki and Teruyasu Mizoguchi

○問い合わせ先：
国立研究開発法人産業技術総合研究所
人工知能研究センター　機械学習研究チーム
研究員椿真史
TEL：03-3599-8670　
E-mail：tsubaki.masashi（末尾に"@aist.go.jp"をつけてください）

【取材に関する窓口】
国立研究開発法人産業技術総合研究所広報部報道室
TEL：029-862-6216　FAX：029-862-6212　
E-mail：hodo-ml（末尾に"@aist.go.jp"をつけてください）

○用語解説：
注１）密度汎関数理論
　分子や結晶などにおける物性（エネルギーなど）は、原理的に電子密度からすべて計算できるという理論。1998年ノーベル化学賞受賞。この理論は、1965年にウォルター・コーンとリュウ・シャムによって完成された後、計算機の発展に伴いさまざまな物質に対するさまざまな物性の計算が可能となった。現代では、材料開発に欠かすことのできない技術として定着している。

注２）深層学習
　主に画像処理で用いられる機械学習技術。人間の神経回路を模したニューラルネットワークを多層に重ねて作られる。入力（画像）と出力（例えば猫）という複雑な関係を、大量のデータを与えて学習させることで捉えることができる。これは画像以外のさまざまなデータにも適用でき、入力と出力の複雑な関係を推定したい問題に広く適用することができる。

注３）波動関数
　3次元空間における電子の広がりのこと。電子は1個1個存在するのではなく、空間に波のように「分布」しており、波動関数はその確率分布のことを指す。

注４）理論計算・シミュレーション
　量子物理学の方程式に従い、化合物の原子配置から波動関数・電子密度を計算し、最終的にはエネルギーなどの物性値を得る。理論計算・シミュレーションにはさまざまな種類があるが、例えば第一原理計算と呼ばれる計算では、標準的なコンピューターで一つの分子につき数時間～数十時間の計算時間を要する。

注５）波動関数の重ね合わせの原理
　波動関数は3次元空間における電子の広がりのことであるが、分子では空間で複数の電子の広がりが重なり合っている。この重ね合わせが分子の性質を決定する。

注６）ポテンシャル
　ここでのポテンシャルは、原子が持つプラスの電荷（周期表の原子番号に対応）が、電子と同じように3次元空間に広がっているものを指す。

注７）ホーヘンベルグ・コーンの定理
原子が持つプラスの電荷から得られるポテンシャルと、マイナスの電子の波動関数から得られる（厳密には波動関数の二乗和で得られる）電子密度が、厳密に一対一に対応するという定理。すなわち、原子配置が決まれば電子密度は一意に定まるという定理。