この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 素晴らしいニュースです!今日、『ネイチャー』と『サイエンス』は、学界を大いに喜ばせる一連の論文を掲載しました。 一方、「今年のAIにおけるトップ10のブレークスルー」の1つであるAlphaFold2がついにオープンソース化され、Natureに掲載されました。 一方、ワシントン大学はAlphaFold2よりも高速で軽量なアルゴリズムを開発したとScience誌は報じている。必要なのはNVIDIA RTX2080 GPUだけで、タンパク質構造を10分で計算できるという。 ご存知のとおり、AlphaFold2 が発表されたとき、学界で大きな騒ぎが起こりました。 GoogleのCEOピチャイ氏、マスク氏、フェイフェイ・リー氏などVのビッグネームたちが賛同しただけでなく、マックス・プランク研究所進化生物学研究所所長のアンドレイ・ルパス氏も「すべてが変わるだろう」と率直に語った。 構造生物学者のペトル・レイマン氏は、「1000万ドル相当の電子顕微鏡を使って数年かけて解明しようとしたが、アルファフォールド2は一瞬で解明してしまった」と嘆いた。 生物学を専門とするネットユーザーの中には、生物学の専門分野には「暗い未来」があると感じ、絶望を表明する者もいた。 今日のネイチャーとサイエンスの戦いは、再びこの話題に火をつけた。 学術界の熱狂を呼び起こしたAlphafold2まずはトップジャーナルで報告されたAlphafold2についてお話ししましょう。AIモデルとして、なぜあらゆる分野でこれほどの熱狂を引き起こしたのでしょうか? なぜなら、それが発表されると、生物学における最も困難な問題の一つが解決されたからです。この疑問は1972年にクリスチャン・アンフィンセンによって提起され、その検証は50年間科学者を困惑させてきました。 アミノ酸配列が与えられれば、タンパク質の 3D 構造を理論的に予測できます。
この理論を検証するために、科学者たちはさまざまな方法を試しましたが、CASP14(タンパク質構造予測コンペティション)では、精度はわずか40点(100点満点)程度でした。 昨年12月に登場したAlphafold2は、精度を92.4/100まで直接引き上げ、タンパク質の真の構造から原子1個分の幅しか離れていないため、タンパク質の折り畳みの問題を真に解決しました。 Alphafold2 は、その年の Science 誌によって年間トップ 10 のブレークスルーの 1 つに選ばれ、構造生物学における「革命的な」ブレークスルーであり、タンパク質研究の分野における画期的な出来事であると評されました。 その出現により、タンパク質と分子の結合確率をより正確に予測できるようになり、新薬の研究開発の効率が大幅に加速されます。 今日、Alphafold2 のオープンソースは、AI および生物学コミュニティにさらなる波を起こしています。 Google CEO ピチャイ氏は非常に満足している。 生物学の博士もこう言っています。「未来はここにある!」 これを読んだカリフォルニア大学バークレー校 AI ラボの博士号を持つ Roshan Rao 氏は、このコードは使いやすそうに見えるだけでなく、ドキュメントも非常に充実していると述べました。 さて、このオープンソース アルゴリズムを使用して、Alphafold2 がどのようにその魔法を実行するかを理解してみましょう。 AlphaFold2の詳細が明らかに研究者らは、これがAlphaFoldとは全く異なる新しいモデルであることを強調した。 2018 年に AlphaFold が使用したニューラル ネットワークは ResNet に似た残差畳み込みネットワークでしたが、AlphaFold2 は AI 研究で最近登場したTransformerアーキテクチャを借用しました。 Transformer は、一連のテキストシーケンスを処理するための注意メカニズムを使用する NLP 分野で登場しました。 アミノ酸配列はテキストに似たデータ構造です。AlphaFold2 は複数の配列アライメントを使用して、タンパク質構造と生物学的情報をディープラーニング アルゴリズムに統合します。 AlphaFold2 は、最初のアミノ酸配列を相同配列と比較し、タンパク質内のすべての重原子の 3 次元座標を直接予測します。 モデル図からわかるように、最初のアミノ酸配列を入力すると、タンパク質の遺伝情報と構造情報がデータベース内で比較されます。 多重配列アライメントの目的は、アライメントに含まれる配列のできるだけ多くに同じ塩基を持たせ、それらの構造と機能の類似性を推測できるようにすることです。 アライメント後の 2 セットの情報により 48 ブロックの Evoformer ブロックが形成され、比較的類似したアライメント シーケンスが得られます。 整列された配列はさらに 8 ブロックの構造モデルに結合され、タンパク質の 3D 構造が直接構築されます。 予測の精度を高めるために、最後の 2 つの手順が 3 回繰り返されます。 △3次元座標を用いた構造の決定方法 もっと高速で安価なアルゴリズムはありますか?AlphaFold2 が最初に発表された際、技術的な詳細はあまり明らかにされませんでした。 ワシントン大学では、タンパク質の分野でも研究していたデイビッド・ベイカーがかつて行方不明になったことがある。
しかし、彼はすぐに再編成し、チームを率いて AlphaFold2 の成功を再現しようとしました。 数か月後、ベイカー氏のチームの結果は、精度において AlphaFold2に匹敵するだけでなく、計算速度と計算能力の要件においてもそれを上回りました。 AlphaFold2 オープンソース論文が Nature 誌に掲載されたのと同じ日に、Baker 氏のチームのRoseTTAFoldも Science 誌に掲載されました。 RoseTTAFold では、400 アミノ酸残基以内のタンパク質構造を約10 分で計算するのに、 RTX2080グラフィック カードのみが必要です。 この速度は何を意味するのでしょうか? つまり、タンパク質を研究する科学者は、スーパーコンピューティング リソースを申請するために列に並ぶ必要がなくなりました。小規模なチームや個人の研究者は、通常のパーソナル コンピューターだけで簡単に研究を行うことができます。 RoseTTAFold の秘密は、タンパク質の一次構造、二次構造、三次構造にそれぞれ焦点を当てる3 トラック アテンション メカニズムの使用にあります。 3 つの間に複数の接続を追加することで、ニューラル ネットワーク全体が同時に3 次元レベルで情報を学習できるようになります。 現在、グラフィック カードが市場で簡単に購入できないことを考慮して、Baker チームは、誰でもタンパク質配列を送信して構造を予測できるパブリック サーバーも慎重に構築しました。 このサーバーは設立以来、世界中の研究者から提出された何千ものタンパク質配列を処理してきました。 それだけではありません。研究チームは、複数のアミノ酸配列を同時に入力すると、RoseTTAFold がタンパク質複合体の構造モデルも予測できることを発見しました。 複数のタンパク質で構成される複合体の場合、RoseTTAFold の実験結果を計算するには、24 GB のビデオ メモリを搭載した NVIDIA Titan RTX で約 30 分かかりました。 現在、ネットワーク全体は単一のアミノ酸配列を使用してトレーニングされています。チームは次に、複数の配列を使用して再トレーニングする予定です。タンパク質複合体の構造の予測には改善の余地があるかもしれません。 ベイカー氏はこう言う。
Alphafold2 オープンソースアドレス: RoseTTAFold オープンソースアドレス: 関連論文: |
>>: AI、IoTセンサー、ハイブリッドクラウドによるインダストリー4.0の拡張
マイクロソフトとグーグルが財務報告を発表したが、一方は喜び、他方は悲しんだ。 AIへの大胆な賭けのお...
IT リーダーはすでに人工知能と機械学習テクノロジーの恩恵を受けています。最近の調査によると、経済が...
最近、モスクワのバス運転手たちは少々パニックになっている。チャットグループでは、「バスの中でアジア人...
人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、...
オンライン マイクロクレジットの一般的なリスク管理シナリオは、融資前、融資中、融資後の段階に分けられ...
人間の脳は極めて効率的な知能の源ですが、現在の AI はこのレベルに到達できません。 [[33099...
最近、AI関連の技術は業界でますます人気が高まっています。機械化されたゲームリソースの作成から開発者...
K平均法アルゴリズムの紹介K-means は、機械学習でよく使用されるアルゴリズムです。これは教師な...
テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...
機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。...
最近、工業情報化省は2020年の我が国のロボット産業の運営状況を発表しました。データによると、202...
1999年、ハリウッドSF映画史上最も重要なSF映画『マトリックス』が公開されました。この映画は、...