機械学習を使用して暗号プロジェクトのリスクを特定するにはどうすればよいでしょうか?

機械学習を使用して暗号プロジェクトのリスクを特定するにはどうすればよいでしょうか?

暗号通貨と規制の必要性

暗号通貨は、デジタル世界に存在する交換手段(別の支払い形式)であり、取引を安全に行うために暗号化技術に依存しています。暗号通貨の背後にあるテクノロジーにより、ユーザーは銀行などの第三者を介さずに他の人に直接送金できるようになります。こうした取引を行うには、ユーザーはデジタルウォレットを設定する必要がありますが、ID番号やクレジットスコアなどの個人情報を提供する必要がないため、擬似的に匿名になります。

通常の暗号通貨ユーザーにとって、この匿名性は、個人情報や取引データがハッカーに盗まれることはないという安心感をもたらします。しかし、取引の匿名性が高まると、犯罪者が簡単に悪用して、マネーロンダリングやテロ資金供与などの違法行為を実行する可能性もあります。この違法行為は、ブロックチェーンウォレットのユーザーと暗号通貨事業者の両方に多大な損失をもたらしました。金融活動作業部会(FATF)などの規制機関は、これらの事業体の規制において標準化されたガイドラインを導入していますが、日々多数の暗号通貨事業体と取引が行われているため、暗号通貨分野の監視は困難な作業となっています。

解決

[[377572]]

そのため、ニュース Web サイトやソーシャル メディア プラットフォームなどのオープン ソース情報を活用して、潜在的なセキュリティ侵害や違法行為を特定することに関心が集まっています。私たち(シンガポール国立大学の学生チーム)は、Lynx Analytics と共同で、オープンソース情報を収集し、各ニュース記事のリスク スコアを予測し、リスクのある記事にフラグを立てる自動ツールの開発に取り組んできました。このツールは、さまざまな情報ソースを使用して規制当局がブロックチェーンの活動を監視できるようにするために Lynx Analytics が開発したツールである Cylynx プラットフォーム (https://www.cylynx.io/) に統合されます。

オープンソース情報のデータ取得

私たちは、暗号通貨分野における不審な活動を検出するのに役立つ貴重な情報を提供できるオープンソース データの 3 つのカテゴリを特定しました。これらのカテゴリは次のとおりです。

  1. Google ニュースなどの従来のニュース サイトでは、大規模なハッキングが報道されるでしょう。
  2. Cryptonews や Cointelegraph などの暗号通貨に特化したニュース サイトでは、小規模な組織や軽微なセキュリティ インシデントに関するニュースを報道する可能性が高くなります。
  3. TwitterやRedditなどのソーシャルメディアサイトは、ハッキングの公式ニュースが発表される前に暗号通貨の所有者がハッキングに関するニュースを投稿できる場所です。

記事やソーシャル メディアの投稿のコンテンツを取得し、感情分析モデルを構築します。モデルは、記事に記載されているエンティティに危険な活動の確率を割り当てます。

感情分析モデル

感情分析には、VADER、Word2Vec、fastText、BERT モデルという 4 つの異なる自然言語処理ツールを試しました。選択された主要なメトリック (再現率、精度、F1) を使用してこれらのモデルを評価した結果、RoBERTa モデル (BERT のバリアント) が最も優れたパフォーマンスを発揮し、最終モデルとして選択されました。

RoBERTa モデルは、ニュース記事 (見出しと抜粋) またはソーシャル メディアの投稿のテキストを処理し、特定のテキストにリスク スコアを割り当てます。このテキストはデータ収集プロセス中にすでにエンティティとしてラベル付けされているため、暗号化されたエンティティに関連するリスク指標が得られます。後の段階で、複数のテキストのリスク スコアを組み合わせて、エンティティの全体的なリスク スコアを算出します。

RoBERTa は、もともとニューラル ネットワーク構造を使用して構築された感情分析モデルでした。最後のレイヤーを注釈付きリスク スコアにマッピングして、リスク スコアリング環境に適応させました。将来のテキスト データに対するモデルの一般化可能性を向上させるために、エンティティの置換、URL の削除、ハッシュの置換など、いくつかのテキスト処理方法を実行しました。次に、この最高のパフォーマンスを発揮するモデルをリスク スコアリングに使用しました。

リスクスコアリング

現在、各記事には、関連付けられたソース (ニュース/reddit/twitter)、リスク確率、記事がリツイート、共有、または再投稿された回数が記録されています。これらのリスク確率を暗号通貨エンティティの単一のリスクスコアに変換するために、まず記事の確率値を 0 ~ 100 の範囲にスケーリングし、リスクスコアと記事の数を組み合わせて、各ソースの加重平均を取得しました。加重平均は、共有数が記事の関連性や重要性を示すものである可能性が高いため、共有数が多い記事に大きな重みを与えるために使用されます。

各ソースのリスク スコアを計算した後、各ソースのリスク スコアの加重合計を実行して総合スコアを取得します。計算式は次のとおりです。

従来のニュースソースは、大規模なセキュリティ侵害(単一ユーザーのハッキング事件と比較して)について報道する可能性が高いため、より高い重み付けが与えられます。

ソリューションの有効性

私たちは、2020 年 1 月 1 日から 2020 年 10 月 30 日まで、174 の暗号通貨エンティティのリストに対してソリューションをテストし、その結果をこの期間中の既知のハッキング事例と比較しました。私たちのリスク スコアリング アプローチは、既知のハッキング事例 37 件のうち 32 件を特定し、かなり良好なパフォーマンスを示したことがわかりました。また、単一のエンティティに対するソリューションの有効性も分析します。下のグラフは、2020年1月1日から2020年10月30日までのBinanceのリスクスコアを示しています。赤い破線は既知のハッキング事例を表しています。図から、当社のソリューションでは、既知のハッカー 5 人のうち 4 人のリスク スコアが増加したと報告されていることがわかります。既知のハッキング事件と一致しない急増もいくつかあります。しかし、私たちのモデルでは、できるだけ多くのハッカーを識別し、未確認のハッカーの数を減らすことの方が重要なので、これは大きな問題にはなりません。

興味深い発見

リスク スコアリング プロセス中に、大規模なエンティティのリスク スコアでは、小規模なエンティティと比較して、誤検知レコードの割合が高くなる傾向があることに気付きました。これは、大規模な組織は話題になりやすく、そのため否定的な投稿や誤った噂が多くなり、不正確さの割合が高くなるためです。

注目に値するもう 1 つの興味深い傾向は、ハッキング攻撃には通常、いくつかの明確なピークがあるということです。これは、データ ソースごとに応答時間が異なるためです。ソーシャル メディア サイトの Twitter や Reddit は、高リスク イベントが発生すると、ユーザーが観察した異常 (ユーザーに事前に通知せずに組織の Web サイトがダウンするなど) について投稿するため、最初に急増することがよくあります。公式ニュースは通常、公式発表の後に発表されます。

制限

私たちのソリューションには 2 つの潜在的な制限があることがわかりました。1 つ目は、コレクターを継続的にメンテナンスする必要があることです。ウェブサイトのデザインは時間の経過とともに変更される可能性があり、リスク スコアリングの目的で関連情報を引き続き取得できるように、これらのウェブサイトのスクレーパーを更新する必要があります。

2 番目の制限は、記事が暗号通貨エンティティとして正しくラベル付けされているかどうかを確認するのが難しいことです。たとえば、Bancor での不審な活動を報じる記事では、無関係な事件について Binance についても言及されている可能性があります。私たちの解決策では、ニュースを誤って 2 つのエンティティとしてラベル付けし、テキスト内の主要なトピックではないにもかかわらず、Binance をリスクとしてフラグ付けします。ただし、リスク スコアリングにはニュース記事のタイトルと抜粋のみを使用し、通常は記事の主要な情報のみが含まれているため、これは大きな制限ではありません。

結論

私たちのプロジェクトにより、規制当局はオープンソース情報を簡単にマイニングし、暗号通貨分野で発生するリスクイベントをより適切に特定できるようになります。記事を分析してリスクスコアを予測する言語モデルと、エンティティとソース情報に基づいてこれらのスコアを集計する方法を紹介します。これらのメソッドは、エンドツーエンドで実行できる自動化されたパイプラインに組み込まれます。このプロジェクトを Cylynx プラットフォームに統合することで、既存の機能が補完され、規制当局がリスクの高い暗号通貨エンティティを特定する際に大きな支援が提供されます。

<<:  2021年以降の人工知能トレンドに関する5つの予測

>>:  清華大学人工知能開発報告:中国は過去10年間のAI特許出願で世界第1位

ブログ    
ブログ    
ブログ    

推薦する

AIの力を集めよう!中国のチームが初めてネイチャー誌に中国のAIの状況に関する論文を発表した。

[[332234]] AI若手科学者連盟の主導のもと、国内の大学教授15名とビジネス界のAIリーダ...

...

...

...

将来のAIアプリケーションには、より高速でスマートな通信インフラストラクチャが必要

[[409599]]インターネット接続が4Gから5Gへと高速化していく一方で、利用可能な帯域幅が限ら...

2019年の人工知能の予測と展望

2019 年に人工知能の分野はどのように進化するでしょうか? 過去数年と比べてどのように変化するでし...

ビッグデータとAIアプリケーションを成功させる4つの鍵

ビッグデータ技術が今や世界の主要なマーケティングツールの 1 つになっていることは周知の事実です。 ...

人工知能、VR、音声検索、従来のマーケティングモデルを変える「三銃士」

人工知能と関連技術はマーケティングの未来を変えつつあり、仮想現実 (VR)、音声検索、人工知能はマー...

胡勇 | 人工知能の時代を生き抜き、成長する

[[374681]]機械との競争から第二次機械革命へ人工知能革命は第四次産業革命と呼ばれています。第...

...

WOT + ヒーローズ ギャザリング、2018 年に技術者が見逃せないお祭り

現在、デジタル変革の潮流に直面し、ビッグデータ、クラウドコンピューティング、ブロックチェーン、Dev...

3日間で自己学習したAlphaZeroがAlphaGoに勝利。GitHubの2017年年次レポートは人工知能の人気ぶりを示す!

[[207020]]本日 Nature に発表されたこの重要な論文には、Google の Deep...

産業用ロボットを選択するための 9 つの主要なパラメータをご存知ですか?

インテリジェント製造は、世界中の工業製造企業が追求する目標です。インテリジェント化のプロセスには、設...

アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

テクノロジーニュースサイト「The Information」によると、人工知能の新興企業Anthro...

ChatGPT 1 周年、Altman が OpenAI に復帰!帰国の内幕を明かすイリヤの所在はまだ不明

ChatGPT の 1 周年に、OpenAI は公式発表を行いました: Sam Altman が O...