暗号通貨と規制の必要性 暗号通貨は、デジタル世界に存在する交換手段(別の支払い形式)であり、取引を安全に行うために暗号化技術に依存しています。暗号通貨の背後にあるテクノロジーにより、ユーザーは銀行などの第三者を介さずに他の人に直接送金できるようになります。こうした取引を行うには、ユーザーはデジタルウォレットを設定する必要がありますが、ID番号やクレジットスコアなどの個人情報を提供する必要がないため、擬似的に匿名になります。 通常の暗号通貨ユーザーにとって、この匿名性は、個人情報や取引データがハッカーに盗まれることはないという安心感をもたらします。しかし、取引の匿名性が高まると、犯罪者が簡単に悪用して、マネーロンダリングやテロ資金供与などの違法行為を実行する可能性もあります。この違法行為は、ブロックチェーンウォレットのユーザーと暗号通貨事業者の両方に多大な損失をもたらしました。金融活動作業部会(FATF)などの規制機関は、これらの事業体の規制において標準化されたガイドラインを導入していますが、日々多数の暗号通貨事業体と取引が行われているため、暗号通貨分野の監視は困難な作業となっています。 解決 そのため、ニュース Web サイトやソーシャル メディア プラットフォームなどのオープン ソース情報を活用して、潜在的なセキュリティ侵害や違法行為を特定することに関心が集まっています。私たち(シンガポール国立大学の学生チーム)は、Lynx Analytics と共同で、オープンソース情報を収集し、各ニュース記事のリスク スコアを予測し、リスクのある記事にフラグを立てる自動ツールの開発に取り組んできました。このツールは、さまざまな情報ソースを使用して規制当局がブロックチェーンの活動を監視できるようにするために Lynx Analytics が開発したツールである Cylynx プラットフォーム (https://www.cylynx.io/) に統合されます。 オープンソース情報のデータ取得 私たちは、暗号通貨分野における不審な活動を検出するのに役立つ貴重な情報を提供できるオープンソース データの 3 つのカテゴリを特定しました。これらのカテゴリは次のとおりです。
記事やソーシャル メディアの投稿のコンテンツを取得し、感情分析モデルを構築します。モデルは、記事に記載されているエンティティに危険な活動の確率を割り当てます。 感情分析モデル 感情分析には、VADER、Word2Vec、fastText、BERT モデルという 4 つの異なる自然言語処理ツールを試しました。選択された主要なメトリック (再現率、精度、F1) を使用してこれらのモデルを評価した結果、RoBERTa モデル (BERT のバリアント) が最も優れたパフォーマンスを発揮し、最終モデルとして選択されました。 RoBERTa モデルは、ニュース記事 (見出しと抜粋) またはソーシャル メディアの投稿のテキストを処理し、特定のテキストにリスク スコアを割り当てます。このテキストはデータ収集プロセス中にすでにエンティティとしてラベル付けされているため、暗号化されたエンティティに関連するリスク指標が得られます。後の段階で、複数のテキストのリスク スコアを組み合わせて、エンティティの全体的なリスク スコアを算出します。 RoBERTa は、もともとニューラル ネットワーク構造を使用して構築された感情分析モデルでした。最後のレイヤーを注釈付きリスク スコアにマッピングして、リスク スコアリング環境に適応させました。将来のテキスト データに対するモデルの一般化可能性を向上させるために、エンティティの置換、URL の削除、ハッシュの置換など、いくつかのテキスト処理方法を実行しました。次に、この最高のパフォーマンスを発揮するモデルをリスク スコアリングに使用しました。 リスクスコアリング 現在、各記事には、関連付けられたソース (ニュース/reddit/twitter)、リスク確率、記事がリツイート、共有、または再投稿された回数が記録されています。これらのリスク確率を暗号通貨エンティティの単一のリスクスコアに変換するために、まず記事の確率値を 0 ~ 100 の範囲にスケーリングし、リスクスコアと記事の数を組み合わせて、各ソースの加重平均を取得しました。加重平均は、共有数が記事の関連性や重要性を示すものである可能性が高いため、共有数が多い記事に大きな重みを与えるために使用されます。 各ソースのリスク スコアを計算した後、各ソースのリスク スコアの加重合計を実行して総合スコアを取得します。計算式は次のとおりです。 従来のニュースソースは、大規模なセキュリティ侵害(単一ユーザーのハッキング事件と比較して)について報道する可能性が高いため、より高い重み付けが与えられます。 ソリューションの有効性 私たちは、2020 年 1 月 1 日から 2020 年 10 月 30 日まで、174 の暗号通貨エンティティのリストに対してソリューションをテストし、その結果をこの期間中の既知のハッキング事例と比較しました。私たちのリスク スコアリング アプローチは、既知のハッキング事例 37 件のうち 32 件を特定し、かなり良好なパフォーマンスを示したことがわかりました。また、単一のエンティティに対するソリューションの有効性も分析します。下のグラフは、2020年1月1日から2020年10月30日までのBinanceのリスクスコアを示しています。赤い破線は既知のハッキング事例を表しています。図から、当社のソリューションでは、既知のハッカー 5 人のうち 4 人のリスク スコアが増加したと報告されていることがわかります。既知のハッキング事件と一致しない急増もいくつかあります。しかし、私たちのモデルでは、できるだけ多くのハッカーを識別し、未確認のハッカーの数を減らすことの方が重要なので、これは大きな問題にはなりません。 興味深い発見 リスク スコアリング プロセス中に、大規模なエンティティのリスク スコアでは、小規模なエンティティと比較して、誤検知レコードの割合が高くなる傾向があることに気付きました。これは、大規模な組織は話題になりやすく、そのため否定的な投稿や誤った噂が多くなり、不正確さの割合が高くなるためです。 注目に値するもう 1 つの興味深い傾向は、ハッキング攻撃には通常、いくつかの明確なピークがあるということです。これは、データ ソースごとに応答時間が異なるためです。ソーシャル メディア サイトの Twitter や Reddit は、高リスク イベントが発生すると、ユーザーが観察した異常 (ユーザーに事前に通知せずに組織の Web サイトがダウンするなど) について投稿するため、最初に急増することがよくあります。公式ニュースは通常、公式発表の後に発表されます。 制限 私たちのソリューションには 2 つの潜在的な制限があることがわかりました。1 つ目は、コレクターを継続的にメンテナンスする必要があることです。ウェブサイトのデザインは時間の経過とともに変更される可能性があり、リスク スコアリングの目的で関連情報を引き続き取得できるように、これらのウェブサイトのスクレーパーを更新する必要があります。 2 番目の制限は、記事が暗号通貨エンティティとして正しくラベル付けされているかどうかを確認するのが難しいことです。たとえば、Bancor での不審な活動を報じる記事では、無関係な事件について Binance についても言及されている可能性があります。私たちの解決策では、ニュースを誤って 2 つのエンティティとしてラベル付けし、テキスト内の主要なトピックではないにもかかわらず、Binance をリスクとしてフラグ付けします。ただし、リスク スコアリングにはニュース記事のタイトルと抜粋のみを使用し、通常は記事の主要な情報のみが含まれているため、これは大きな制限ではありません。 結論 私たちのプロジェクトにより、規制当局はオープンソース情報を簡単にマイニングし、暗号通貨分野で発生するリスクイベントをより適切に特定できるようになります。記事を分析してリスクスコアを予測する言語モデルと、エンティティとソース情報に基づいてこれらのスコアを集計する方法を紹介します。これらのメソッドは、エンドツーエンドで実行できる自動化されたパイプラインに組み込まれます。このプロジェクトを Cylynx プラットフォームに統合することで、既存の機能が補完され、規制当局がリスクの高い暗号通貨エンティティを特定する際に大きな支援が提供されます。 |
>>: 清華大学人工知能開発報告:中国は過去10年間のAI特許出願で世界第1位
OpenAI は、わずか半年しかオンラインではなかった独自のテキスト検出器 Classifier を...
ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...
F# の並列ソート アルゴリズムで最も一般的な方法の 1 つは、まず処理するデータを複数の部分に分割...
現在、中国の製造業、農業、飲食業、企業、機関はすべて、自動化からインテリジェンス化、デジタル化への変...
.Net Framework は、Microsoft が提供する .NET 開発に基づいた基本環境で...
最近、ロボットに特化したレストランが広州に正式にオープンしました。客の出迎えから調理まで、一連の作業...
自動車メーカーは、施設を近代化し、事業運営をより持続可能にするために、スマート製造戦略を採用していま...
火の使用はホモ・サピエンスの進化における重要な要素であり、より複雑な道具の作成を可能にしただけでなく...
人工知能、モノのインターネット、産業インターネットなどがもたらすインテリジェント化の波は、技術発展の...
人工知能技術が私たちの生活にますます統合されるにつれて、一般の人々のプライバシーに対する懸念も高まっ...
IDCの最新予測によると、ロボットシステムとドローンへの総支出は2020年に1,287億ドルに達し、...