Liang Yanbo: データマイニングと機械学習アルゴリズム

Liang Yanbo: データマイニングと機械学習アルゴリズム

電子商取引であれ、インターネット広告であれ、直接ユーザーと向き合うものであり、ユーザーの属性によってどの商品を購入するか、どの広告をクリックするかが決まります。そのため、これらの企業にとってユーザー タグ システムを確立することは非常に重要です。

今年のWOTソフトウェアテクノロジーサミットでは、Xiaoxiang Technologyをカンファレンスの特別パートナーとして特別に招待し、ビッグデータコミュニティの技術エリートを集めて7月27日に特別なビッグデータトレーニングを開催しました。このトレーニングでは、主にユーザー タグ付け システムを確立する方法と、これらのタグ付け システムを使用してビジネス価値を実現する方法について説明します。

[[116386]]

梁 延博

ChinaHadoopコミュニティのコアメンバー

講師紹介: Meituan.com、データ開発およびデータマイニング、北京航空航天大学、コンピュータサイエンス修士、フランステレコムR&Dセンター、クラウドコンピューティングおよびビッグデータ研究者、Baiduインフラストラクチャ部門ストレージグループ、ソフトウェア開発インターンシップ、VMware中国R&Dセンタービッグデータ&クラウドグループ、R&Dインターンシップ。

1. 技術的な観点から、今年ビッグデータがもたらすイノベーションは他にどのようなものがあると思いますか?全体的に、業界のアプリケーションとどのように組み合わせるのでしょうか?

技術的な観点から見ると、今年のビッグデータイノベーションは、主にSparkエコシステムの台頭、Hadoopエコシステムのリアルタイム化の進展、大手企業によるこれらのシステムとデータインフラストラクチャの利用と改善の継続的な深化など、いくつかの側面に反映されています。この傾向は、今年開催されたHadoop Summit(http://hadoopsummit.org/)とSpark Summit(http://spark-summit.org/2014)から見ることができます。産業応用の観点から見ると、ますます多くの業界や企業が、直面する問題を解決するためにこれらのテクノロジーを使い始めています。現在は、インターネット広告、電子商取引、検索エンジン、推奨システム、ゲームなど、ビッグデータ応用の従来の分野に主に集中しています。しかし、今年はインターネット金融などの新興分野の発展に伴い、これらの分野でも、直面する問題を解決するためにビッグデータの技術や手法を活用するケースが増えています。

2. 産業ビッグデータは実は昔から存在していたのですが、人によって捉え方が違います。その違いはどこにあると思いますか?

ビッグデータの産業応用は、ビッグデータから価値を生み出す鍵となります。よく話題になるHadoopやSparkなどのさまざまなシステムはデータ基盤であり、さまざまな業界で大量のデータを保存・蓄積するために使用されています。企業にとって、こうしたデータを蓄積する目的は商業価値を生み出すことです。そのため、Hadoop などのシステムに保存されたデータを商業価値に変換することは、さまざまな業界のデータ サイエンティストが探求する必要があることです。さらに、この収益化または価値実現のポイントは、ビッグ データ時代の業界の中核であり鍵です。業界ビッグデータの鍵は、ビッグデータの手法を使って業界の情報統制レベルと核心的な問題を把握することだと考えています。

3. 業界のビッグデータを実装する際の技術的な難しさは何だと思いますか?

現在、業界におけるビッグデータの導入が困難なのは、人材不足が原因です。業界のビッグデータの実装には、業界分野に関するある程度の知識と理解を持ち、データ指向で問題を考える思考と方法を習得し、統計、コンピューター、その他のシステムやツールを使用して問題を解決できる人材が必要です。したがって、本質的には、業界のビッグデータ人材の需要は複雑であり、高い経験が求められます。比較的新しい分野であるにもかかわらず、市場ではこの分野の人材が依然として深刻に不足しています。

4. あなたが参加した従来のエンタープライズ ビッグデータ プロジェクトについて教えてください。このプロジェクトはいくつのフェーズで構成されていますか?

私の現在の経験は主にインターネット企業のビッグデータプロジェクトです。

5. ビッグデータ プロジェクトの実装は、既存のビジネス分析アーキテクチャにどのような影響を与えますか?

ビッグデータ プロジェクトの実装は、既存のビジネス分析アーキテクチャに比較的大きな影響を及ぼします。これは、従来の企業がビッグデータを活用する上での主な困難でもあります。 1 つは、既存の IT インフラストラクチャがビッグデータ時代の分析およびマイニングのニーズに適応できないこと、もう 1 つは、既存のアナリストが依然として従来の分析の考え方を維持していることです。この違いを簡単に説明するために、いくつかの例を挙げてみましょう。これまで、企業の CRM システムは、ユーザーの取引情報しか記録できませんでした。取引情報はユーザーの最も重要な行動ですが、ユーザーが何を閲覧したか、どのような種類の製品をフィルタリングしたか、何を検索したか、どのような製品を集めたかなど、ユーザーが取引を行うように影響を与える情報は数多くあります。そのため、インターネット上で記録できるユーザー行動は非常に広範囲にわたり、これらのデータは企業の商業価値の実現にも非常に大きな影響を与えるため、データ インフラストラクチャの構築には新たな課題が生じています。多くの従来のシステムとソフトウェア アーキテクチャは、もはや新しいビジネス ニーズを満たすことができません。ビッグ データ インフラストラクチャを構築するほとんどの企業にとって、オープン ソースの Hadoop エコシステムは適切な選択肢です。

6. 多数のビッグデータ アプリケーション ツールの登場により、データ アナリストの役割が置き換えられるでしょうか?

ビッグデータ アプリケーション ツールの大規模な出現は、データ アナリストに取って代わるものではなく、データ アナリストに新たな要求と課題をもたらすことになります。データアナリストは、これらのツールをビジネス思考と組み合わせて使用​​し、ビジネス価値を実現する必要があります。これが、私たちがよく言及するデータサイエンティストの役割です。ツールとアナリストの役割は互いに補完し合っています。ビッグデータ思考を使用してこれらのビジネス問題を解決することは特定の業界に密接に関連していますが、ツールには多くの業界属性がありません。そのため、アナリスト/データサイエンティストは、退屈なデータとコンピューターツールを活用し、業界のルールとビジネス特性を組み合わせてビジネス価値を実現する橋渡しの役割を果たす必要があります。

7. データは伝統的な企業にとって最も重要な資産です。ビッグデータの分散処理モードにおいて、データのセキュリティと整合性をどのように確保できるでしょうか?

データのセキュリティと整合性は、ビッグデータを使用する多くの従来型企業にとって主な懸念事項です。金融、通信などの伝統的な業界では、一般的にデータセキュリティに対する要件が比較的高いため、これらの分野ではビッグデータシステムとインフラストラクチャに対する要件も比較的高くなります。オープンソースの Hadoop コミュニティでは、セキュリティ関連の機能やコンポーネントも継続的に改善されています。たとえば、HDFS と HBase のセキュリティと権限管理の継続的な強化や、Cloudera のオープンソース Sentry は、セキュリティ、権限管理、認証メカニズムの豊富な機能を提供しており、企業が Hadoop エコシステムをビッグデータ インフラストラクチャとして使用する道を開いています。

8. 51CTO主催のWOTソフトウェアテクノロジーサミットでは、ビッグデータに関する特別トレーニングが行われます。ここではどのような側面が関係するのでしょうか?このトレーニングに適した技術者は誰ですか?

このトレーニングでは、主にビッグデータの手法を使用してビジネスの世界の実際の問題を解決する方法を取り上げ、電子商取引のユーザー タグ システムの事例を通じて紹介します。主に、データマイニングと機械学習のアルゴリズム、ツール、分散実装、データチームの構築と構成、ユーザーデータモデリング、および関連するケースが含まれます。これらの事例は比較的基本的なものですが、多くの業界では一般的です。これらの事例が、皆さんの業界やビジネスにビッグデータを適用する一助となれば幸いです。

<<:  01 コーヒーとsocket.ioで実装されたナップサックアルゴリズム

>>:  機械学習のアルゴリズム(2) - サポートベクターマシン(SVM)の基礎

ブログ    

推薦する

ディープラーニングとディープクローニング: チャットボットにとってより優れたソリューションはどちらでしょうか?

[[200112]]編集者注: チャットボットは目新しいものではありません。Facebook や ...

...

C# のデータ構造とアルゴリズムにおける線形リストの構築クラスの簡単な分析

C# のデータ構造とアルゴリズムで線形リストを構築するためのクラスは何ですか? C# のデータ構造と...

PyTorch と TensorFlow の最新バージョンを比較すると、2021 年にはどちらを選択しますか?

ディープラーニングが再び認知されて以来、多くの機械学習フレームワークが登場し、研究者や業界の専門家の...

テンセントクラウドがAIペイント製品をリリース、25以上の生成スタイルをサポート

9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...

最も強力なモザイク除去AIが登場。数分でモザイクのない世界に戻り、ピクセルスタイルの「Minecraft」キャラクターも復元できます。

AI の作成は複雑なプロセスかもしれませんが、AI を破壊するには 1 つのステップだけが必要です...

アルゴリズム・ステーブルコインの流行が再び到来。このトレンドをリードするのはどれでしょうか?

先週、私たちは、Float、Rai、Fei、Gyroscope などの人気のアルゴリズム ステーブル...

人工知能とビッグデータの完璧な組み合わせ

人工知能(AI)は数十年前から存在しています。しかし、最近では「ビッグデータ」の登場により注目が高ま...

人工知能が医療画像をどのように変えるか AI は医療画像の世界における第二の目となる

人工知能は多くの分野に影響を及ぼしています。しかし、いくつかの大きな変化が起こっており、その 1 つ...

第3回北京知源大会が開幕、世界最大のインテリジェントモデル「五道2.0」が発表

6月1日、北京知源人工知能研究所(以下、知源研究所)が主催する2021年北京知源会議が北京市中関村国...

ドミノ倒し: DataOps、AI、機械学習だけがマイクロサービスと分散システムを無敵にできる

[[440885]] [51CTO.com クイック翻訳]次のようなシナリオを想像してみてください。...

IoTと機械学習がビジネスを加速させる5つの方法

モノのインターネットと機械学習は、今日のビジネスにおいて最も破壊的なテクノロジーの 2 つです。さら...

...

AIによる売上予測により、組織は不確実性の中でコントロールを獲得できる

AI を活用した販売は、新型コロナウイルス感染症のパンデミックによってもたらされた不確実性に多くの組...