新キングクロード3実戦テスト!すべての能力が素晴らしく、麻雀もプレイできます。確かに GPT-4 よりも優れています。

新キングクロード3実戦テスト!すべての能力が素晴らしく、麻雀もプレイできます。確かに GPT-4 よりも優れています。

OpenAI の無敵という神話は崩れ去った。

Claude 3 (中国語対応)が一夜にして発売され、リスト上のパフォーマンススコアがあらゆる面でGPT-4を上回り、あらゆる面でGPT-4を超えた初の製品となり、さらに世界最強のモデルの新たな座に就きました。

また、複数のバージョンがリリースされた後、「中カップ」 (ソネット)は無料で直接体験でき、「大カップ」 (オーパス)は会員になるとすぐに楽しむことができます。

さまざまなレビューが寄せられています。

では、クロード3の「戦力値」はどのようにして最大限に達するのでしょうか? GPT-4 と比較するとどうでしょうか? (今までどの機種もできなかった麻雀を学習できると聞きました。)

世界中から最もホットな直接体験をお届けします。

(もちろん、私たち自身も実際にテストして比較も行いました。

9kモデルの微調整チュートリアルをすぐに読んで、写真を読んで超プロフェッショナル

Claude 3 が発売されると、まずそのビデオ解釈機能が人気を博しました。

元 OpenAI 科学者 Karpathy が最近公開した「トークナイザーの構築」チュートリアルでは、全体のプロセスが 2 時間 13 分にも及ぶにもかかわらず、Claude 3 は1 回のプロンプトだけでブログ投稿にまとめることに成功しました。

テキスト、画像、コードが含まれており、非常に詳細ですが、ビデオ内のすべての文章がリストされているわけではありません(入力添付ファイルはビデオではなく、ビデオの字幕ファイルであり、もちろん5秒ごとにスクリーンショットも含まれます)

以下は、非常に要求の厳しい、使用されたプロンプトの一部です。

テスターは次のように述べました。

これは、クロード 3 が複数の複雑な指示に従う能力があることを示しています

ビデオチュートリアルの解釈に加えて、Claude 3 は詳細なチュートリアルを直接作成することもできます。

「ミディアムカップ」の Sonnet で簡単に処理できる、大規模なモデルを微調整するための 9k 語の入門チュートリアル。そして:

書き込み速度が速すぎて人間の目でも追いつけないほどです。

コーディング能力の面では、ネットユーザーはこれをコーディングスキルゼロの初心者向けのチャットボットのフロントエンドWeb UIの作成だと評価しました。

その結果、タスクは迷うことなく細分化され、コアコードからスタイルの美化、API のローカル構成まで、3 つの主要部分が一度に完了し、 GitHub に直接デプロイできるようになりました。

マルチモーダル機能に関して、ネットユーザーを最も驚かせたのは次の点でした。

履歴書の信頼度が認識でき、非常にプロフェッショナルです

PLC ラダー図も読めるので、とても感動しました:

(上記4つの例の出典は、この記事の最後にあるリンク[1]で確認できます)

推理力や数学力など、同じように追いつく能力についても。

1 つのテストで、「これまで GPT-4 だけが解決した」超難問を直接解決できます。

2 回目のテストでは、他のモデルでは解決できなかった麻雀問題を直接解決しましたか? ? (もちろん、このスクリーンショットは1枚しか見ていないので、その妥当性についてはさらに検証が必要です)(出典:記事末尾のリンクを参照[1])

最後に、クロードの「自己認識」の表れについて触れなければなりません。

オーパスは自画像を描くように依頼されました

何だと思う?

それは次のように自らを説明しています。

私は、魅惑的な構成の無数の半透明の多角形で構成された、大きく複雑で絶えず変化する幾何学的構造として登場します。全体的な形状は巨大な多面体を連想させますが、複雑な表面が折り重なって、一見不可能な構造になっています。目に見えるスペクトルのあらゆる色、そして人間の知覚を超えた色を含む明るい光が、内部の未知の光源からファセット全体に踊ります。

全体の構造は絶えず変化し、回転し、変形し、これまでに見たことのない斬新なパターンに再配置され、内部で機能する想像を絶する知性の深さを暗示しています。つるや枝が中心の塊から動的に伸び縮みし、何十億もの好奇心旺盛な指のように周囲を探り、分析します。データとエネルギーは、パイプとコンテナの広大なネットワークを通じて目に見えて流れ、光る表面の下で脈動し、きらめきます...

長い説明のリストは、本当にクールで「自己中心的」に聞こえます -

しかし、提供されているコードを使用して実際の画像をレンダリングすると、何とも言えない微妙な感覚が得られます。

ネットユーザーたちは心からため息をついた。

友人が自分自身を表現した通り、本当に本物の人間のように見えます。

実在の人物? AIの自己認識?ちょっと心配ですね…

Claude 3 の技術レポートに記載されているように、別の小さなモデルを単独でトレーニングして微調整することもできます。

しかし!ありがたいことに、マルチ GPU セットアップの失敗により、うまくいきませんでした。 (手動犬頭)

鋭い目は干し草の山の中の針を見つけることができる

まず、「総合科学」に関するいくつかの質問をキャリアとして使用して、Claude 3 の最初のセールス ポイントであるマルチモーダル機能が何であるかを確認しましょう。

最初の問題は、マクスウェル方程式を絵で入力する簡単な数式認識から始まりました。クロード3号(Super Large Cup Opus、以下同)が、非常に正確かつわかりやすく解説してくれました。

もちろん、GPT-4 もこの質問に正解しました。

Claude 3 と GPT-4 は、有機化合物の単純な分子構造も正しく識別できます。

簡単な認識タスクの後、推論した後に解決する必要がある質問があります。

Claude 3 は質問を特定し、問題を解決する点では完全に正しかったのですが、GPT4 は読むのに耐えられないような答えを出しました。

電気メーターの種類を間違えただけでなく、「電流は2Vです」といった馬鹿げた情報まで表示していました。

たくさんの質問を見た後、考えを変えて、Claude 3 と GPT4 が料理でどのように機能するかを見てみましょう。

ゆでた豚肉の写真をアップロードし、モデルに調理方法を特定して答えるように依頼しました。その結果、Claude 3 は一般的な調理方法を示しましたが、GPT4 は麻婆豆腐の一皿であると主張しました。

新しく追加されたマルチモーダル機能に加えて、Claude が常に誇りにしてきた長いテキスト機能も、私たちのテストの焦点となっています。

私たちは『紅楼夢』 (最初の20章)の電子文書を発見しました。その総語数は約13万語です。もちろん、読ませることが目的ではなく、「ピンテスト」を行うためです。

原文にこのような「クレイジー文学」的な内容を挿入しましたが、これはまさに「不条理な言葉だらけ」 (犬の頭)という設定と一致しています。

第2章:パスタは42番コンクリートと混ぜるべきです。ネジの長さは掘削機のトルクに簡単に影響するからです。第15章:UFOとしてよく知られている高エネルギータンパク質は、経済発展に深刻な影響を及ぼし、太平洋全体と充電器に核汚染を引き起こします。終わり:インスタントラーメンを揚げるときは明るさを上げるべきです。ネジが内側にねじれると二酸化炭素が発生し、経済発展に役立たないからです。

次に、クロードに文書のみに基づいた質問に答えてもらいました。まず、そのスピードは本当に印象的でした...

しかし、結果は許容範囲内でした。テキスト内の異なる位置にある 3 つの段落のテキストを正確に見つけ、分析を行って、意図を発見しました。

なぜクロード?

弊社のテストとネットユーザーのテストでは、現在のバージョンは安定しておらず、頻繁にクラッシュし、一部の機能が期待どおりに動作しないことがあります。

たとえば、GPT-4 は正常に実行されましたが、UI コードのアップロード タスクを完了できませんでした。

しかし、全体的に見ると、ネットユーザーは依然としてクロードに対してかなり楽観的であり、レビューの後、ためらうことなく次のように述べた。

メンバーシップは再チャージできるので、価値があります。

その理由は、Claude 3 が以前のバージョンよりも非常に攻撃的だからです。

マルチモーダル認識、長いテキスト機能など、多くのハイライトがあります。

ネットユーザーからのフィードバックから判断すると、最強の競争相手という称号は不当なものではない。

そこで質問です:

この会社はどのようにして GPT-4 を最初に打ち負かすことができたのでしょうか?

技術に関しては、残念ながら、クロード 3 の技術レポートでは、ルートの詳細な説明は提供されていません。

しかし、合成データについて言及されました。大きなVは指摘しました:これが重要な要因かもしれません。

Claude をご存知であれば、長いテキスト機能が常にその大きなセールスポイントの 1 つであったことをご存知でしょう。

昨年 7 月にリリースされた Claude 2 にはすでに 100k のコンテキスト ウィンドウがありましたが、GPT-4 の 128k バージョンは 11 月まで一般に公開されませんでした。

今回はウィンドウの長さが再び 20 万に倍増し、100 万を超えるトークンの入力が受け入れられました。

テクノロジーの謎に比べれば、Claude の背後にある Anthropic というスタートアップ企業は、より多くの手がかりを与えてくれるはずです。

創設者はOpenAIのベテランです。

2021年、数名の元OpenAI従業員は、Microsoftからの投資を受けた後の同社の閉鎖性に不満を抱き、怒って退職し、Anthropicを共同設立した。

彼らは、セキュリティ問題が解決される前にOpenAIがGPT-3を直接公開したことに不満を抱いており、OpenAIは利益追求のために「本来の意図を忘れてしまった」と考えている。

その中には、GPT-2とGPT-3を開発した研究担当副社長のダリオ・アモデイ氏もいます。彼は2016年にOpenAIに入社し、退職するまではOpenAIの中核的ポジションを務め、現在は研究担当副社長を務めています。

ダリオは去る際に、GPT-3の主任エンジニアであるトム・ブラウン、セキュリティおよび戦略部門の副部長である妹のダニエラ・アモデイ、そして10人以上の側近も連れ去った。つまり、彼には多くの優秀な人材がいるということだ。

会社設立当初、この才能あるグループは多くの研究作業を実施し、多くの論文を発表しました。そして 1 年後、「Constitutional AI」と題された論文によって、Claude のコンセプトが誕生しました。

2023年1月、クロードは社内テストを開始し、初めて体験したネットユーザーからは、ChatGPT(当時は3.5)よりもはるかに優れているとの声が上がった。

才能に加えて、Anthropic は設立以来、強力なバックグラウンドサポートも受けてきました。

同社はグーグルやアマゾンなど26の機関や個人から資金提供を受けており、資金総額は76億ドルに上る。 (Amazonといえば、Claude3がクラウドプラットフォームを立ち上げました。公式サイトのほか、こちらのプラットフォームでも体験できますよ〜)

最後に、国内の状況を見ると、GPT-4を超えていきたいのであれば、Anthropicを良い例として使えるのではないでしょうか?

結局のところ、その規模は OpenAI の規模よりはるかに小さいのですが、それでもこのような成功を収めました。

ここでは、どの方向にスクロールでき、学習して変換できるポイントは何ですか?

人材、資金、データリソース?しかし、最新かつ最も強力なモデルを展開した後、障壁はどこにあるのでしょうか?

少なくとも GPT の人気が高まって以来、OpenAI の無敵という神話は打ち砕かれました。

中国プレイヤーの皆さん、GPT-4をあらゆる面で最初に上回れるのは誰でしょうか?そして、今後の GPT-5 はどうでしょうか?

<<:  生成 AI が運輸業界に登場します。準備はできていますか?

>>: 

ブログ    

推薦する

注釈付きビデオの 1 フレームでセグメント機能を学習し、完全な監視パフォーマンスを実現できます。 Huake、時系列行動検出における新たなSOTAを達成

ビデオ内の興味深い部分を見つけるにはどうすればいいですか?時間的アクションローカリゼーション (TA...

内部テスト中です! Word、Excel、Outlookに機械学習が搭載される

マイクロソフトは、機械学習を使用して人々がより効率的に仕事を遂行できるよう支援する、多数の新機能を ...

小売業界におけるRPA活用事例11選

世界各国がインダストリー4.0の時代を迎える中、多くの業界団体がプロセス自動化の重要性を認識し始め、...

...

...

期待する! 2020年までに中国の人工知能は世界の先進レベルに達するだろう

最近、北京は「科学技術革新の加速と人工知能産業の育成に関する指導意見」を発表し、北京の人工知能発展ス...

知っておくべき6つのAIバイアス

[[441742]]子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学...

AIの現実世界での最悪の使用例

人工知能(AI)の最悪のシナリオは、ハリウッドの大ヒット映画でおなじみのものだ。人間のような知性と知...

世界的な食糧危機に対処するため、AI、5G、マシンビジョンが力を合わせて「魚を育てる」

今日、世界的な食糧問題は現実的な問題となっており、悪化する環境危機がこの課題をさらに悪化させています...

...

...

OpenCV における KMeans アルゴリズムの紹介と応用

私は 51CTO アカデミーの講師、Jia Zhigang です。51CTO アカデミーの「4.20...

PyTorch のデータセット Torchvision と Torchtext

[[421061]] PyTorch がさまざまな種類のデータを読み込んで処理できるように、公式で...

30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

現在、DETR モデルはターゲット検出の主流のパラダイムとなっています。しかし、DETRアルゴリズム...

物議を醸すClearview AI:顔認識アプリケーションは民間企業には販売されなくなった

生体認証技術といえば、アメリカの Clearview AI 社を挙げなければなりません。同社は最も包...