2日前、GoogleのChatGPTに似た製品Bardが大規模なアップデートを受け、画像認識機能など多くの要望の多かった新機能が追加され、「史上最大のアップグレード」と称されました。 画像認識機能により、Bard はチャットに挿入された画像を解釈し、画像の内容に関する詳細情報を識別し、画像に基づいてキャプションを生成するなどの処理を行うことができます。 Bard は、マルチモーダル アップグレードを通じて ChatGPT のゲームのルールを変えたと言えます。 写真 今週末、Bard を待ち望んでいる開発者は、Google Bard を使用してさまざまな興味深いアプリケーションを作成することを待ちきれません。 開発者は Bard を使って具体的に何ができるのか、疑問に思わずにはいられません。 Twitter ブロガーの @minchoi が、いくつかの素晴らしい Bard の使用事例をまとめました。さらに、Synced は他の興味深い使用例もいくつかまとめています。簡単に見てみましょう。 写真 スケッチがジョークサイトになった画像出典: Twitter @dr_cintas Google Bard のアップデートはすごいです。誰かがナプキンに描いたスケッチからウェブサイトを作成し、きっかけが必要でした。 詳細な手順は次のとおりです。 まず、Bard の Web サイトにアクセスし、+ をクリックしてスケッチ画像を追加し、プロンプトを記述します。ここでのプロンプトは、「元のコンテンツを 2 つの本物のジョークに置き換えたカラフルな Web サイトに変換する短い HTML/JS を記述する」ことです。 写真 現時点では期待した結果が得られない可能性があります。 「他のドラフトを表示」をクリックすると、Bard はさらに 2 つのオプションを提供するか、出力を再生成します。特定の何かを変更したい場合は、2 番目のプロンプトでそれを要求してください。色の変更のリクエストです。 写真 次に、実行するために、HTML コードをテキスト エディター (またはテキスト ファイル) にコピーし、[something].html という名前を付けます。このようにして、最終的な Web サイトとジョークの結末が完成します。 写真 1枚のスクリーンショットからiPhoneアプリを作成する画像出典: Twitter @ammaar それが十分衝撃的ではないと思うなら、もっとハードコアなものを試してください。 Google Bard を使用すると、スクリーンショットだけで 4 分以内に基本的なタイマー アプリを再現した人がいます。 さらに、アプリケーションが何をすべきかについてのヒントを Bard に与える必要はなく、Bard がすべてのコードを提供するだけです。いくつかのエラーがありましたが、バードは時間内にそれらを修正することができました。 完全な作成プロセスについては、以下のビデオで説明されています。 このBardの素晴らしい使い方について、一部のネットユーザーからは、GPT-4がリリースされたときに、ウェブサイトのUIを描画したりAIコーディングを行ったりするデモを見たことがあるという声が上がっていました。今回、Bard は、アプリや Web サイトを作成したいが、UI 全体を説明したくない (単にスケッチしたり Figma で作成したりしたい) 非技術者向けに、多くの興味深いアイデアを提供しています。 同様の例はたくさんあります。たとえば、画像を非常に高速に実行されるコードに変換する人もいます。 画像出典: Twitter @Yampeleg より洗練された専門のパーソナルアシスタントパーソナル アシスタントは、大規模な会話モデルの主要な使用例であり、Google Bard はより正確で特化しています。 ブロガーの@minchoiは、バード氏を経費管理アシスタントとして訓練した。詳細な手順は次のとおりです。 ステップ 1: 次のプロンプトを使用します。「あなたには私の出張経費を整理するパーソナル アシスタントとして働いてもらいたいです。一連の画像を提供し、経費報告書に必要なすべての情報 (日付、時刻、カテゴリ、説明、税込みの合計金額) とともに表にまとめてほしいです。領収書がなくなったら、「完了しました」と伝えます。」フォームのタイトルは「経費報告書」です。 ステップ 2: 領収書を Bard に渡します。携帯電話でレシートの写真を撮り、Bard にレシート <番号> (レシート 1、レシート 2 など) を伝えます。 Bard が情報を正確に抽出できるように、写真が鮮明であることを確認してください。 Bard はテキストをかなり正確に抽出できますが、情報が正しいことを必ず確認してください。 ステップ 3: すべての領収書を追加したら、「完了しました」と入力します。バードはすべての情報を表にまとめます。 ステップ 4: Bard にエクスポート レポートを生成するように指示します。データを Google スプレッドシートにエクスポートして経費レポートを作成することも可能です。 写真から完全なレシピを入手画像出典: Twitter @rowancheung 大きなダイアログ モデルが食事のレシピを提供するというのは新しい機能ではありませんが、今回の Bard は明らかに異なります。 ある人が最近食べた食事の写真をアップロードし、バードに詳しいレシピを尋ねました。 結果は驚くべきもので、バードは手順を記した非常に正確なレシピを提供しました。これは、バードのマルチモーダル機能がさらに一歩進んで、論理的推論能力を使用していることを意味します。 その他のユースケースコードを説明する Bard はユーザーのコードを 1 行ずつ解釈できるようになり、コード生成、コードのデバッグ、解釈などのプログラミングおよびソフトウェア開発タスクを支援します。 OCRテキスト認識 Bard は、請求書からテキストを抽出し、その情報を美しい表にまとめることができるようになりました。 診断用脳CT画像 バード氏はCTスキャンから得た自身の診断結果を発表したが、それは脳腫瘍、脳卒中、脳出血、あるいはその他の病気の可能性もあった。 画像出典: Twitter @CeoImed 開発者の経験が増え続けるにつれて、将来的には Google Bard のより興味深く本格的な使用例が発見されるようになると信じています。 |
<<: 1.9k の星を獲得した LLM 微調整ツール Lamini は高速かつ強力で、無料で利用可能
編集者注: 今日、データは人工知能のイノベーションを推進する中核的な要素です。ただし、データのセキュ...
最近、マイクロソフトは、開発者が AI および機械学習システムのセキュリティをテストできるように設計...
[[210283]]人工知能 (AI) と機械学習 (ML) は、現在非常に注目されている流行語で...
マイクロソフトが3月4日に公式発表したところによると、Azure Cognitive Service...
[[207472]]人工知能は未来をリードする戦略技術です。世界の主要先進国は人工知能の発展を国家...
ビッグデータダイジェスト制作著者: 劉俊環アン・リー監督の『ジェミニ・キラー』が公開されて半月近く経...
COVID-19パンデミックが猛威を振るい、人々のメンタルヘルスが危機に瀕し、医療費が上昇し、人口...
この記事では、「顔認識」技術を3つの側面から簡単に紹介します。 [[204600]]最近、iPhon...
米国のメリーランド大学の研究者4人が、GoogleのキャプチャシステムReCaptchaを解読できる...