Amazon Transcribe について

Amazon Transcribe について

Amazon Transcribe は、開発者がアプリケーションに音声テキスト変換機能を簡単に追加できるようにする自動音声認識 (ASR) サービスです。 Amazon Transcribe API を使用すると、Amazon S3 に保存されている音声ファイルを分析し、サービスから文字起こしされた音声のテキストファイルを返すことができます。

[[241018]]

Amazon Transcribe は、カスタマー サービス コールの文字起こしや、オーディオおよびビデオ コンテンツの字幕生成など、多くの一般的なアプリケーションに使用できます。このサービスでは、WAV や MP3 などの一般的な形式で保存された音声ファイルを書き起こし、各単語にタイムスタンプを添付して、テキストを検索することで元のソース内の音声を簡単に見つけることができます。 Amazon Transcribe は、言語の進化に合わせて継続的に学習し、改善しています。

主な特徴

人間に優しい文字起こし

ほとんどの音声認識システムの出力は、句読点のないテキストのストリームです。 Amazon Transcribe はディープラーニングを使用して句読点や書式設定を自動的に追加し、出力をよりわかりやすくして、さらに編集することなくすぐに使用できるようにします。

カスタム語彙

Amazon Transcribe を使用すると、音声認識語彙を拡張およびカスタマイズできます。基本語彙に新しい単語を追加して、製品名、ドメイン固有の用語、個人名など、ユースケースに固有の非常に正確な文字起こしを生成できます。

タイムスタンプを生成する

Amazon Transcribe は各単語のタイムスタンプを返すため、テキストを検索することで元の録音内の音声を簡単に見つけることができます。

複数の話者を識別する

Amazon Transcribe は話者の抑揚を認識し、それに応じてトランスクリプトを作成します。これにより、電話、会議、テレビ番組など、複数の話者がいる音声を書き起こすために必要な労力を大幅に削減できます。

幅広いユースケースをサポート

Amazon Transcribe は、さまざまな品質のオーディオに対して正確な自動文字起こしを提供するように設計されています。あらゆるビデオ ファイルやオーディオ ファイルのキャプションを生成できるほか、カスタマー サービス通話などの低品質の電話録音を書き起こすこともできます。

チャンネル合成(近日公開予定)

Amazon Transcribe は、音声をより適切に処理するために、各話者の音声を個別のチャネルで録音します。コンタクトセンターは、Amazon Transcribe に単一のオーディオファイルを送信すると、2 つのチャネルを識別して分離し、各チャネルの音声を書き起こし、チャネルラベルを使用して調整された統合された書き起こしを作成するというメリットを得られます。

ユースケース

Amazon Transcribe は、カスタマーサービス、字幕作成、検索、コンプライアンスなど、幅広いユースケースに対応する文字起こしサービスを提供します。

顧客サービスの向上

Amazon Transcribe は、音声入力をテキストに変換することで、音声入力を検索および分析できるテキスト分析アプリケーションの構築に役立ちます。カスタマーコンタクトセンターは、Amazon Transcribe を使用して音声通話を書き起こし、Amazon Comprehend などの他の AWS 製品を使用してデータをマイニングし、会話から意味と意図を抽出することで洞察を得ることができます。

字幕ワークフロー

Amazon Transcribe は、ビデオコンテンツと一緒に表示されるタイムスタンプ付きの字幕を自動的に生成することで、コンテンツ作成者やメディア発行者がリーチとアクセスを拡大するのに役立ちます。

オーディオアーカイブカテゴリー

このサービスを使用すると、オーディオおよびビデオ資産を完全に検索可能なアーカイブに書き起こして、コンプライアンス監視とリスク管理に役立てることができます。お客様は、Amazon Transcribe を使用して音声をテキストに変換し、Amazon ElasticSearch Service を使用して音声/ビデオライブラリのインデックスを作成し、テキストベースの検索を実行できます。

<<:  Amazon Translateについて

>>:  Amazon SageMaker について

ブログ    

推薦する

センサーがなければ、電子自動化もロボットも存在しないでしょう。

センサーは、温度、湿度、光、その他の非電気量などの特定の物理的パラメータの変化を、電流、電圧などの別...

2018年、中国とアメリカのインターネット大手によるAIチップ戦争で、BATはFANGに挑戦できるのか?

AI時代に注目すべき新たな変化は、テクノロジー大手がAIチップを独自に開発し始めたことだ。これは一...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

6月19日のニュース:AI産業の急速な発展に伴い、テクノロジー業界のAI人材に対する需要も高まってい...

企業における生成AIのセキュリティリスクを管理する方法

ChatGPT のリリースに続く生成 AI モデルの急速な導入により、企業がビジネスを遂行し、顧客や...

...

ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?

1年前の今日、ChatGPTが誕生し、人工知能の新しい時代が到来したように思えました。 ChatG...

Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「新世代人工知能倫理規定」が発表:人工知能のライフサイクル全体に統合し、データプライバシーのセキュリティとアルゴリズムの倫理に重点を置く

9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...

最先端の洞察 | ドローン配達が紛失しない理由はここにあります!

Frontier Insights の今号では、ドローンが商品を配送する際に進路を見つけやすくする...

...

Pytorch の核心であるオプティマイザを突破! !

こんにちは、Xiaozhuangです!今日は Pytorch のオプティマイザーについてお話します。...

ボストン・ダイナミクスの大きな黄色い犬が石油会社に加わる! 「決して疲れない」と主張する

[[314711]]ボストン・ダイナミクス社が開発したスポットは、ノルウェーの石油会社アーケル社で独...

人工知能を人間化して、その信頼性を確立するにはどうすればよいでしょうか?

人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...

...

クラウドコンピューティングは AI を民主化するための鍵となるのでしょうか?

日本の収穫期には、農家の中には毎日多くの時間を費やして、農場で収穫したキュウリを種類ごとに仕分けする...