AWS Transcribeが日本語に対応!便利すぎる文字起こし機能を実際に使ってみた!

ライターやブログをしている方にとっては文字起こしって結構大変ですよね…
リアルタイムの音声入力を使っているけど、動画や音声ファイルも文字起こししたい…という方は多いのではないでしょうか?

そんな中、アマゾン ウェブ サービス(AWS)が11月21日、音声からの文字起こしを行う有料サービス「AWS Transcribe(トランスクライブ)」において、日本語を含む7言語への対応開始を発表しました。

毎日膨大な量の文字起こしをしている人にとってこれは嬉しいニュースですよね。

今回はこちらのAWS Transcribeの使い方の解説と、実際に使ってみた所感をご紹介します!

AWS Transcribeについて

画期的な自動音声認識 (ASR) サービス

AWS Transcribeは保存された音声・動画ファイルからの文字起こしに加え、音声・動画のストリーミングデータを基にしたリアルタイムの文字起こしができる画期的な自動音声認識サービスです。

日本語に対応

米アマゾン・ウェブ・サービス(Amazon Web Services)は2019年11月21日、「AWS Transcribe」の対応言語に、日本語など7言語を追加したと発表しました。

AWS Transcribeの使い方(準備)

AWS Transcribeを使うためには、いくつかの準備が必要です。

キャプチャと共に手順を解説していきます。

①AWSアカウントを作成する


アカウントの作成の手順については、Amazonが手順を説明しています。

参考:https://aws.amazon.com/jp/register-flow/

プランの選択では、ベーシックプラン、開発者プラン、ビジネスプランの3種類のプランから選択することができます。

②S3バケットを作成する

AWS Transcribeで使うデータは、事前に「S3バケット」という所に入れておく必要があります。そのため、まずはこちらのS3バケットを作成しましょう。

マネジメントコンソールの検索窓で「S3」と打ち込むとフォームが出てくるのでここから作成します。

1.今すぐAmazonS3を始める を選択

2.バケットを作成する をクリック

注意しなければならないのが、こちらのリージョン(地域)はアカウントの設定と一致している必要がある点です。

アカウントの設定時に所在地を日本以外に設定してしまっている方は地域を合わせなければ作成ができませんのでご注意ください。

その後はオプションの設定画面が出てきますが、特に必要が無い方はそのまま「次へ」を選択してしまっても構いません。

④の確認まで終えると、S3バケットに先程作成したものが表示されます。

これでバケットの作成は完了です。

③S3バケットにファイルをアップロード

バケットが作成できましたら、ファイルをアップロードします。

S3バケット名とファイル名は後程使うのでメモをしておきましょう。

1.先程使用したバケットをクリックします。

2.アップロードを選択

3.後は手順に従って文字起こしをしたいファイルを読み込みましょう。

これで準備は整いました。

AWS Transcribeの使い方(実際に文字起こしをしてみよう)

では、いよいよAWS Transcribeを使って文字起こしをしてみましょう。

先程と同様に検索窓から「Transcribe」と検索します。

ボタンをクリックし、AWS Transcribeを起動します。

▼こちらの画面が表示されます。

※「Real-time transcription」は日本語非対応の為、今回は「Transcription jobs
」を選択。

①Amazon TranscribeでJOBを作成する

Transcription jobsの画面が表示されましたら、「Create job」からJOBを作成します。

1.【Job settings】JOB名と言語を選択

Name:英数字の名前(JOB名)を記入します。
Language:Japanese(Japan)を選択

2.【Input data】データを取り込む

Input file location on S3:ここで先ほどメモした「S3バケット名」と「ファイル名」を記入します。(バケット名/ファイル名)

Formatなどはオプションのため、必要なければ記入する必要はありません。

Output dataに関しても、特にいじる必要はありません。

3.記入ができたら、「Create」を選択

②JOBの完了を待つ

1.先ほど作成したJOB名をクリックします

2.JOBが終了したら、下記の画面が表示れされます。

今回は8分55秒の動画を読み込みましたが、読み込みを開始してすぐに文字起こしが完了しました。

これはかなり早い時間での処理が可能なようです。

①文字起こしの結果を確認

では、実際に出てきた文章を確認してみましょう!

体感でいうと、約7~8割程の精度で認識ができていました。

単語にカーソルを合わせると、何秒の言葉なのかも確認することができます。

ただ、「既存顧客」や「顕在層」などの用語に関しては問題なく認識ができているのですが、文節と文節の間の、いわゆる「場つなぎ音」も読み取ってしまいます。

そのため、全体の文章としては少し読みにくく感じてしまうため、ある程度の校正は必要なようです。

AWS Transcribe:文字起こしの結果

では、実際に使用した動画と文字の結果を照らし合わせてみましょう。

使用した動画

AWS Transcribeの認識結果

うん これ じゃ 流す です 本日 は です ね 僕 の 専門 分野 の マーケティング について お話 を し て し て いき たい と 思い ます マーケティング って 何 を? する こと です が え? こんな 風 に 聞か れ て です ね え いまいち ピン と し た 答え が 返さ ない え? こう いっ た 形 です ね 本当 の 内容 は 必見 の 内容 に なっ て おり ます え? マーケティング は です ね え 僕 の 中 で ま 専門 的 な 話 と し て え? 定義 を し て いき ます と 適切 な 顧客 に 適切 な タイミング で 適切 な オファー を 提供 する すべて の 活動 の こと を 指し ます ウェブ 広告 コピーライティング メディア の 上 こう いっ た もの を です ね えーっと マーケティング と し て 捉え て い ます と 非常 に 断片 的 な 話 に なっ て き ます の で え 危険 な 状態 に なっ て おり ます 影響 です ね この 便 マーケティング について お伝え し て いき たい です が え 二 千 畑地 年間 です ね と 述べ 部 マーケティング マーケティング を 正しく 理解 し て い ない と なかなか 成果 が 出 ない え 時代 に なっ て き て おり ます (中略)です ので いかに です ね 新規 顧客 を 安く 獲得 する か? という の が 常 マーケティング だ という ふう に です ね 考え て いらっしゃる の で あれ ば さて 本日 は です ね え この マーケティング という 考え方 を まず 改め て いただき たい な と いう 風 に え? 全て の 適切 な 顧客 適切 な タイミング で 適切 な オファー を 提供 する すべて の 活動 の こと を マーケティング と いう 風 に いたし ます ので 以下 に です ね え この 四 つ の ステージ に 合わせ て え え 適切 な 顧客 に 適切 な タイミング で え? それぞれ 適切 な オファー を 提供 し ながら 最終 ゴール です ね え 自社 の 顧客 既存 顧客 を 増やし て いく 為 の え? 全て の 活動 の こと を マーキング です に 呼ん で い ます 全て の ステージによっ て それぞれ 施策 が 変わり ます の で え これ ら を ね え 全て 統合 し て 一体 に 最適 化 を し て 既存 顧客 の ソース を 増やし て いく の が え? これ は です ね マーケティング の 正しい 戦い 方 の 話 に なっ て き ます

気になるAWS Transcribeの料金は?

さて、気になるAWS Transcribeの利用料金ですが、「1秒あたり0.0004USD(1ドル、2019年12/13現在0.044円)」になっています。

インタビューや打ち合わせの音声を文字起こしするとして、1時間で158円ほどです。

コーヒー1杯ほどの値段で打ち合わせの音声を文字起こししてくれると考えると、費用対効果は高いですね。

また、ベーシックプランでは利用開始してから12か月間の間は、1か月あたり60分が無料利用枠として利用することができます。

AWS Transcribeが持つ7つの便利機能

その他にも、AWS Transcribeでは以下のような機能があります。

■読みやすい文字起こし

ほとんどの音声認識システムが出力する文字列には句読点がありません。Amazon Transcribe では、深層学習技術が用いられており、句読点の追加や整形が自動的に行われるため、出力は読みやすく、出力後の編集が少なくて済みます。

■タイムスタンプ生成

Amazon Transcribe では、すべての単語にタイムスタンプが付加されるので、テキストを探すことでオリジナル録音音声の頭出しを簡単に行うことができます。

■幅広いユースケースをサポート

Amazon Transcribe は幅広い音質に対して正確で自動化された文字起こしを提供します。どのような動画や音声ファイルにも字幕を生成でき、カスタマーサービスの電話のような音質の悪い電話録音でも文字起こしができます。

■カスタム語彙

Amazon Transcribe では音声認識語彙の拡張とカスタマイズを行うことができます。新しい言葉を基本語彙に加えて、ユースケースに合わせて製品名、分野固有の用語、個人名などを入れることができ、正確な文字起こしができます。

■複数話者の認識

Amazon Transcribe では話者の変更を認識して、文字起こしテキストに適切な属性を設定できます。これにより、電話、会議、テレビ番組などの複数話者による音声を文字起こしするのに必要となる作業量を大幅に減らすことができます。

■チャネルの識別

Amazon Transcribe は、各話者が別々のチャネルで記録された場合の音声と動画を処理することができます。単一の音声ファイルを Amazon Transcribe に渡すと、各チャネルが識別され、チャネルのラベルが追加された単一のスクリプトが生成されます。これによって、コンタクトセンターには大きな利点がもたらされます。

■文字起こしのストリーミング

Amazon Transcribe を使用すると、リアルタイムで音声からテキストへの文字起こしができます。HTTP/2 プロトコル経由のセキュアな接続を使用して、このサービスにライブオーディオストリームを送信すると、リアルタイムで折り返し文字に起こされたテキストのストリーミングを受信できます。

まとめ

今回は、AWS Transcribeの音声認識機能が日本語に対応したということで、使い方とその結果をまとめてみました。

コーヒー1杯分のお金で打ち合わせの音声を文字にできる、「AWS Transcribe」の便利な機能をこれからも活用していこうと思います。

無料プランもあるので、ライターの方や文字起こしを頻繁に行っている方は一度利用してみて下さい!

そのほか、効率化に関する記事はこちら↓

Web会議システムとは?Web会議システムとは、インターネットを使って、遠隔地点の相手と音声や動画によるコミュニケーションをリアルタイムで実施できるシステムのこと...

リスマガ【Web集客の教科書】
 
リスマガ【Web集客の教科書】
Web集客の基本から最新ノウハウまで!現役コンサルタントが、リスティング広告やWebマーケティングの情報をわかりやすくお伝えします。

Web広告でコンバージョン数を最大化する7つの極意をプレゼント!

「Web広告マーケティング大全」
(無料・PDFでのダウンロード)

2018年9月発行の書籍「コンバージョンを最適化する7つの極意」の元となった、電子書籍「Webマーケティング大全」を無料でダウンロードいただけます。
(PDF・全161ページ)

無料でPDFファイルをダウンロードする
(全161ページ)
Web公告マーケティング大全
マーケ脳社長
マーケ脳社長

リスマガ編集長の長橋真吾公式twitterにて最新情報配信中!

Web広告の最新情報、成功事例/Webマーケティング組織の作り方/サイト設計、ランディングページ構築/コンテンツマーケティング全般/セミナー集客、セミナー販売/ビジネスモデル設計/ビジネスシーンの悩み解消など、リスマガでは取り扱えない、現場の最前線情報をお送りしています。

登録QRコード

QRコード
現場の最前線情報を配信中、長橋真吾twitterをフォローする

登録QRコード

QRコード

関連記事一覧

コンバージョン数を今すぐ最大化する
7つのチェックポイントを無料で公開!

無料でPDFファイルをダウンロードする
(全161ページ)

コンバージョン数を最大化する7つのポイント

無料でPDFファイルを
ダウンロードする(全161ページ)