AWS Transcribeが日本語に対応!便利すぎる文字起こし機能を実際に使ってみた!

  • 更新日
  • 閲覧数 19,363 Views

デジタルアスリート株式会社

SHARE

  • X
  • B!

AWS Transcribeについて

画期的な自動音声認識 (ASR) サービス

AWS Transcribeは保存された音声・動画ファイルからの文字起こしに加え、音声・動画のストリーミングデータを基にしたリアルタイムの文字起こしができる画期的な自動音声認識サービスです。

文字起こし、字幕作成、議事録作成など、今まで手動で行なっていたことをAWS Transcribeが代わりに行ってくれるため、大幅な作業時間の短縮が期待できます。

日本語に対応

米アマゾン・ウェブ・サービス(Amazon Web Services)は2019年11月21日、「AWS Transcribe」の対応言語に、日本語など7言語を追加したと発表しました。

「AWS(Amazon Web Service)」が提供する他のサービスと組み合わせれば、様々なことが効率化され、効果を実感できるツールとなるでしょう。

AWS Transcribeの使い方(準備)

AWS Transcribeを使うためには、いくつかの準備が必要です。 画像と共に手順を解説していきます。

①AWSアカウントを作成する

aws1

「今すぐ無料サインアップ」ボタンよりサインアップ画面へ移動します。

ステップ1: AWSアカウントの作成

aws2

はじめに AWS アカウントとなる情報を設定します。

① 表示されたページが「日本語」でない場合、ページ右上の言語選択ボックスより「日本語」を選択後、サインアップ画面へ進みます。

② 「ルートユーザーの E メールアドレス」には、AWS へのログイン時に使用するメールアドレスを設定します。

③ 「AWS アカウント名」に、名前を半角アルファベットで入力します。

入力が完了したら、「認証コードを電子メールアドレスに送信」ボタンをクリックします。

aws3

④「ルートユーザーの E メールアドレス」で入力したメールアドレスに届いた確認コードを入力します。入力が完了したら、「検証」ボタンをクリックします。

⑤「root ユーザーパスワード」で AWS へのログイン時に使用するパスワードを設定し、確認用にもう一度同じパスワードを入力します。

入力が完了したら、「続行」ボタンをクリックします。

ステップ2: 連絡先情報の入力

aws4

次に連絡先情報を登録します。

法人でのご利用であれば、「ビジネス – 職場、学校、組織向け」、個人のご利用であれば「個人 – ご自身のプロジェクト向け」を選択します。

連絡先情報は、すべて「半角アルファベットおよび半角数字」 で入力します。

フルネーム:  お客様のフルネーム
会社名:  お客様の会社名
電話番号: プルダウンメニューからお住まいの国を選択

続けてお客様のお電話番号の先頭のゼロを削除し、ハイフン・記号なし
(例:312345678)

国または地域コード: 国を選択
住所: お客様のご住所の番地、建物名等
(例 : 1-1-1, Kamiosaki ABC Building)

市区町村: お客様のご住所の市区町村名。
(例 : Shinagawa-ku)

州/都道府県または地域: お客様のご住所の都道府県名
(例 : Tokyo)

郵便番号: お客様のご住所の郵便番号をハイフン付き
(例:141-0021)

AWS カスタマーアグリーメント (利用規約) に同意の上、チェックボックスをクリックし、「続行」ボタンをクリックします。

ステップ3: 請求情報の入力

aws5

次に請求情報(お支払い情報)の登録を行います。

※ アカウントで AWS 無料利用枠の制限を超えた場合に AWS のサービスの有料使用にシームレスに移行できるようにするため、クレジットカードまたはデビットカードが必要になります。また、支払い情報を使用してアカウントの信頼性を確認し、不正な行為を防止します。

※ AWS 無料利用枠内のご利用に対し、料金は発生しません。本人様確認のため、3~5 日間、1 USD/EUR が保留中の取引として明細に表示されます。

※ 有効なクレジットカードまたはデビットカード情報を入力します。AWS では、ほとんどの主要クレジットカードとデビットカードを利用できます。

※請求先住所を選択します。前のステップで入力したご住所と同様の場合は、「連絡先住所を使用する」を選択します。アカウント作成時に入力した住所と異なる請求先となる場合は、「新しい住所を使用する」を選択して、請求先住所を入力します。

入力が完了したら、「確認して次へ」ボタンをクリックします。

ステップ 4: SMS または音声電話による本人確認

aws6

作成した AWS アカウントの本人確認を行います。テキストメッセージ (SMS) または、電話(自動音声) を選びます。

※ 入力した電話番号に、日本語の自動音声による検証コードの入力を求める確認電話または SMS が直ちに届きます。

希望の検証コードの受け取り方法を選択します。

国コードで、国を選択し、電話番号をハイフン・記号なしで入力します。
(例:09012345678)
セキュリティチェック文字列として表示された英数字を入力します。
入力が完了したら、SMS の場合「SMS を送信する」、音声通話の場合「今すぐ呼び出し」ボタンをクリックします。

SMS または電話(日本語自動音声)で 4 桁の 検証コードが届きます。
検証コードが届いたら入力欄に検証コードを入力し、「続行」ボタンをクリックします。

ステップ 5:  AWS サポートプランの選択

aws7

最後に AWS のサポートプランの選択を行います。有償のサポートを現時点で必要としない場合は、「ベーシックサポート」を選択します。

選択が完了したら、「サインアップを完了」ボタンをクリックします。
※開発者、デベロッパー、ビジネスいずれかの有償プランを選択した場合、月額最低サポート料金が加入時に請求となります。有償プランは AWS アカウント作成後に申込みすることもできます。

サインアップ (AWS アカウントの作成) が完了

aws7-8

数分ほどで、登録メールアドレス宛に確認のための E メールが届きます。「AWS マネジメントコンソールにお進みください」ボタンをクリックすると、すぐに AWS の利用を開始することができます。

今回解説したアカウントの作成の手順については、Amazonが手順を説明しています。
参考:https://aws.amazon.com/jp/register-flow/

②S3バケットを作成する

AWS Transcribeで使うデータは、事前に「S3バケット」という所に入れておく必要があります。

そのため、まずはこちらのS3バケットを作成しましょう。

マネジメントコンソールの検索窓で「S3」と打ち込むとフォームが出てくるのでここから作成します。

1.今すぐAmazonS3を始める を選択

aws8

2.バケットを作成する をクリック

aws9注意しなければならないのが、こちらのリージョン(地域)はアカウントの設定と一致している必要がある点です。

アカウントの設定時に所在地を日本以外に設定してしまっている方は地域を合わせなければ作成ができませんのでご注意ください。

その後はオプションの設定画面が出てきますが、特に必要が無い方はそのまま「次へ」を選択してしまっても構いません。

aws10

必要項目の入力まで終えると、S3バケットに先程作成したものが表示されます。

aws11

これでバケットの作成は完了です。

 

③S3バケットにファイルをアップロード

バケットが作成できましたら、ファイルをアップロードします。 S3バケット名とファイル名は後程使うのでメモをしておきましょう。 1.先程使用したバケットをクリックします。

2.アップロードを選択

3.後は手順に従って文字起こしをしたいファイルを読み込みましょう。

これで準備は整いました。

AWS Transcribeの使い方(実際に文字起こしをしてみよう)

では、いよいよAWS Transcribeを使って文字起こしをしてみましょう。 先程と同様に検索窓から「Transcribe」と検索します。

ボタンをクリックし、AWS Transcribeを起動します。

▼こちらの画面が表示されます。

※「Real-time transcription」は日本語非対応の為、今回は「Transcription jobs 」を選択。

①Amazon TranscribeでJOBを作成する

Transcription jobsの画面が表示されましたら、「Create job」からJOBを作成します。

1.【Job settings】JOB名と言語を選択

Name:英数字の名前(JOB名)を記入します。 Language:Japanese(Japan)を選択

2.【Input data】データを取り込む

Input file location on S3:ここで先ほどメモした「S3バケット名」と「ファイル名」を記入します。

(バケット名/ファイル名) Formatなどはオプションのため、必要なければ記入する必要はありません。 Output dataに関しても、特にいじる必要はありません。

3.記入ができたら、「Create」を選択

②JOBの完了を待つ

1.先ほど作成したJOB名をクリックします

2.JOBが終了したら、下記の画面が表示れされます。

今回は8分55秒の動画を読み込みましたが、読み込みを開始してすぐに文字起こしが完了しました。 これはかなり早い時間での処理が可能なようです。

①文字起こしの結果を確認

では、実際に出てきた文章を確認してみましょう!

 

体感でいうと、約7~8割程の精度で認識ができていました。 単語にカーソルを合わせると、何秒の言葉なのかも確認することができます。

ただ、「既存顧客」や「顕在層」などの用語に関しては問題なく認識ができているのですが、文節と文節の間の、いわゆる「場つなぎ音」も読み取ってしまいます。 そのため、全体の文章としては少し読みにくく感じてしまうため、ある程度の校正は必要なようです。

AWS Transcribe:文字起こしの結果

では、実際に使用した動画と文字の結果を照らし合わせてみましょう。 使用した動画

AWS Transcribeの認識結果

うん これ じゃ 流す です 本日 は です ね 僕 の 専門 分野 の マーケティング について お話 を し て し て いき たい と 思い ます マーケティング って 何 を? する こと です が え? こんな 風 に 聞か れ て です ね え いまいち ピン と し た 答え が 返さ ない え? こう いっ た 形 です ね 本当 の 内容 は 必見 の 内容 に なっ て おり ます え? マーケティング は です ね え 僕 の 中 で ま 専門 的 な 話 と し て え? 定義 を し て いき ます と 適切 な 顧客 に 適切 な タイミング で 適切 な オファー を 提供 する すべて の 活動 の こと を 指し ます ウェブ 広告 コピーライティング メディア の 上 こう いっ た もの を です ね えーっと マーケティング と し て 捉え て い ます と 非常 に 断片 的 な 話 に なっ て き ます の で え 危険 な 状態 に なっ て おり ます 影響 です ね この 便 マーケティング について お伝え し て いき たい です が え 二 千 畑地 年間 です ね と 述べ 部 マーケティング マーケティング を 正しく 理解 し て い ない と なかなか 成果 が 出 ない え 時代 に なっ て き て おり ます (中略)です ので いかに です ね 新規 顧客 を 安く 獲得 する か? という の が 常 マーケティング だ という ふう に です ね 考え て いらっしゃる の で あれ ば さて 本日 は です ね え この マーケティング という 考え方 を まず 改め て いただき たい な と いう 風 に え? 全て の 適切 な 顧客 適切 な タイミング で 適切 な オファー を 提供 する すべて の 活動 の こと を マーケティング と いう 風 に いたし ます ので 以下 に です ね え この 四 つ の ステージ に 合わせ て え え 適切 な 顧客 に 適切 な タイミング で え? それぞれ 適切 な オファー を 提供 し ながら 最終 ゴール です ね え 自社 の 顧客 既存 顧客 を 増やし て いく 為 の え? 全て の 活動 の こと を マーキング です に 呼ん で い ます 全て の ステージによっ て それぞれ 施策 が 変わり ます の で え これ ら を ね え 全て 統合 し て 一体 に 最適 化 を し て 既存 顧客 の ソース を 増やし て いく の が え? これ は です ね マーケティング の 正しい 戦い 方 の 話 に なっ て き ます

気になるAWS Transcribeの料金は?

さて、気になるAWS Transcribeの利用料金ですが、1 か月に文字起こしを行った音声の秒数に基づいて、従量課金制で料金が発生します。

Amazon Transcribe の無料利用枠の使用は簡単に開始できます。サインアップしたら、毎月最大 60 分の音声の分析を開始でき、最初の 12 か月間は無料です。

AWS Transcribeが持つ7つの便利機能

その他にも、AWS Transcribeでは以下のような機能があります。

■読みやすい文字起こし

ほとんどの音声認識システムが出力する文字列には句読点がありません。

Amazon Transcribe では、深層学習技術が用いられており、句読点の追加や整形が自動的に行われるため、出力は読みやすく、出力後の編集が少なくて済みます。

■タイムスタンプ生成

Amazon Transcribe では、すべての単語にタイムスタンプが付加されるので、テキストを探すことでオリジナル録音音声の頭出しを簡単に行うことができます。

■幅広いユースケースをサポート

Amazon Transcribe は幅広い音質に対して正確で自動化された文字起こしを提供します。

どのような動画や音声ファイルにも字幕を生成でき、カスタマーサービスの電話のような音質の悪い電話録音でも文字起こしができます。

■カスタム語彙

Amazon Transcribe では音声認識語彙の拡張とカスタマイズを行うことができます。

新しい言葉を基本語彙に加えて、ユースケースに合わせて製品名、分野固有の用語、個人名などを入れることができ、正確な文字起こしができます。

■複数話者の認識

Amazon Transcribe では話者の変更を認識して、文字起こしテキストに適切な属性を設定できます。

これにより、電話、会議、テレビ番組などの複数話者による音声を文字起こしするのに必要となる作業量を大幅に減らすことができます。

■チャネルの識別

Amazon Transcribe は、各話者が別々のチャネルで記録された場合の音声と動画を処理することができます。

単一の音声ファイルを Amazon Transcribe に渡すと、各チャネルが識別され、チャネルのラベルが追加された単一のスクリプトが生成されます。

これによって、コンタクトセンターには大きな利点がもたらされます。

■文字起こしのストリーミング

Amazon Transcribe を使用すると、リアルタイムで音声からテキストへの文字起こしができます。

HTTP/2 プロトコル経由のセキュアな接続を使用して、このサービスにライブオーディオストリームを送信すると、リアルタイムで折り返し文字に起こされたテキストのストリーミングを受信できます。

まとめ

今回は、AWS Transcribeの音声認識機能が日本語に対応したということで、使い方とその結果をまとめてみました。

打ち合わせの音声を文字にできる、「AWS Transcribe」の便利な機能をこれからも活用していこうと思います。

無料プランもあるので、ライターの方や文字起こしを頻繁に行っている方は一度利用してみてください。

Writer

デジタルアスリート株式会社 記事一覧

1,890社以上の支援実績と最新のWebマーケティングノウハウで、あなたのビジネスを支援。売上・集客を最大化します。

合わせて読まれている記事