文字起こし作業の大革命!?Amazon Transcribeの音声テキスト変換機能を使ってみたので、使い方と感想を共有します💪

俺達のAmazonが遂にやってくれました。

そう、取材などで絶対に必要なんだけど、できれば避けて通りたい道、それが録音した音声の文字起こし(テープ起こし)です。ライターの皆さん、わかるよね。

その苦行をもしかしたら和らげてくれるかもしれないサービスが、遂に日本語対応しました!(∩´∀`)∩ワーイ

その僕らの救世主「Amazon Transcribe」を早速使ってみたので、その利用方法や精度、価格についてまとめてみました。

スポンサーリンク

Amazon Transcribeの使い方

Amazon Transcribeを利用するためにはAWS(Amazon Web Services/アマゾンウェブサービス)のアカウントを作成する必要があります。

これはAmazonでお買い物に使うアカウントとは別で、ほとんどの人は新規で取得することになるでしょう。

AWSというと多少、ハードルが高く感じるかもしれませんが、サーバー系にまったく見識のない僕でも30分程度で設定できたので、文字起こしに困ってる皆さんだったら、そのハードルも乗り越えられるはずです。さ、がんばるよ!

AWSのアカウントを作成する

まず Amazon Transcribe のページ(↑のリンク)にアクセスします。

右上の「無料サインアップ」をクリックして、AWSのアカウントを作成します。

メールアドレスやパスワード、氏名や住所(氏名・住所はローマ字入力)、決済情報を淡々と入力していきます。アカウントの種類は個人であればパーソナルを選択しておけばOKだと思います(僕はパーソナルでアカウントを作りました)。

続いて電話番号を使った認証コード(SMSか音声通話で受領)を入力すればアカウント作成は完了です。

最後にプランを選択します。基本的にはベーシックプラン(無料)を選択しておけばOKです。最後にパーソナライズのアンケート(選択肢)が出ますので、興味ある分野を選択しましょう。

Amazon Transcribeのページに行くと、右上が「無料サインアップ」から「コンソールにサインイン」に変わっています。

ではログインしてみましょう。AWSのアカウント作成時に設定したメールアドレスとパスワードを入力すれば、AWSのコンソールが表示されます。

AWSマネジメントコンソールの右上に地域設定があるのですが、オハイオになっている場合があるので、ここをアジアパシフィック(東京)に変更しておきましょう。

コンソール内の「すべてのサービス」の中にAmazon Transcribeが記載されています。喜び勇んでクリックしても、まだ文字起こしはできません。

Amazon S3(Amazon Simple Storage Service)というクラウドストレージ(要はファイル置き場)に文字起こしをおこないたい音声ファイルをアップロードしておく必要があります。

Amazon S3に音声ファイルをアップロードする

検索バーに「S3」と入力するか、「すべてのサービス」からS3を選択すればAmazon S3のページに遷移します。左上の「+バケットを作成する」か中央下の「今すぐ始める」をクリックしてバケットを作成します。

バケット名は任意の文字列を入力します。あとはよくわからなかったので、右下の「次へ」を連打してバケットを作成します(これでいいの?)。

一覧に作成したバケットが表示されます。クリックすると、ファイルアップロード画面が表示されます。左上の「アップロード」をクリックして音声ファイルを選択しましょう。

試しに2つのファイルをアップロードしてみました。一つが約55分の音声(生声)、もう一つが約1時間20分の音声(マイク使用)です。ここもいろんな選択肢がでるのですが、よくわからなかったので「次へ」を連打しました(本当にいいのか?)。

音声ファイルがアップロードされたら、そのファイルをクリックしてみましょう。詳細が表示されます。

なお各音声ファイルの詳細画面の一番下に「オブジェクトURL」という項目があります。このURLは文字起こし時に使いますので、コピーしておきましょう。

Amazon Transcribeで自動文字起こしをする

さて、いよいよAmazon Transcribeでの文字起こし作業に入ります。

Amazon Transcribeにアクセスして右上の「Create job」をクリックします。すると設定画面が表示されますので、jobの名前(任意の文字列)を入力し、言語をJapaneseに設定します。

そして先ほどコピーしたファイルの保存場所URLをペーストして、音声ファイルの拡張子を選択します。今回は音声ファイルなのでmp3を選択していますが、動画ファイルのmp4も選択可能です。

最後に「Create」ボタンをクリックすれば、自動文字起こしが開始されます。

「In progless(進行中)」が「Complete(完了)」になれば文字起こし終了です。

参考までに55分の音声の文字起こしにかかった時間は15分、1時間20分の音声の文字起こしにかかった時間は37分でした。録音音声の状態によっても時間は変動しそうですね。

なお、保存期間は89日間です。

文字起こしに完了したファイルを選択すると、データの詳細と5000字程度のプレビューが表示されます。

全文を取得したい場合は右上の「Download full transcript」をクリックします。クリックするとJSONファイルがダウンロードされます。JSON!?

JSONとは

JSONとはJavaScript Object Notationの略で、XMLなどと同様のテキストベースのデータフォーマットです。

https://thinkit.co.jp/article/70/1

JSONってどうやって開けばいいんだよ…。

JSONファイルを開くための試行錯誤

この項目は僕だけかもしれないので、ダウンロードしたファイルが普通に開く人は飛ばしてください&もっといいやり方知ってるエラい人、やり方教えてください。

(なお後ほど詳しく書きますが、55分の音声ファイルを文字起こしした文量は約12,000字でした)

くよくよしててもしょうがないので、Wordで開いてみました。クソ重くて動きません。

くよくよしててもしょうがないので、ググって見つけたJSONからCSVに変換できるウェブサービスでCSVに変換してみました。

このCSVをWordで再挑戦してみたんですが、こちらもクソ重くて動きません。

くよくよしててもしょうがないので、GoogleドライブにCSVをアップロードしてスプレッドシートで開いてみました。

軽い!

このデータをWordにコピペすればあら簡単!我がWordに12,000字が無事に移植されました。なんでこんなに苦労してんだろ。

【追記】JSONの展開についてエラい人が教えてくれました。いろんな情報いただければさらに追記します。

Amazon Transcribeの精度

さて、作業方法はわかったけれども、重要なのは文字起こしの精度です。早くても安くても、理解できない文章では意味がありません。

これに関しては実際に文字起こしされた文章を見てもらうのが早いと思いますので、一部を切り取って公開します。

この音声データは先日開催した「あなた、それダマされてますよ」というセミナーで喋った内容になります。

Amazon Transcribeで文字起こしされた文章

約550字を切り出してみました。そのままだとかなり読みづらいので、段落分けだけしています。

はい では あらため まし て え 本日 は あなた ソレ 騙さ れ て ます また 奇特 な セミナー に お越し いただき まし て ありがとう ござい ます

影響 下がら せ て いただき ます まず 染谷 と 申し ます あと お ひとり あの 後半 喋る はい もう ひとり 初め です ね 上 の 方 です よ お願い し ます はい で ね ざっくり と し た 内容 な ん です よ 僕 の 方 が 結構 概論 と いう か え ない で 共通 いろんな 話 を さ せ て 貰っ て こっち の 奥さん が なかなか と 思っ ちゃ う ね あの 具体 的 な 笑い話 も 含め て お話し できる か な と 思っ て 知っ て ます

はい では 先 に 自己 紹介 を 僕 普段 あんまり 自己 紹介 し ない です よ 今日 は ちょっと 入れ て き まし た

けど 確か えーっと 四 十 七 十 五 年 まで の 四 十 四 歳 で えーっと 十 年間 会社 やっ て ま

三 社 勤め て い て 最初 は ちっちゃい 就職 情報 誌 の 会社 に 社名 が え? 図書 一部 だけ ま の 分かれ ば いい 話 って 会社 です で まだ 四 百 年 ぐらい の 時 に 入っ て 四 年間 行っ て 採用 回り あと 人事 官 に 周り を やっ て やる 時 に 千 人 ぐらい なっ て 当初 一部 に 上昇 し て ます

んで ソレ やめ て え? 次 が クレディセゾン 系 カード 会社 金融 系 の 不動産 会社 に 転職 し て そこ を、 見る 写真 は 二条城 だっ た ん です けど 辞める 時 に は 醸造 し て いっ て し て い た ん? です けど もう リーマン ショック で 凄い こと に なっ た

実際にセミナーで喋った内容

はい。では、改めまして本日は、えー、「あなた、それダマされてますよ」という、また奇特なセミナーにお越しいただきまして、ありがとうございます。

えー、今日喋らせていただきます染谷と申します。あと、ひとり、あの後半喋る、はいもう 一人、染谷なんですけどよろしくお願いします。はい、でね、ざっくりとした内容なんです けど、僕の方が結構、概論というか、共通項的ないろんな話をさせて貰って、うちの奥さんがなかなかのネットウォッチャーなので、具体的な笑い話も含めてお話しできるかなと思っています。

はい、では先に自己紹介を、僕、普段あんまり自己紹介しないんですけど、今日はちょっと入れてきました、珍しく。

えーっと、40…75年生まれの44歳で、えーっと12年間、会社員やってます。

三社勤めていて、最初はちっちゃい就職情報誌の会社 、二社目が東証一部って書いてありますが、ガリバーインターナショナルって会社です。で 、まだ400人ぐらいの時に入って、四年間居て、 採用周り、あと人事管理周りをやって、辞める時に2,000人ぐらいなって東証一部に上場してます。

んでそれ辞めて、えー、次がクレディセゾン系、カード会社、金融系の不動産会社に転職して、そこも入社時は未上場だったんですけど辞める時には上場していて、していいたんですけど、もうリーマンショックで凄いことになった。

どうでしょうか?

僕の個人的感覚ですが、70%ぐらいの精度で文字起こしされている感じです。

一度、音声を聞いた人が読み返せばある程度理解できますが、文字起こしの文章だけで文脈を完全に理解するのは少し難しいという印象かもしれません。

とはいえ、Amazonの技術力ですから、これから更に精度を上げてくることが期待できます。

なお、マイク収録の方は反響などの要因か、ほとんど理解できない文章が書き起こされてました。なので、できるだけ生声での収録の方が現状は良いかもしれません。

Amazon Transcribeの価格

さて、最後に気になるAmazon Transcribeの価格も載せておきます。

その前に一般的なテープ起こし費用の相場ですが、標準的な条件では、1分あたり200円~300円が相場のようです。60分の音声データであれば、単純計算で12,000円~18,000円となります。

ではAmazon Transcribeでの文字起こしの金額はどうなってるかというと、1 秒あたり 0.0004USDのレートで課金されます(15 秒未満のリクエストについては 15 秒分の料金が発生する)。

概算ですが、60分では1.44 USD、日本円で約160円です。一般的なテープ起こし相場と比較して1/100です、なにそれ。しかも最初の12ヶ月間は60分間の文字起こしが無料で利用できます、なにそれ。

※僕は約2時間分、文字起こしをしたのでおそらく200円弱の請求が来ると思いますが、まだ請求情報に反映されてないようなので、正確な金額がわかったらまた追記します。

【追記】約70分の文字起こしで、1.63ドル+税金0.16ドルでした。

以前に技術的失業の記事を書きましたが、文字起こしの業界も他人事ではないのかもしれません。

ちなみにAWSも利用した分だけ課金される従量制なのですが、最初の12ヶ月間はほとんどの人は無料利用枠で済んでしまうと思います。

結論としてAmazon Transcribeはどうなの?

僕的には、これからのさらなるバージョンアップに期待しているのと同時に、現状でも充分に使えるサービスだと感じています。

精度については録音環境にも左右されると思いますので、できるだけ余計な雑音が入らない環境で、性能の良いマイク(あるいは生声)でしっかり録音すれば、もっと良い結果が出ると思います。

なにより利用開始してから12ヶ月間は、60分の無料利用枠があるので最大限活用しましょう。皆さんが活用すればするほど、更にデータが蓄積されてサービスの質が向上すると思いますよ。

スポンサーリンク