検索
ニュース

文字起こしサービスを格安で使う節約ワザとは? とある開発者が発見した穴:837thLap

Web会議などの文字起こしはAIで自動化されつつあるが、高精度なサービスを利用するには利用料がかかる。ある開発者は、品質を落とさず安価に文字起こしサービスを利用できる抜け穴を発見した。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 Web会議やインタビューの音声データをテキスト化する、いわゆる「文字起こし」は、非常に手間と労力を要する作業だった。だが、ここ数年でAIが急速に進化したことで、音声認識と自動テキスト化が実用レベルに達し、文字起こし作業の多くが自動化できるようになった。音声ファイルはもとより、Web会議の映像からでも自動で文字起こしが可能だ。

 とはいえ、こうした文字起こしサービスの多くは無料ではなく、利用には一定のコストがかかる。特に高精度な出力を求める場合、無料のサービスでは限界があり、有料のAPIやツールの活用が避けられない。Web会議の実施頻度が増加している今、企業にとってはこのコストが無視できない課題だ。

 そうした中、ある開発者は文字起こしのクオリティーを損なうことなく格安かつ高精度で処理できる方法を発見した。誰でもできる、その手法とは?

 冒頭で述べた通り、時間と手間のかかる作業だった「文字起こし」も、音声認識技術の進化により短時間で自動的にテキスト化できる時代になったが、利用するには一定のコストがかかる。だからこそ、少しでもコストを抑えたいと考えるユーザーは少なくないだろう。

 そこで、文字起こしのコスト削減に新たな視点を提示したのが、ソフトウェアエンジニアのジョージ・マンディス氏だ。2025年6月、同氏が自身のブログに投稿した記事が業界内外で注目を集めている。

 マンディス氏が着目したのは、OpenAIが提供する音声認識AIだ。主要な文字起こしツール「Whisper」や、マルチモーダルAI「GPT-4o」シリーズのAPIを活用し、独自のコスト削減手法を提案した。その方法とは、「音声を2倍速、あるいは3倍速に変換してから文字起こしをする」というものだ。

 WhisperはOpenAIが開発した音声認識モデルで、世界各国の言語に対応しており、1分当たり0.006ドルで利用できる。一方、GPT-4oの文字起こしAPIには高精度な「GPT-4o-transcribe」と、やや簡易な「GPT-4o mini transcribe」がある。前者は100万トークン当たり6ドル、後者は3ドルで、音声換算するといずれも1分当たり約0.006ドルと0.003ドルに相当する。

 注目すべき点は、GPT-4o系のAPIが音声の長さではなく、テキストに変換されたトークン数に基づいて課金されることだ。つまり、音声を倍速再生することで再生時間を短縮し、結果としてトークン数を圧縮し、コスト削減につながる。

 実際、マンディス氏はOpenAI創業メンバーであるアンドレイ・カーパシー氏の約40分に及ぶ講演を文字起こししようとしたが、音声が長すぎたためにAPIでの処理が難しく、音声のトリミングや分割が必要となった。そこでマンディス氏が編み出したのが、「ffmpeg」を使って音声を2倍速や3倍速に変換するという手法だ。これにより、カット作業の手間を省きつつ、トークン数の削減も図ることができた。

 マンディス氏がブログで公開したスクリプトを使って検証した結果、3倍速であっても出力されるテキストの品質は維持したまま、入力トークン数を約33%削減でき、明確なコストメリットが確認された。つまり、再生速度を上げても精度を損なうことなく、より安価に文字起こし処理が可能だという結論に至った。

 ただし、4倍速以上にすると音声認識の精度が低下し、同一フレーズの繰り返しや文字化けが発生するなどの問題が見られた。現状では3倍速程度が現実的な上限と考えられる。

 本検証はOpenAIのAPIに限定されたものだが、同様の課金体系を採用している他の文字起こしサービスにおいても、倍速再生がコスト削減につながる可能性はある。一度試してみる価値は十分にあるだろう。


上司X

上司X: OpenAIの文字起こしAPIに、2〜3倍速で音声を処理させると、コストダウンにつながるよ、という話だよ。


ブラックピット

ブラックピット: なるほど。僕は業務的にあんまり文字起こしをする機会がないですけど、倍速でどうにかなるなら、それはお得ですね。


上司X

上司X: 文字起こししない? そんなことないだろう。会議の議事録とかさ、客先での対応のときとかさ。動画のキャプションを作ることだってあるだろう?


ブラックピット

ブラックピット: どれも該当しないので……。それにしても、テープレコーダーで録音してた時代があるんですね。


上司X

上司X: あるよ。他にナニで録音してたと思うんだよ!


ブラックピット

ブラックピット: いや知りませんけど……。さすがに僕は音声録音だとデジタルなボイスレコーダーしか知りませんもの。あとは動画で撮れば音声も一緒に収録できるでしょう? それにしてもテープの音声なんてPCに取り込めないですよね?


上司X

上司X: が、頑張ればなんとかなったかもしれないが……。基本、テープの録音はカセットプレーヤーで再生していたよ。こう巻き戻したりしてな。


ブラックピット

ブラックピット: もはや「巻き戻し」という概念が今はないんですよ。それはともかく、生成AIを使うとき、倍速だとコストを抑えて文字起こしできるんですよね。これはいい話ですよ。オーパーツみたいなカセットテープの話はもうどうでもイイです。


上司X

上司X: テープの話を振ったのはキミじゃないか……。まあ、いいけどさ。トークンでの課金からすれば、2〜3倍速での文字起こしは確かにコストダウンにつながるようだ。お得を目指すユーザーは一度試してほしいものだな。テープのことは忘れてくれ!

川柳

ブラックピット(本名非公開)

ブラックピット

年齢:36歳(独身)
所属:某企業SE(入社6年目)

昔レーサーに憧れ、夢見ていたが断念した経歴を持つ(中学生の時にゲームセンターのレーシングゲームで全国1位を取り、なんとなく自分ならイケる気がしてしまった)。愛車は黒のスカイライン。憧れはGTR。車とF1観戦が趣味。笑いはもっぱらシュールなネタが好き。

上司X(本名なぜか非公開)

上司X

年齢:46歳
所属:某企業システム部長(かなりのITベテラン)

中学生のときに秋葉原のBit-INN(ビットイン)で見たTK-80に魅せられITの世界に入る。以来ITひと筋。もともと車が趣味だったが、ブラックピットの影響で、つい最近F1にはまる。愛車はGTR(でも中古らしい)。人懐っこく、面倒見が良い性格。


Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る