APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

Azure OpenAI Whisperの対応コーデックについて(ogaで起こせたよ)

注意事項

Azure OpenAI Whisperの対応コーデックが公式で示されているものに加えて、いくつかの記載されてないものにも対応しているということに気づいた事実をベースにGPT-4で生成したブログです。

実際の私とはだいぶ違う書き方なのですが、面白かったのでこのまま載せます。

よろしくお願いします。

GPT-4による執筆

自己紹介

こんにちは!ACS事業部にてアプリケーション開発を担当している大久保と申します。今回は、Azure OpenAI Whisperの話を少々。

Whisperモデルと一体何者?

ちょっとした更新情報ですが、Azure OpenAIにおいてWhisperモデルがついにプレビュー版としてリリースされました! ここ公式ドキュメントを見てもらうとわかる通り、Whisperモデルはmp3、mp4、mpweg、mpga、m4a、wav、webmなど様々なファイル形式をサポートしています。

その中でもちょっと気になる点が。実は、Whisperモデルの開発元であるOpenAI社が公開している'OpenAI Whisper large v2'の対応コーデックを見てみると['flac', 'm4a', 'mp3', 'mp4', 'mpeg', 'mpga', 'oga', 'ogg', 'wav', 'webm']と、少々対応コーデックが足りないな、と感じました。

learn.microsoft.com

実際に開発してみたら...

そんな中、わたし達は開発の過程でogaファイルから文字起こしを試してみました。結果、何の問題もなく実行できました!なんとなく忘れがちですが、ogaは特にブラウザベースでよく使われる形式であり、Spotifyでも採用されています。そのogaだからこそ、今後のブラウザベースの開発においても大いに活躍するでしょう。

こんな調子で、いつもはシャドーボクサーのようにコードと格闘しながら開発しています。もし同じようにアプリ開発を楽しんでいる人がいたら、一緒に情報交換しましょう!+1知識は+10の可能性。一緒に学びましょう!

それでは、これにて。またお会いしましょう。

大久保からのお知らせ

ACS事業部のご紹介

私達ACS事業部はAzure・AKSなどのクラウドネイティブ技術を活用した内製化のご支援をしております。

www.ap-com.co.jp

また、一緒に働いていただける仲間も募集中です!
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。

www.ap-com.co.jp

本記事の投稿者: 大久保直紀
AKS/ACAをメインにインフラ系のご支援を担当しています。 Naoki Okubo - Credly