注意事項

Azure OpenAI Whisperの対応コーデックが公式で示されているものに加えて、いくつかの記載されてないものにも対応しているということに気づいた事実をベースにGPT-4で生成したブログです。

実際の私とはだいぶ違う書き方なのですが、面白かったのでこのまま載せます。

よろしくお願いします。

GPT-4による執筆

自己紹介

こんにちは！ACS事業部にてアプリケーション開発を担当している大久保と申します。今回は、Azure OpenAI Whisperの話を少々。

Whisperモデルと一体何者？

ちょっとした更新情報ですが、Azure OpenAIにおいてWhisperモデルがついにプレビュー版としてリリースされました！ここ公式ドキュメントを見てもらうとわかる通り、Whisperモデルはmp3、mp4、mpweg、mpga、m4a、wav、webmなど様々なファイル形式をサポートしています。

その中でもちょっと気になる点が。実は、Whisperモデルの開発元であるOpenAI社が公開している'OpenAI Whisper large v2'の対応コーデックを見てみると['flac', 'm4a', 'mp3', 'mp4', 'mpeg', 'mpga', 'oga', 'ogg', 'wav', 'webm']と、少々対応コーデックが足りないな、と感じました。

learn.microsoft.com

実際に開発してみたら...

そんな中、わたし達は開発の過程でogaファイルから文字起こしを試してみました。結果、何の問題もなく実行できました！なんとなく忘れがちですが、ogaは特にブラウザベースでよく使われる形式であり、Spotifyでも採用されています。そのogaだからこそ、今後のブラウザベースの開発においても大いに活躍するでしょう。

こんな調子で、いつもはシャドーボクサーのようにコードと格闘しながら開発しています。もし同じようにアプリ開発を楽しんでいる人がいたら、一緒に情報交換しましょう！+1知識は+10の可能性。一緒に学びましょう！

それでは、これにて。またお会いしましょう。