山崎光春のテックユニバース

このブログでは最新のテクノロジーやデバイスなど、テクノロジーとライフスタイルの交差点について共有していきます。

OpenAIが開発した音声合成AI「Voice Engine」、一般公開は慎重に検討中 山崎光春

OpenAIが開発した音声合成AI「Voice Engine」、一般公開は慎重に検討中

こんにちは!山崎光春です。

OpenAIは3月29日、少ない音声サンプルから自然な合成音声を生成できるAIモデル「Voice Engine」の技術的詳細を発表した。Voice Engineは入力されたテキストから自然な発話音声を生成でき、学習に必要な音声サンプルの長さは15秒程度と短い。

サンプルデータに含まれていない言語の音声も生成可能で、元の言語のアクセントの特徴を保持する。例えば、フランス語話者の音声サンプルを基に英語の音声を生成すると、フランス語のアクセントをもった英語音声が出力される。

Voice Engineは2022年後半に開発された技術で、すでに同社のサービスに活用されているほか、2023年末からは信頼できる一部のパートナーと非公開のテストも実施している。子ども向けの読書支援ツールや音声の自動翻訳、言語障害に苦しむ患者の支援などに活用されているという。

同社は音声合成AIが悪用されるリスクも認識しており、生成された音声の出所を追跡する"電子透かし"や、音声の使用状況の事前監視といった安全対策を実装済み。Voice Engineを試用するパートナーにも、個人や組織になりすます行為の禁止や、音声がAI生成によるものであることを聞き手に開示することを求めるなど、安全性にも配慮した運用方針を採っている。

ただし、Voice Engineはあくまでプレビューであり、一般公開の予定はないという。同社はこの技術が音声合成AIがもたらす可能性や課題を社会全体で認識・対応するきっかけとなることを意図しており、音声による機密情報へのアクセスの段階的な廃止や、AIによる個人の声の使用を保護するポリシーの検討、一般向けのAIリテラシーに関する教育などの提案も行っている。[1][2][3][4][5]

Citations:
[1] https://www.zdnet.com/article/openais-voice-engine-can-clone-a-voice-from-a-15-second-clip-listen-for-yourself/
[2] https://www.cnn.com/2024/04/01/tech/openai-ai-voice-generator-tool-voice-engine/index.html
[3] https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model
[4] https://www.wired.com/story/openai-voice-engine-artificial-intelligence-release/
[5] https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/