OpenAIの「12 Days of OpenAI」発表まとめ【o3も含む完全版】

OpenAIの「12 Days of OpenAI」発表まとめ
OpenAIは2024年12月5日(米国時間)から12営業日連続で新技術やサービスを発表する「12 Days of OpenAI」を開催し、最終日に新モデルo3の発表で締めくくられました。このイベントは、クリスマスシーズンのアドベントカレンダーに着想を得たもので、毎日ライブ配信を通じて大小さまざまな発表が行われています。以下に、これまでの発表内容を日ごとにまとめました。
- Day 1: ChatGPT ProとOpenAI o1の正式リリース
- Day 2: 強化学習型ファインチューニング(RFT)の発表
- Day 3: 動画生成AI「Sora」の正式リリース
- Day 4: ChatGPTの「Canvas」機能を全ユーザーに開放
- Day 5: ChatGPTとApple製品の完全統合
- Day 6: Advanced Voice Modeのビデオ通話・画面共有対応
- Day 7: ChatGPTの「プロジェクト」機能を実装
- Day 8: ChatGPT Searchの無料版公開
- Day 9: OpenAI o1のAPI提供開始と開発者向け特典
- Day 10:ChatGPTを電話とWhatsAppで無料利用
- Day 11:「Works with」 ChatGPTのデスクトップアプリ機能強化
- Day 12:次世代AIモデル「o3」と「o3 Mini」を発表
Day 1: ChatGPT ProとOpenAI o1の正式リリース
OpenAIは2024年12月5日、月額200ドルの新プラン「ChatGPT Pro」を発表しました。このプランでは、以下の高度な機能が利用可能です。
最新モデルへの無制限アクセス: ChatGPT Proでは、最新のAIモデルである「o1」や「GPT-4o」、軽量版の「o1-mini」など、OpenAIの最先端モデルに無制限でアクセスできます。特に、「o1 pro mode」は追加の計算リソースを活用し、複雑なクエリに対してより精度の高い回答を提供します。
高度な音声機能の利用: Proプランでは、Advanced Voiceモードが利用可能で、音声を通じた自然な対話が可能となります。これにより、ユーザーはテキスト入力に加えて、音声でのやり取りを行うことができます。
さらに、OpenAIは新たなAIモデル「o1」を正式リリースしました。このモデルは、以下の特徴を持っています。
マルチモーダル対応: o1は、画像とテキストを統合的に処理できる能力を備えています。これにより、視覚情報とテキスト情報を組み合わせた高度な解析が可能となります。
性能向上: o1は、従来のモデルと比較して回答速度が50%向上し、重大なミスが34%減少しています。これにより、ユーザーはより迅速で正確な情報を得ることができます。
これらの新機能により、研究者やエンジニアは高度なAIツールを活用して、複雑な問題解決やデータ分析をより効率的に行うことが可能となります。
Day 2: 強化学習型ファインチューニング(RFT)の発表
OpenAIは新たなモデルカスタマイズ技術「強化学習型ファインチューニング(Reinforcement Fine-Tuning、RFT)」を発表しました。この技術により、以下のことが可能となります。
- 専門分野への特化: RFTを活用することで、法律、医療、金融などの特定分野に特化したエキスパートモデルの構築が可能です。これにより、各業界の専門的なニーズに対応したAIソリューションの開発が期待されます。
- 少量データでの効果的な学習: 従来の教師あり学習では大量のデータが必要でしたが、RFTでは数十から数千の高品質なタスクデータと参照回答を用いることで、モデルの精度を向上させることができます。これにより、データ収集の負担が軽減され、迅速なモデルカスタマイズが可能となります。
- 推論能力の強化: RFTは、モデルが類似の問題に対して効果的な推論方法を学習することを促進します。これにより、特定のタスクにおけるモデルの精度と信頼性が向上します。
OpenAIは、研究機関や企業向けにRFTのアルファ版APIを提供する研究プログラムを開始しました。参加者は自身の専門分野におけるタスクでRFTを試験的に適用し、フィードバックを提供することが求められます。この取り組みは、AIモデルの専門性と精度を高める新たなステップとして注目されています。
Day 3: 動画生成AI「Sora」の正式リリース
OpenAIは動画生成AI「Sora」を正式にリリースしました。このツールは、ユーザーが入力したテキストプロンプトから短編動画を生成する革新的な機能を提供します。以下に、Soraの主な特徴をまとめます。
- 高品質な動画生成: Soraは、最大20秒間の高解像度(1080p)動画を生成可能で、リアルな映像表現を実現します。
- 多様な編集機能: 生成された動画に対して、以下の編集機能を利用できます。
- リミックス: 既存の動画に新たな要素を加えることで、オリジナリティあふれるコンテンツを作成可能です。
- リカット: 動画の特定のシーンを抽出・再構成し、必要に応じて尺を調整できます。
- ストーリーボード: シーンごとに詳細な指示を設定し、複雑な動画構成を簡単に作成できます。
- ループ: 動画をシームレスにループさせることで、繰り返し再生に適したコンテンツを生成できます。
- ブレンド: 複数の動画を組み合わせ、新たな映像表現を創出できます。
- 利用プラン: Soraは、ChatGPTの有料プラン利用者に提供されます。
- ChatGPT Plus: 月額20ドルで、最大解像度720p、最大5秒の動画を月に50本まで生成可能です。
- ChatGPT Pro: 月額200ドルで、最大解像度1080p、最大20秒の動画を月に500本まで生成可能です。
- 利用制限と安全対策: Soraは、悪用防止のため、以下の制限と対策を実施しています。
- 人物の描写制限: 現時点で、人物を含む動画の生成は制限されており、特定のテスターのみが利用可能です。
- コンテンツの検証: 生成された動画にはウォーターマークやメタデータが付与され、AI生成であることを明示しています。
- 不適切なコンテンツの防止: 児童虐待や性的なディープフェイクなどの不適切なコンテンツの生成を防ぐためのフィルタリングが実装されています。
Soraの登場により、動画制作のハードルが大幅に下がり、クリエイターや企業は短時間で高品質な動画コンテンツを作成できるようになりました。しかし、現時点では複雑なシーンや長時間の動画生成に課題が残っており、今後の技術的な進化が期待されています。
Day 4: ChatGPTの「Canvas」機能を全ユーザーに開放
OpenAIは2024年12月10日、ChatGPTの新機能「Canvas」を全ユーザーに向けて正式リリースしました。この機能により、ユーザーは文章やコードの編集をより直感的かつ効率的に行うことが可能となります。主な特徴は以下のとおりです。
- 視覚的編集スペース: Canvasは、ChatGPTのチャット画面と並列して表示されるエディタ領域を提供し、ユーザーは生成されたテキストやコードをリアルタイムで編集・加筆できます。
- AIとの共同作業: 特定の段落やコード行に対して直接コメントを付与し、AIからのフィードバックや修正提案を受け取ることができ、ユーザーとAIの協働がスムーズに行えます。
- コード編集支援: Pythonコードの実行やデバッグ機能が統合されており、コードのレビュー、バグ修正、他のプログラミング言語への変換などが容易に行えます。
- リアルタイム共同編集: 複数のユーザーが同時にCanvas上で作業できるため、チームでのプロジェクトやドキュメント作成が効率化されます。
- バージョン管理: 編集履歴を保存・管理する機能があり、過去のバージョンへの復元や変更点の追跡が可能です。
これらの機能により、ChatGPTは単なる対話型AIから、より高度な文章作成やプログラミング支援ツールへと進化しました。ユーザーはCanvasを活用して、複雑なタスクを効率的に遂行できるようになります。
Day 5: ChatGPTとApple製品の完全統合
OpenAIはAppleのAI機能「Apple Intelligence」との統合を発表しました。これにより、iPhone、iPad、MacユーザーはSiriやカメラ機能を通じてChatGPTの高度なAI機能を直接利用できるようになりました。主な特徴は以下のとおりです。
- Siriとの連携強化: SiriがChatGPTの自然言語処理能力を活用し、ユーザーの複雑な質問や要求に対してより精度の高い回答や提案を提供します。日常のタスクや情報検索が一層スムーズになります。
- カメラ機能の強化: iPhone 16シリーズ以降のデバイスでは、カメラで捉えた映像や画像に対してChatGPTを通じた解析が可能となりました。写真内のテキストの翻訳や、物体の詳細情報の取得が容易になります。
- Writing Toolsの統合: Appleの各種アプリ内で、ChatGPTの生成AI機能を活用した文章作成や編集が可能となりました。ユーザーはメールやメモの作成時に、AIの支援を受けて効率的にコンテンツを作成できます。
- プライバシーへの配慮: ユーザーはChatGPTのアカウントを作成せずにこれらの機能を利用でき、OpenAIは入力内容を保存しないとしています。これにより、ユーザーデータのプライバシーが保護されます。
これらの機能は、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2へのアップデートにより利用可能となります。ただし、現時点では英語のみの対応であり、日本語を含む他の言語への対応は2025年以降に予定されています。この統合により、AppleデバイスでのAI活用がさらに進化し、ユーザーエクスペリエンスの向上が期待されます。
Day 6: Advanced Voice Modeのビデオ通話・画面共有対応
OpenAIはChatGPTの「Advanced Voice Mode」に新機能を追加し、ユーザー体験を向上させました。主なアップデートは以下のとおりです。
Advanced Voice Mode with Video
- ビデオ通話機能: ユーザーはChatGPTとの対話中にビデオ通話を開始でき、視覚的な情報を共有しながらのコミュニケーションが可能となりました。
- 画面共有機能: リアルタイムで画面を共有し、資料やデータを直接見せながらの共同作業やプレゼンテーションが容易になりました。
- 利用方法: ChatGPTアプリの「Advanced Voice Mode」を起動し、画面左下のビデオアイコンをタップすることで、ビデオ通話や画面共有を開始できます。
- 提供開始時期: 最新のモバイルアプリから順次提供が開始され、1週間以内にほとんどのユーザーが利用可能となる予定です。
Santa Mode
- 機能概要: ホリデーシーズン限定で、ChatGPTがサンタクロースのキャラクターとしてユーザーと音声で対話する「Santa Mode」が追加されました。
- 利用方法: アプリのホーム画面に表示される「雪の結晶アイコン」をタップするか、設定ページから「Santa」を選択することで、サンタとの会話を開始できます。
- 提供期間: この機能は12月末まで利用可能で、期間終了後はサンタが北極に帰る設定となっています。
- 特典: 初めてサンタモードを利用する際、Advanced Voice Modeの使用可能回数が1回分リセットされ、既に上限に達しているユーザーもサンタとの会話を楽しむことができます。
これらの新機能により、ChatGPTはユーザーとのインタラクションをさらに深め、特にホリデーシーズンにおいて楽しい体験を提供しています。
Day 7: ChatGPTの「プロジェクト」機能を実装
OpenAIはChatGPTに新機能「Projects」を導入しました。この機能により、ユーザーは関連するチャットやファイル、カスタム指示をプロジェクト単位で一元管理でき、作業効率が向上します。主な特徴は以下のとおりです。
- チャットのフォルダ管理: 関連するチャットをプロジェクトごとに整理し、必要な情報を迅速に見つけることが可能です。これにより、複数のタスクやトピックを効率的に管理できます。
- ファイルのアップロードと参照: PDFやExcelなどのファイルをプロジェクト内にアップロードし、ChatGPTがそれらの内容を参照して応答を生成できます。外部資料を活用した高度な情報処理が可能となります。
- カスタム指示の設定: プロジェクトごとにChatGPTの応答スタイルや文体をカスタマイズできます。例えば、特定のプロジェクトでは専門的な口調、別のプロジェクトではカジュアルな口調といった設定が可能です。
- Canvas機能との連携: プロジェクト内でCanvasを利用し、生成されたテキストやコードを視覚的に編集・確認できます。複雑なドキュメントやコードの編集作業も直感的に行えます。
「Projects」機能は、ChatGPT Plus、Pro、Teamsユーザーに向けて即日提供が開始されました。無料ユーザーへの提供は近日中、EnterpriseおよびEduユーザーには2025年初頭に提供予定です。この機能によって、クリエイターやビジネスチームは、ChatGPTを活用したプロジェクト管理や共同作業をより効率的に行えるようになります。
Day 8: ChatGPT Searchの無料版公開
OpenAIはChatGPTの検索機能「ChatGPT Search」を無料ユーザーにも開放しました。全ユーザーが対話形式でのウェブ検索を利用できるようになり、利便性が大幅に向上しました。主な特徴は以下のとおりです。
- 対話形式のブラウジング: ユーザーは自然な言葉で質問を入力するだけで、ChatGPTがウェブ上から最新の情報を収集し、わかりやすく要約して提供します。これにより、従来のキーワード検索よりも直感的で効率的な情報収集が可能となります。
- 音声検索機能: 音声入力に対応し、ユーザーは話しかけるだけで検索を行えます。特にモバイル環境での操作性が向上し、手軽に情報を取得できます。
- 地図機能の追加: 特定の場所や施設を検索すると、関連する地図情報や経路案内が表示されます。旅行や外出時の計画立案が容易になります。
- モバイル向け最適化: スマートフォンやタブレットでの利用時に、検索結果がより見やすく表示されるよう最適化されています。位置情報を活用したローカル検索にも対応し、ユーザーの現在地に基づく情報提供が可能です。
これらの機能強化により、ChatGPTは従来のチャットボットの枠を超え、包括的な情報検索ツールとしての役割を果たすことが期待されます。ユーザーは最新のニュースや天気情報、専門的な知識まで、幅広い情報をリアルタイムで取得できるようになりました。
Day 9: OpenAI o1のAPI提供開始と開発者向け特典
OpenAIは開発者向けに以下の新機能と改善を発表しました。
- OpenAI o1のAPI提供開始: 複雑なマルチステップタスクに対応する高精度モデル「o1」をAPIで利用可能にしました。機能呼び出し、構造化出力、開発者向けメッセージ、画像処理能力を備え、応答速度も向上しています。
- Realtime APIの改善: WebRTC統合により、リアルタイム音声アプリの開発が容易になりました。また、GPT-4oオーディオの価格を60%削減し、GPT-4o miniのサポートも追加され、コスト効率が向上しています。
- Preference Fine-Tuningの導入: ユーザーや開発者の好みに基づいてモデルをカスタマイズする新しいファインチューニング手法を提供開始しました。これにより、主観的なタスクにおけるモデルの性能向上が期待できます。
- GoおよびJava SDKのベータ版公開: 公式SDKのラインナップにGoとJavaを追加し、開発者が選好するプログラミング言語でOpenAIのAPIを利用しやすくなりました。
これらの発表により、開発者はAIを活用したアプリケーションの開発やカスタマイズを、より高性能かつコスト効率良く行えるようになります。
Day 10:ChatGPTを電話とWhatsAppで無料利用
OpenAIは、ChatGPTを電話で無料利用できる新サービスを発表しました。すべての人がAIを利用できる環境へ。
- 電話での利用:アメリカでは「1-800-242-8478」に電話し、音声で利用可能(毎月15分無料、アカウント不要)。
- WhatsAppでの利用:世界中でWhatsAppを通じて、テキスト形式のやり取りが可能。
- デモの内容:観光地の情報提供、言語学習、レシピ提案などの日常的な質問に対応可能。レシピではヴィーガン対応や肉中心のアレンジもできる柔軟性を示しました。
- 利用の手軽さ:アカウントなしでも利用可能ですが、将来的には認証機能を追加し、モバイルアプリやウェブ版の高度な機能(画像対応や検索機能)と統合予定。
- 利用方法:「1-800-242-8478」を連絡先に登録するだけで利用開始可能。WhatsApp用のQRコードも提供中。
この新機能は、社内ハッカソンで誕生し、短期間で実現されたものです。特に電話でのAI利用が進むことで、企業のコールセンターなどでの活用が広がる可能性もあります。
Day 11:「Works with」 ChatGPTのデスクトップアプリ機能強化
OpenAIはChatGPTのデスクトップアプリに関する新機能を発表しました。
- 他アプリとの連携機能強化
アプリ上で作業する際に、コンテキストを自動でChatGPTに渡すことが可能になり、よりスムーズなワークフローを実現。たとえば、WarpターミナルやXcodeと連携し、必要な情報を直接抽出できます。 - グラフィック化による支援
Gitのリポジトリのコミット履歴を解析したグラフ化機能も。Advanced Data Analysis機能を活用し、データの処理やグラフ作成を簡単に行えます。デザインもホリデー仕様で遊び心があります。 - 幅広いIDEサポート
Xcode、VS Code、JetBrainsシリーズ、MATLABなど、多数の開発ツールに対応。さらに、コード生成や修正を効率化する高機能モデル「o1」も利用可能です。 - 執筆支援機能の拡張
Apple Notes、Notion、Quipと連携し、文書作成やリサーチを効率化。検索機能をオンにすることで、事実に基づいた回答を得ることが可能。 - 音声モードの追加
音声でChatGPTと対話可能な「Advanced Voice Mode」を新たに導入。文書やコードにリアルタイムでフィードバックを得ることができます。 - 今後の展望
これらの機能はすでにMac向けChatGPTアプリで利用可能で、Windows向けにも近日中に提供予定。
本日の発表で、ChatGPTはワークフローを補助するエージェントとしての進化を遂げています。OpenAIは、さらなる機能拡張を2025年以降も進めていく計画のようです。
Day 12:次世代AIモデル「o3」と「o3 Mini」を発表
OpenAIは、12日間にわたる発表イベントの最終日として、次世代のAIモデル「o3」と「o3 Mini」を発表しました。これらのモデルは、高度な推論能力を持ち、様々なタスクで優れたパフォーマンスを発揮することが期待されます。
発表内容の主なポイント
- o3とo3 Miniの発表:
- o3は、非常に高性能なモデルであり、高度な推論を必要とするタスクに適しています。
- o3 Miniは、o3に匹敵する性能を持ちつつ、よりコスト効率に優れたモデルです。
- 公開安全テストの開始:
- 両モデルともまだ一般公開はされませんが、安全テストへの参加を研究者向けに開始します。
- 安全テストへの応募はOpenAIのウェブサイトで受け付けており、締め切りは1月10日です。
- パフォーマンスの向上:
- コーディング:
- Sweet Bench Verifiedベンチマークで、o3は71.7%の精度を達成し、o1モデルより20%以上向上。
- 競技プログラミングサイトCodeforcesでは、o3は驚異的なELOスコア2727を記録。
- o3 Miniは、低コストでo1モデルと同等以上のパフォーマンスを発揮。
- 数学:
- Amyベンチマークで、o3は96.7%の精度を達成。
- GPQ Diamondベンチマークで、o3は87.7%を達成。
- Epic AIのフロンティア数学ベンチマークで、o3は25%以上の精度を達成(他モデルは2%以下)。
- ARCベンチマーク:
- o3は、低計算設定で75.7%、高計算設定で87.5%という驚異的なスコアを記録。
- これは、人間のパフォーマンス(85%程度)を上回る初のAIモデルとなる可能性がある。
- コーディング:
- o3 Miniの利点:
- アダプティブ思考時間をサポートし、複雑な問題には長く、単純な問題には短い時間で対応。
- 低、中、高の3つの推論オプションから選択可能。
- o1 Miniと比較して、レイテンシーを大幅に削減。
- 関数呼び出し、構造化出力、開発者メッセージなど、APIの多様な機能をサポート。
- 安全性の向上:
- OpenAIは、安全性を重視し、安全テストを徹底的に行っています。
- 新しい技術である「熟慮的アライメント」を導入し、より正確に安全なプロンプトと危険なプロンプトを識別。
- この技術により、拒否の精度と拒否率の両方を改善。
今後の予定
- o3 Miniは1月末頃に、o3はその後すぐに一般公開される予定です。
- 外部安全テストの結果により、リリース時期は変動する可能性があります。
まとめ
OpenAIのo3とo3 Miniは、AI技術の新たなフロンティアを切り開く可能性を秘めています。OpenAIは、安全性を最優先に考え、徹底的なテストを経てこれらのモデルをリリースすることを目指しています。安全テストへの参加は、より安全で高性能なAIモデルの開発に貢献する重要な機会となります。