サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ブラックフライデー
note.com/npaka
以下の記事が面白かったので、簡単にまとめました。 ・FunctionGemma: Bringing bespoke function calling to the edge 1. FunctionGemma本日、Function Calling向けに最適化された「Gemma 3 270M」の特化版である「FunctionGemma」をリリースします。これは、自然言語を実行可能なAPIアクションに変換する、カスタムで高速なプライベートローカルエージェントへのさらなる学習のための強力な基盤として設計されています。 「FunctionGemma」は、プライベートなオフラインタスクのための完全に独立したエージェントとして、または大規模な接続システムのためのインテリジェントなトラフィックコントローラーとして機能します。この役割において、一般的なコマンドをエッジで瞬時に処理しながら、より複雑なタスクを
「Nano Banana Pro」で ストーリー漫画の作成を試してみました。 1. Nano Banana Pro で ストーリー漫画の作成を試す作成した漫画は、次のとおりです。 2. Nano Banana Pro で ストーリー漫画の作成手順2-1. キャラクター設定画像の作成「Nano Banana Pro」でキャラクター設定画像 (1K) を作成します。 設定は「ChatGPT」と相談して作成しました。 キャラクター設定の画像を作成して。 ## 琴音こだま(主人公) - 高校1年生女子 - 極度のコミュ障/人見知り - 身長150cm - ピンクロング、猫背ぎみ - ストリートファイター2の異様な上手さが取り柄 - ゲームパッドを抱えて生活している - ふだんはぼそぼそ喋るが、対戦中は豹変 # 美咲(サブキャラ/友達役) - 同級生女子 - 黄色ポニーテール - 明るい/人当たりが
「GPT-5.2」について、簡単にまとめました。 ・Introducing GPT-5.2 1. GPT-5.2OpenAIが 最新のAIモデル「GPT-5.2」 をリリースしました。実用性の高いAIアシスタントとして設計されています。これまでのモデルに比べて より高度な知能・性能 を備えており、複雑なタスクを得意とします。 主な特徴は、次のとおりです。 ・汎用知能の向上 より幅広い知識労働や問題解決が可能になりました。 ・長文コンテキストの理解強化 大量の文章や情報をまとめて理解・処理できます。GPT-5.2 の APIのコンテキスト (入力+出力) の最大トークン数は約 400,000 トークンです。 ・ エージェント的ツール活用能力 ツールへの指示や呼び出しが改善されています。 ・ Visionの性能向上 画像を含んだ問題でも、より深い解析や判断ができるようになりました。 「GPT-
「demucs」による音源分類を試したのでまとめました。 1. demucs「demucs」は、音源分離のためのオープンソースAIツールです。特に「ボーカル、ドラム、ベース、その他(伴奏)」など、複数の音が混ざった音源を高品質に分離できることで知られています。 2. demucsを試す今回は、MacのPyton仮想環境で「demucs」を試します。 (1) Python 3.11 仮想環境の準備。 conda create -n demucs python=3.11 conda activate demucs(2) パッケージのインストール。 pip install "torch==2.0.1" "torchaudio==2.0.2" --index-url https://download.pytorch.org/whl/cpu pip install demucs pip instal
「Nano Banana Pro」で描いたマンガを「Sora2」でアニメ化してみたのでまとめました。 1. Nano Banana Pro で描いたマンガを Sora2 でアニメ化する手順マンガを「Sora2」でアニメ化する手法を かし子 @Kashiko_AIart さんが紹介していたので、それに習って挑戦してみました。 漫画をSora2に読み込ませて動画化する方法 ビックリするぐらいちゃんと読み込めて動画になりました🤣 吹き出しのセリフをちゃんと喋ってるのが凄いなと感じました! ✅各ページの画像を並べて(合成して)インポート ✅プロンプト 効果音あり、BGMなし。… https://t.co/IHGgGi0upV pic.twitter.com/8u0DMqm6XM — かし子🍩 (@Kashiko_AIart) November 27, 2025 2. Nano Banana P
「google AI Studio」で「Nano Banana Pro」を使う手順をまとめました。 1. Nano Banana Pro の利用環境「Nano Banana Pro」の利用環境には、「Gemini」と「google AI Studio」があります。 ・Gemini 一般ユーザー向け。 細かいオプション設定ができず、生成回数の制限がある。 右下にGeminiマークが付く。 無料プランもあり。 ・google AI Studio 開発者向け。 細かいオプションが設定でき、より多くの画像が生成可能。 右下にGeminiマークが付かない。 有料のみ。 ガッツリ作りたい人は「google AI Studio」がおすすめです。 2. Nano Banana Pro の利用料金2-1. Gemini「Gemini」の有料プラン利用料金は、以下を参照してください。 プランが高額になるほど利
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Claude Opus 4.5 1. Claude Opus 4.5本日、「Claude Opus 4.5」がリリースされました。 このモデルは、これまで以上にインテリジェントで効率的であり、コーディング、エージェント、Computer Use の領域において、世界最高峰の性能を発揮します。さらに、Deep Research、スライド作成、スプレッドシート操作などの日常的なタスクでも大幅な進化を遂げています。 「Opus 4.5」は、AIシステムの実用化をこれまでにないレベルへと押し上げ、仕事の進め方そのものを根底から変える可能性を感じさせるモデルです。 また、「Opus 4.5」は 実際のソフトウェアエンジニアリング環境におけるテストでも、最先端の成果を示していることが特徴です。 「Opus 4.5」は、本日より
「google Antigravity」のクイックスタートをまとめました。 1. google Antigravity「google Antigravity」は、google が発表した エージェント主導の新しい開発環境 / 開発プラットフォーム です。一言でいうと 「AIエージェントが自律的にコードを書き、テストし、ブラウザ操作まで行える IDE」になります。 2. インストール「Antigravity」のインストール手順は、次のとおりです。 (1) サイトから「Antigravity」をダウンロード。 (2) 「Antigravity」を解凍してインストールして起動。 「Next」をクリックします。 (3) 設定のインポートを選択。 「Start fresh」(新しく始める) を選択して(お好みで)「Next」をクリックします。 (4) エディターテーマの選択。 「Light」を選択し
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Nano Banana Pro 1. はじめにほんの数ヶ月前、「Nano Banana」(Gemini 2.5 Flash Image) をリリースしました。古い写真の修復からミニフィギュアの生成まで、「Nano Banana」は画像編集における大きな一歩となり、カジュアルクリエイターが創造性を表現できるようになりました。 本日、最先端の画像生成・編集モデルである「Nano Banana Pro」(Gemini 3 Pro Image) をリリースしました。「Gemini 3 Pro」をベースに構築された「Nano Banana Pro」は、Geminiの最先端の推論技術と実世界の知識を活用し、これまで以上に優れた情報を視覚化します。 2. Nano Banana Pro 「Nano Banana Pro」は、プロ
以下の記事が面白かったので、まとめました。 ・Building more with GPT-5.1-Codex-Max 1. GPT-5.1-Codex-Max「GPT-5.1-Codex-Max」は、OpenAI が新たに公開した「エージェント型コーディングモデル」です。ソフトウェアエンジニアリングや数学、研究分野など、複雑で連続性のあるタスクをこなすために設計された最新の基盤推論モデルを土台にしています。従来よりも高速で賢く、トークン効率も大幅に改善されており、開発のあらゆる段階でより信頼できるコーディングパートナーとして機能します。 このモデルの大きな特徴は、長時間・大規模の作業を前提にしている点です。「コンパクション」(compaction) と呼ぶ新しい学習手法により、複数のコンテキストウィンドウをまたいで、数百万トークン規模のタスクでも破綻せずに処理できます。そのため、プロジェ
1. はじめに本日、「OpenAI API」で「GPT-5.1」をリリースしました。これは、幅広いエージェントタスクとコーディングタスクにおいて、知性と速度のバランスをとったGPT-5シリーズの次世代モデルです。「GPT-5.1」は、タスクの複雑さに応じて思考時間を動的に調整することで、より単純な日常タスクにおいてモデルを大幅に高速化し、トークン効率を向上させます。また、「GPT-5.1」の最先端の知性を維持しながら、深い思考を必要としないタスクへの応答を高速化する「no reasoning」モードも備えています。 「GPT-5.1」の効率性をさらに高めるため、最大24時間のキャッシュ保持を可能にする拡張プロンプトキャッシングをリリースします。これにより、低コストでフォローアップの質問への応答を高速化できます。「Priority Processing」を利用のユーザーも、GPT-5.1で
以下の記事が面白かったので、簡単にまとめました。 ・Introducing the File Search Tool in Gemini API 1. はじめに本日、「File Search Tool」をリリースしました。Gemini APIに直接統合されたフルマネージド型RAGシステムで、検索パイプラインを抽象化することで、開発者はアプリケーション構築に集中できます。 すべての開発者が「File Search Tool」をシンプルかつ手頃な価格で利用できるように、クエリ時のストレージと埋め込み生成は無料です。料金が発生するのは、ファイルを最初にインデックス化する際の埋め込み生成時のみで、100万トークンあたり0.15ドル (gemini-embedding-001) の固定料金です。 2. File Search Tool のしくみ「File Search Tool」は、RAGの複雑な処
「gpt-oss-safeguard」の使い方をまとめました。 ・User guide for gpt-oss-safeguard 1. gpt-oss-safeguard1-1. gpt-oss-safeguard「gpt-oss-safeguard」は、カスタマイズ可能なポリシーに基づいてテキストコンテンツを分類するために特別に学習された、初のオープンウェイトReasonigモデルです。「gpt-oss」のファインチューニング版です。 主に2つの方法で安全モデルとして活用できます。 ・ファインチューニングされた安全モデルは、汎用Reasoningモデル (gpt-ossなど) をベースとして、ユーザーとのインタラクションにおいて安全な応答をするように学習されています。 ・既製の安全モデル (ShieldGemma、LlamaGuard、RoGuardなど) には、「安全でない」とみなさ
「google AI Studio」のバイブコーディング機能でアプリ作成を試したのでまとめました。 前回 1. 作成したいアプリのプロンプトを考える(1) 作成したいアプリのプロンプトをざっくり考える。 あたえられた議題に対して、3人のペルソナがそれぞれ5回ずつ発言して、その会話ログから議事録を作成するアプリを作成します。 # 入力 - 議題 - ペルソナ1の画像 - ペルソナ1のシステムプロンプト - ペルソナ2の画像 - ペルソナ2のシステムプロンプト - ペルソナ3の画像 - ペルソナ3のシステムプロンプト # 出力 - 会話ログ - 議事録 会話中は、3人が議論しているようすを、1発話ずつ表示することで表現してください。 (2) Geminiにリファインしてと依頼。 自分の好みにあわせて微調整も行います。 議題に対して、3人のペルソナがそれぞれ5回ずつ発言して、その会話ログから議事
以下の記事が面白かったので、簡単にまとめました。 ・Leveling up your developer experience in google AI Studio 1. google AI Studio のアップデート「google AI Studio」では、使い勝手を向上させ、ワークスペースを統合し、さらに多くの制御機能を提供するために、一連のアップデートを実施しました。 1-1. モデルの選択新しい「Playground」は、googleの最新AIモデルをより簡単に切り替えられるようになりました。「Gemini」「GenMedia」「TTS」「Live」をすべて1つの統合された画面で使用できるため、画面を切り替えたりタブを移動したりすることなく、スムーズに作業を進めることができます。また、チャットUI全体を改良し、一貫性を向上させました。これにより、どの会話でも同じ操作で利用できま
1. google AI Studio のバイブコーディング機能「google AI Studio」に全く新しいAIを活用したコーディング体験が可能なバイブコーディング機能をリリースしました。APIキーの管理やモデルの連携方法を考える必要なく、プロンプトを入力するだけで数分以内に動作するAIアプリを作成できるように設計されています。 2. 1つのプロンプトでAIを活用したアプリを作成1つのプロンプトでAIを活用したアプリを作成することができます。 ・Veoでスクリプトから動画を生成 ・Nano Bananaでコマンド1つで強力な画像編集ツールを構築 ・google検索で情報源を確認できる究極のライティングアプリを作成 クリエイティブなひらめきが必要な時は、「I'm Feeling Lucky」ボタンをクリックしてください。アイデア実現をサポートします。 3. ギャラリーでインスピレーション
以下の記事が面白かったので、簡単にまとめました。 ・Introducing ChatGPT Atlas 1. ChatGPT Atlas本日、ChatGPTをコアに構築した新しいWebブラウザ「ChatGPT Atlas」をリリースしました。 「Atlas」を使えば、ChatGPTはWeb上のどこにいてもあなたと一緒にいられます。あなたが現在いるウィンドウで、あなたがしようとしていることを理解し、タスクを完了してくれます。しかも、コピー&ペーストしたり、ページを離れたりする必要はありません。ChatGPTメモリが内蔵されているため、過去のチャットや詳細を会話に活用して、新しいことに取り組むことができます。 「Atlas」を使い続けることで、ChatGPTはさらに賢くなり、より便利になります。ブラウザメモリにより、ChatGPTは訪問したサイトのコンテキストを記憶し、必要な時にそのコンテキス
以下の記事が面白かったので、簡単にまとめました。 ・Claude Code on the web 1. Web版 Claude Code本日、Web版 Claude Code をリリースしました。ブラウザから直接コーディングタスクを委任できる新しい方法です。 現在、リサーチプレビューとしてベータ版を提供しており、Anthropicが管理するクラウド上で実行される Claude に、複数のコーディングタスクを割り当てることができます。これにより、バグ修正のバックログ対応や定期的なメンテナンス、並行開発の効率化に最適です。 2. コーディングタスクの並行実行Web版 Claude Codeを使えば、ターミナルを開かずにコーディングセッションを開始できます。GitHubリポジトリに接続し、必要な内容を記述するだけで、Claudeが実装を処理します。 各セッションは独立した環境で実行され、リアルタ
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Claude Skills 1. Claude Skills の概要「Skills」は、「Claude」が必要に応じて読み込むことができる「指示」「スクリプト」「リソース」を含むフォルダです。 「Claude」は、手元のタスクに関連する場合にのみ「Skills」にアクセスします。「Skills」を使用すると、Excel での作業や組織のブランドガイドラインの遵守といった特殊なタスクをより効率的に実行できるようになります。 Claudeアプリでは、スプレッドシートやプレゼンテーションなどのファイルを作成するために「Skills」が使われているのを既に知っていると思います。これからは、独自の「Skills」を作成し、Claudeアプリ、Claude Code、APIで利用できるようになります。 2. Claude Sk
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Claude Haiku 4.5 1. Claude Haiku 4.5本日、最新の小型モデルである「Claude Haiku 4.5」をリリースしました。かつて最先端だったこの製品が、より安価で高速になりました。5か月前までは、「Claude Sonnet 4」が最先端モデルでした。「Claude Haiku 4.5」は、同等のコーディング性能を、3分の1のコストで、2倍以上の速度で実現します。 「Claude Haiku 4.5」は、「Computer use」など、特定のタスクにおいて「Claude Sonnet 4」を凌駕しています。これらの進歩により、「Claude for Chrome」などのアプリケーションは、これまで以上に高速で便利になります。 チャットアシスタント、カスタマーサービスエージェント、
OpenAI Apps SDKのアプリのユースケースについてまとめました。 ・Research use cases - Apps SDK 1. ユースケースから始める理由成功する ChatGPTのアプリは例外なく、ユーザーが「何を達成したいのか」を明確に理解するところから始まります。ChatGPT におけるアプリの発見はモデル駆動型であり、ユーザーのプロンプトや記憶に基づき、ツールのメタデータ・説明・過去の使用履歴が一致した場合にアプリを提案・選択します。 したがって、アプリが正しく認識・起動されるためには、「モデルがどんなタスクを理解すべきか」「どんな成果を提供できるか」をあらかじめ明確にマッピングしておくことが不可欠です。 このページでは、チームでユースケースの仮説を整理し、プロンプトによるプレッシャーテスト (想定利用シナリオの実験) を行い、ツール定義やUIコンポーネント設計をはじ
以下の記事が面白かったので、簡単にまとめました。 ・Building MCP servers for ChatGPT and API integrations 1. はじめに「MCP」は、AIモデルに追加ツールや知識を拡張するための業界標準となりつつあるオープンプロトコルです。「リモートMCPサーバ」は、インターネット経由でモデルを新しいデータソースや機能に接続するために使用できます。 このガイドでは、プライベートデータソース (ベクターストア) からデータを読み取り、API経由でChatGPTで利用する「リモートMCPサーバ」の構築方法について説明します。 【注意】開発者モードベータ版では、完全なMCPコネクタを構築して使用できます。ProおよびPlusユーザーは、「設定 → コネクタ → 詳細設定 → 開発者モード」を有効化してください。 2. データソースの設定「リモートMCPサーバ
以下の記事を簡単にまとめました。 ・Customize Claude Code with plugins 1. Claude Code のプラグイン「Claude Code」の「プラグイン」とは、スラッシュコマンド・エージェント・MCPサーバ・フックをカスタムコレクションとしてまとめたものです。 ・スラッシュコマンド 頻繁に使用する操作のカスタムショートカットを作成 ・サブエージェント 特殊な開発タスク向けに構築されたエージェントをインストール ・MCPサーバ モデルコンテキストプロトコルを介してツールやデータソースに接続 ・フック ワークフローの重要なポイントで Claude Code の動作をカスタマイズ 現在パブリックベータ版となっている /plugin コマンドを使用して、「Claude Code」内から直接プラグインをインストールできます。プラグインは必要に応じてON/OFFを切
OpenAI Apps SDKのアプリのMCPサーバの準備手順をまとめました。 ・Set up your server - Apps SDK 1. はじめに「MCP サーバ」は、すべての「Apps SDK」統合の基盤 となります。モデルが呼び出せるツールを公開し、認証を強制し、構造化データとコンポーネント HTML をパッケージ化して ChatGPT クライアントがインラインでレンダリングできるようにします。 このガイドでは、Python および TypeScript の例を用いながら、MCP サーバのコア構成要素を順に解説します。 2. SDKの選択「Apps SDK」は、MCP仕様を実装したあらゆるサーバで動作しますが、公式SDKの利用が推奨されます。 ・Python SDK (公式) ・高速なプロトタイピングに最適。 ・公式の FastMCP モジュールが同梱されている。 ・リポジト
以下の記事が面白かったので、まとめました。 ・Gemini CLI extensions 1. Gemini CLI extensions「Gemini CLI extensions」は、「Gemini CLI」をカスタマイズし、最もよく使うツールとコマンドラインから接続できる新しいフレームワークです。「extension」は、「MCPサーバ」「カスタムコマンド」「コンテキストファイル」をシンプルなパッケージにまとめたものです。Geminiにツールの使い方を教えます。 google が提供するextensionsに加え、業界リーダーやオープンソースコミュニティが提供するextensionsにアクセスできます。 extensionsのインストールは簡単です。コマンドラインから「gemini extensions install <GitHubのURL またはローカルパスを追加>」と入力するだ
以下の記事が面白かったので、簡単にまとめました。 ・Introducing the Gemini 2.5 Computer Use model 1. Gemini 2.5 Computer Use「Gemini 2.5 Computer use」は、「Gemini 2.5 Pro」の視覚理解・Reasoning機能を基盤として構築された、UIを操作できるエージェントを実現する新しい専用モデルです。このモデルは、複数のWebおよびモバイル制御ベンチマークにおいて、主要な代替モデルを凌駕し、しかも低レイテンシを実現しています。 2. 仕組みこのモデルのコア機能は、「Gemini API」の新しいcomputer_useツールを通じて公開され、ループ内で操作されます。このツールへの入力は、ユーザーリクエスト、環境のスクリーンショット、最近のアクション履歴です。入力では、サポートされているUIアク
OpenAI Apps SDKのアプリのデザインガイドラインをまとめました。 ・App design guidelines - Apps SDK 1. ChatGPTのアプリのデザインガイドライン「アプリ」は、ChatGPT内で動作する開発者が構築した体験です。会話の流れを中断することなく、ユーザーの操作を拡張します。軽量カード、カルーセル、全画面表示、その他の表示モードを通じて表示され、ChatGPTのインターフェースにシームレスに統合されながら、明瞭性、信頼性、そして音声性を維持します。 2. ベストプラクティス2-1. ベストプラクティス「アプリ」は、会話の流れを中断することなくChatGPT内で直接、ユーザーが意味のあるタスクを実行できるようにすることで、最も価値を発揮します。目標は、一貫性があり、便利で、信頼できる体験を設計しながら、ChatGPTを真の価値を付加する方法で拡張す
以下の記事が面白かったので、簡単にまとめました。 ・Sora 2 Prompting Guide 1. プロンプトする前に「プロンプト」は、ストーリーボードを見たことがない撮影監督に指示を出すようなものです。詳細を省略すると、彼らは即興で作業することになり、思い描いた通りの結果が得られない可能性があります。ショット (映像のカット) で何を達成すべきかを具体的に伝えることで、モデルにより多くのコントロールと一貫性を与えることができます。 しかし、一部の詳細を伏せておくことも同様に効果的です。モデルにより多くの創造的自由を与えることで、驚くべきバリエーションや、予想外の美しい解釈が生まれる可能性があります。どちらのアプローチも有効です。 「詳細なプロンプト」はコントロールと一貫性を与え、「簡潔なプロンプト」は創造的な結果を生み出す余地を残します。 適切なバランスは、制作者の目標と目指す結果に
以下の記事が面白かったので、簡単にまとめました。 ・Introducing apps in ChatGPT and the new Apps SDK 1. はじめに「Apps in ChatGPT」は、ChatGPT内でチャットできる新世代のアプリです。ChatGPTが適切なタイミングでアプリを提案したり、名前を呼ぶことで、アプリを見つけることができます。アプリは自然言語に反応し、チャット内で直接使用できるインタラクティブなインターフェースを備えています。 開発者は、「MCP」を基盤とした「Apps SDK」を使用して、本日からアプリの開発とテストを開始できます。開発を始めるには、ガイドラインとサンプルアプリに関するドキュメントを参照してください。その後、ChatGPTの開発者モードを使用してアプリをテストしてください。 今年後半には、アプリの審査と公開の受付を開始し、開発者がアプリを収益
次のページ
このページを最初にブックマークしてみませんか?
『npaka|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く