サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
中東情勢
www.techno-edge.net
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第137回)。 今回は研究アイデアを入力するだけで国際会議レベルの学術論文を生成するオープンソースAI「AutoResearchClaw」や、映像の細部まで理解するMeta開発のAIモデル「V-JEPA 2.1」を取り上げます。 また、稼働しながら継続的に学習するAIエージェント「MetaClaw」や、層を足し算する“残差接続”の進化版「Attention Residuals」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Y CombinatorのCEOであるギャリー・タン氏(Garry Tan)が、自身のClaude Codeの開発環境「gstack」をGitHubでオープンソース(MITライセン
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、Y CombinatorのCEOであるギャリー・タン氏(Garry Tan)が、自身のClaude Code用カスタムスキル「gstack」をGitHubでオープンソース(MITライセンス)として無料公開したことを取り上げます。 タン氏はCEOとしての多忙な日常業務をこなしながら、このgstackを活用して60日間で60万行以上(35%テストコード)のプロダクションコードを書き上げました。これは1日あたり1万から2万行の実用的なコードを出荷している計算になり、たった1人でかつての20人規模のチームに匹敵するスピードを実現しています。 ▲2013年の手動開発(772貢献)と、gstackを駆使した2026年の
Base44のCEOであるマオール・シュロモ氏に、ヴァイブ・コーディング、エージェンティックAI、そしてBase44の目指す未来について話を聞きました。
我が家のコンピュータ全てにエージェンティックAIを組み込んでいく活動を行っています。 Claude Codeをフル活用して、M4 Max 128GBメモリ搭載MacBook Pro、シトラスカラーの10万円MacことMacBook Neo、NVIDIAジェンスン・フアンCEO肝入りの手のひらサイズスーパーコンピュータDGX Spark互換機、そしてZTEのAndroidフォルダブルスマートフォンnubia Foldに、それぞれのマシン特性を生かしたエージェンティックAIを開発し、組み込みました。 エージェントメッシュ構想現在、それらが有機的に連携できるように、エージェントメッシュ(Agent Mesh)の機能を組み込んでいるところです。 どういうことかというと、一つのマシンで生成した画像、映像、音楽を別のマシンに受け渡して次の生成・加工・編集ができるようにするための機能です。こういう機能が
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第136回)は、AIらが複雑な作業を全自動処理してくれる商用利用も可能なオープンソースAIエージェント「DeerFlow 2.0」や、普段の対話でAIエージェントを自分好みに育成できる「OpenClaw-RL」を取り上げます。 また、1枚のイラストからLive2Dに使える分割素材を自動生成する「See-through」や、長時間動画から3D復元するgoogle開発のAI「LoGeR」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、人間の声と区別がつきにくいレベルに迫るリアルな音声を複数話者一括生成できるオープンソソースのText-to-Speech(TTS)「Fish Audio S2」を別の単体記事
株式会社テセラクト 代表取締役社長 シニアプログラミングネットワーク代表 震災復興活動の中で海藻・アカモクをモチーフにつくったキャラクター「渚の妖精ぎばさちゃん」を運営。Appleの開発者カンファレンスに「81歳のアプリ開発者」として招待された若宮正子さんへの教育をきっかけに、高齢者向けのプログラミング教育にも力を入れ、現在はコミュニティ「シニアプログラミングネットワーク」を運営する。2023年3月「第1回AIアートグランプリ」において「渚の妖精ぎばさちゃん」をテーマにした漫画で準グランプリを受賞するなど、生成AIにも造詣が深い。 Vibe Coding(ヴァイブorバイブ・コーディング)って聞いたことありますか? 将棋の藤井聡太さんが「今年ハマったもの」としてこの言葉に触れていたんですよ。AIに作りたいものを日本語で伝えるとコードを書いてくれる、といった体験を語っていました。 私はシニア
ITジャーナリスト/Publickeyブロガー。IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。 オラクルは、カリフォルニア州レッドウッドシティで開幕したイベント「JavaOne 2026」で、「Project Detroit」(以下、Detroit)をOpenJDKのプロジェクトプロポーザル(プロジェクト提案)として発表しました。 DetroitはJavaにJavaScriptエンジンの「V8」とPythonランタイムの「CPython」を組み込むことで、JavaとJavaScript、Pythonの相互運用性を高めることを目的としています。 Detroitは、JavaにJavaScriptのスクリプトエンジンを組み込む目的で2018年にプロジェクトが始まったものの実装に至らず、2019年に中止となっていました。 それが今回、Java
最新のAIを駆使して話題の論文を素早く取り上げて、判りやすく紹介してみよう……というチャレンジです。みんな優しくしてね! AIがポケモンをプレイ、というデモや実験は以前、OpenAIやAI各社がやってましたが、今度は規模が違います。2000万件の対戦ログ、100チーム超が参加したNeurIPS 2025の公式コンペ「PokeAgent Challenge」——このベンチマークが明らかにしたのは、既存のAI評価では見えていなかったある能力の欠如でした。 AI研究と「ポケモン」の相性は意外にいい?2016年、AlphaGoが囲碁の世界チャンピオンを破り、AIが複雑なゲームで人間を凌駕する時代が到来しました。チェスや将棋でもAIは人間を圧倒しています。しかし、これらのゲームには共通する特徴があります。盤面の情報がすべて公開されている「完全情報ゲーム」であるという点です。 ポケモン対戦の世界は、ま
松崎良太(まつざき・りょうた) きびだんご株式会社代表取締役。慶應義塾大学卒業後、株式会社日本興業銀行(現みずほフィナンシャルグループ)へ入行。投資銀行業務に携わった後コーネル大学でMBAを取得。2000年楽天に入社、社長室長や経営企画室長、執行役員ネットマーケティング事業長 兼 事業企画・調査部長を歴任。2011年に独立、ベンチャーの育成に務めながら自らエンジェル投資も行う。2013年にゴールフラッグ株式会社(後に「きびだんご株式会社」に社名変更)を設立。クラウドファンディングとECを組み合わせた新しい事業エンパワーメントの仕組みを提供する「Kibidango(きびだんご)」をスタート。 こんにちは。 自称「睡眠オタク」のまつざきです。人生の3分の1を占める睡眠には、惜しみなく投資するべきだ、と昔誰かに聞きました。いや、もはや誰に言われたのか今となっては思い出せません。ひょっとしたら夢の
先日、面白いことがありました。 現在とある音楽プロジェクトでご一緒しているレジェンドなミュージシャンの方から、「トラックダウンが終わった曲のマスタリング、AIで簡単にできるのならそれを聞きたいんだけど、何パターンか出してもらえる?」と聞かれたので、「Logic Proの簡易的なやつでよければいいですよ」と回答。 メインマシンであるM4 Max 128GBメモリのMacBook ProのLogic Proでは別のプロジェクトを動いているので、ソファに転がっているMacBook Neoでやってみることに。 2MIXをプロジェクトに取り込み、最近追加されたMastering Assistantという機能を使ってテンプレートの4パターンと、それぞれにラウドネス補正をかけた合計8パターンを出して共有。 翌日、「あれの中の一つがOKになったから、ちゃんと残しといてね。あれが原盤になるから」との連絡が入
ViXion2 の特徴は、従来モデルでもっとも不満が多かった視野を、液体レンズの再設定で約2.4倍に拡大したこと。 眼筋をリラックスさせた状態で最短5cmから無限遠まで、約0.1秒でピントをあわせて鮮明に見える機能はそのままに、視野が大きく広がり、本やノートPC画面なども従来モデル比でかなり見やすくなりました。 ラインナップに加わる「ViXion2 Pro」は専門職向けモデル。基本性能は通常のViXion2 と共通ながら、レンズを最大30度下向きにできるチルト機構、高い衛生基準が求められる環境でも使いやすい対薬品性素材、アウターフレームにLEDライトをクリップオンできるマウント等、医療関係者などから求められる機能を備えたモデルです。 ViXion2 Proのみのチルト機構。 ▲画像:新旧比較。左が新型ViXion2、右が従来のViXion 1S。 見え方のイメージはこちら。 従来モデルはル
であれば、上記のモデルもLLM的に使いプロンプト拡張的に再利用できないか?と、筆者が作ったのが以下のカスタムノードだ。Z-Image / Qwen3-4b、LTX-2.3 / Gemma3-12b-itに対応している。 「え”Qwen-Imageは?」なのだが、もちろんトライしたものの、ComfyUIの内部構造が非対応で、カスタムノード内では吸収し切れなかったため諦めた…と言う経緯がある。 使い方は簡単!例えばZ-Imageだと、入力はCLIP、出力はテキスト。この出力をCLIP Text Encode (Positive Prompt)のTEXTへ入れれば準備完了。 パラメータとして、ユーザープロンプトとシステムプロンプトがあり、後者には、 You are a professional image generation prompt expert. Output in English.
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 Anthropicは、AIチャットボットClaudeの人気の高まりを受けて、2週間の期間限定でピーク時間帯を除くすべての時間において、ユーザーの使用量割り当てを2倍に増量するキャンペーンを開始しました。 すでに開始しているキャンペーン期間は3月27日までで、この間は日本時間では3時から21時まで、また週末は24時間すべての時間帯で、5時間ごとの送信可能メッセージ(トークン)数が平常時2倍のボーナスタイムになります。この増量分は週間の使用量制限にもカウントされません。 このキャンペーンは無料会員を含む各プラン(Enterprise除く)で適用され、ウェブ、デスクトップ、モバイル用の各Claudeアプリ、Cowo
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、人間の声と区別がつきにくいレベルに迫るリアルな音声を生成できるオープンソソースのText-to-Speech(TTS)「Fish Audio S2 Technical Report」を取り上げます。 Fish Audio S2は、複数話者による複数ターンの対話生成をネイティブにサポートしている点と、自然言語の指示による単語ごとの細かい感情コントロール指定が可能な点が特長です。 ▲Fish Audio S2の4つの主要機能(自然言語タグによる詳細な感情制御、複数話者・複数ターンの対話生成、高速生成、一貫した声質を保つ長尺音声生成) これまでの多くのAI音声ツールでは、声全体のトーンを「落ち着かせる」「元気にす
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第135回)は、AIの学習時間を2倍以上高速化させる強化学習システム「AReaL」や、1枚のH100で長尺動画を生成する140億パラメータの動画生成AI「Helios」を取り上げます。 またBlack Forest Labsが発表した効率的なAI学習法「Self-Flow」や、強い権限を与えた自律型AIエージェントを実環境に2週間展開して研究者らがレッドチームテストを行った研究をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Lightricksより発表された、ローカルで利用でき、商用利用可能な最新の音声付き動画生成AIモデル「LTX-2.3」を別の単体記事で取り上げています。
MacBook Neo上に構築したエージェンティックAI「mazzaineo」、さらに進化しています。夜中に充電して起きたら持ち出し、バッテリー駆動で使い続けております。かわいいよシトラスNeo。 ▲わかりやすいようにiBook G4と大きさ比較 それをさらに愛せるようにするため、音声機能を追加しました。 ボイスクローンによる音声合成と対話する去年、LM Studio、gpt-oss-120b、XTTS、MacWhisperなどを連携させて、妻のAIキャラクターと対話するシステムを作ったのですが、そのときの知見を生かしながら、今度は16分の1のメモリ、8分の1の価格であるMacBook Neo上のエージェンティックAIに実装。 軽量でありながらボイスクローン機能を持つXTTSに、妻のおしゃべりの断片を与え、彼女の声で返答してくれるようになりました。 中のキャラクターは、小規模モデルのQwe
最初は128GBのメモリを積んだMacBook Proで、次はBlackwell世代のGPUを積んだ、同じく128GBのメモリ搭載DGX Spark互換機(ASUS GX10)。ここで開発に使っているClaude CodeのRate Limitが来てしまい力尽きて終わりました。 が、その後もエージェンティックAIの探究は続けていて、もっとコンパクトなマシンでどうなるかに挑戦。 清水亮さん開発のスクリプト「Suzaku」を使うと、ollamaほか必要ツールをまとめてインストールして設定し、LLMチャット環境が手軽に構築されるのですが、そこで使っているLLMはgpt-oss-20b。これを使うためには10数GBのメモリが必要となります。16GBメモリでも不足で、24GBくらいは必要みたい。 じゃあ、別のLLMを使えば裾野は広がるはず。 もっとコンパクトなLLMでエージェンティックAIに向いてい
シトラスを選んだ理由は、まだApple Japanが初台オペラシティにあった頃、初代iBookの発表会で紹介されたキーライムカラーのクラムシェル(本当に貝のような形だった)Macがあまりに印象的で、そのときに同席していた荻窪圭さん、こばやしゆたかさんらライター陣と、オペラシティにあったアンナミラーズに行ってキーライムパイを食べたのを思い出したから。 ▲我が家のiBookはキーライムではなく、タンジェリン ちなみにアンナミラーズはアメリカンパイが売りで、キーライムパイはその当時のメニューにはありました。復活版アンミラにはないみたいですが、食べられる店は他にいくつかあるようです。 さて、そんな郷愁だけでMacBook Neoを買ったわけではありません。実は、これをLogic Proなどを使う音楽制作マシンにしようという目論見があったのです。9万9800円でディスプレイもついてApple Sil
AI研究家の友人、清水亮さんから、エージェント作らないか、というお誘いがありました。エージェントにならない、ならわかります。スパイになれってことですよね? 違うの? OKすると、シラスという動画プラットフォーム上で清水さんが開講している「教養としてのAI講座」の特番が建てられました。 ちなみにこのAI講座は月額3万6300円と比較的高価ではありますが、毎日清水さんによるAIニュースの実践的解説があり、このような講座もあるという、AIに関わる人間にとっては有用この上ない番組。筆者はスタートした2年前からサブスクしています。 【非エンジニア】自分専用エージェンティックAを作ろう!講座【還暦ハンズオン】と題したこの講座の概要は、 自分専用のエージェンティックAIを作ってみたい! そんなあなたのための特別授業を開講します 生徒役はお馴染み還暦AIアーティストの松尾公也さん。 プログラミング経験ゼロ
新モデルLTX-2.3は、前モデルLTX-2の性能をベースにしつつ、エンジンの根幹から改良が加えられており、映像のディテール、動きの自然さ、音声のクリアさ、そしてプロンプトへの忠実度が大幅に向上しています。 LTX-2.3は、単一のモデル内で同期した動画と音声を生成するように設計された、DiT(Diffusion Transformer)ベースの音声・動画基盤モデルです。 今回のアップデートでは、より高品質なデータでトレーニングされた最新のVAEを使用して、潜在空間を再構築しました。これにより、細部がよりシャープになり、動きも格段に安定。画像から動画を生成する際の一貫性も向上しており、微細なテクスチャが圧縮過程で失われずに保持されるほか、ラストフレームの補間により、動画の結末がより自然で意図通りに仕上がるようになっています。 また、テキストコネクタが従来の4倍に拡大されたことでプロンプトの
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第134回)は、GPT-5-miniを上回る「Qwen3.5」の軽量モデル群や、国立国会図書館が発表した家庭用PCで使える無料OCRツール「NDLOCR-Lite」を取り上げます。 また、生成速度が従来の5倍以上高速な拡散ベースのLLM「Mercury 2」や、1100万時間分の動画で学んだPC操作AIモデル「FDM-1」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、ローカルで起動できるリアルタイム文字起こしAI「Moonshine Voice」を別の単体記事で取り上げています。
NHK総合テレビ「知的探求フロンティア タモリ・山中伸弥の!?」に出演し、妻のAIアバター「AIとりちゃん」と対話して曲を作る様子が放映されてから8カ月。開発を担当してくれているクリスタル・メソッドとの開発打ち合わせは今も続いています。 そんな同社が新しい音声合成技術「SakuraSpeech」を公開しました。ボイスクローンも可能な高速な日本語TTS(Text to Speech)です。 筆者が日本テレビの番組で美空ひばりの声再現などで使った音声合成の発展形で、無料でも使えます(ボイスクローンは有料プランのみ)。 この音声応答をリアルタイムで、そして写真から本人に近いリップシンクができ、そのキャラクター設定をカスタマイズできるシステムを現在、作っているというわけです。 話さなくても良くないですか?それはひとまず置いといて、筆者がいま面白いと思っているのは、そこにいるだけで話さないキャラクタ
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、ローカルで起動できるリアルタイム文字起こしAI「Moonshine Voice」を取り上げます。 ▲Moonshine Voiceリポジトリのスクリーンショット OpenAIの音声認識モデル「Whisper」は、リアルタイムの音声インタフェースとして組み込む場合にはいくつかの弱点を抱えています。まず、常に30秒の音声を処理する仕様のため、短い発話であっても空白部分の処理に計算リソースを浪費し、結果として応答遅延(レイテンシ)が生じやすくなります。 また、継続的な音声入力に対してもキャッシュの仕組みを持たず毎回ゼロから計算をやり直す点や、日本語などの非英語言語の精度が低下する点、さらにモバイルやIoT機器への
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 OpenAIのサム・アルトマンCEOは金曜夜遅くに、米戦争省(DoW。大統領例で改称された国防総省の呼称)の機密ネットワークに自社技術を展開する契約を結んだと発表しました。 アルトマン氏は、この契約はOpenAIの「国内における大規模監視の禁止」と「自律型兵器システムを含む武力行使における人間の責任」という倫理的保護措置を講じることを尊重する内容になっているとSNSへの投稿で記し、「DoWはこれらの原則に同意し、法律と政策に反映させており、私たちの協定にも盛り込んでいる」と主張しています。 しかし、アルトマン氏もDoWも、同じ主張をしていたはずのAnthropicがあらゆる政府関連の契約から排除されたうえに、
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 Anthropicのダリオ・アモデイCEOは、米戦争省(DoW。2025年大統領令により国防総省の名を置き換えて表記)からの、Claude AIシステムへの無制限のアクセス要求に応じない考えを再確認する声明を発表しました。 AnthropicがDoWの要求に対し難色を示しているのは、自社の技術が国民に対する大規模監視目的で使用されることや、完全自律型兵器に応用されることへの懸念からとされています。これに対しDoWは、軍による技術の使用は民間請負業者の使用方針よりも、米国の法律と憲法の制限によって規制されるべきだと主張し、要求に応じなければAnthropicを、通常は敵対国企業に対して適用する「サプライチェーン
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第133回)は、GPT-5.2やGemini-3 Proに匹敵するアリババグループ開発のマルチモーダルLLM「Qwen3.5-397B-A17B」や、高解像度画像で従来比30倍以上高速で生成できるByteDance開発のAI「BitDance」を取り上げます。 また、AIエージェントに人間が作成した専門的な手順やツールの使い方をまとめた「マニュアル」を学習させた際の性能を評価するベンチマーク「SkillsBench」や、NVIDIA開発の日本語特化小型モデル「Nemotron-Nano-9B-v2-Japanese」をご紹介します。 そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Anthropicが2026年2月20
ただ標準的な50 Steps / CFG 4.0だと、RTX 5090でさえ1024x1536ピクセルが分に近い時間がかかり、気軽にガチャる気分にはなれない。 そんな時に有効なのが前回ご紹介したEasy Cacheとの併用。reuse_thresholdを0.2~0.4にすると2倍ちょっと高速化できる。細かい部分が違う程度なので、これ!という一枚が出た時だけEasy Cacheをバイパスして、同じseedで生成すればガチャる時間は短縮できる。 もう一つの方法は蒸留化LoRAを使うこと。前回Z-Image-Distilledをご紹介したが、その後?に出たZ-Image-Fun-Distill-ComfyUIの方が調子いい。 Z-Image-Fun-Lora-Distill-8-Steps_ComfyUI_v1.safetensors Z-Image-Fun-Lora-Distill-8-St
そのProducer.aiに、激震が走りました。2月24日、google Labsへの参加が発表されたのです。 NotebookLMで発表内容をまとめると、 google Labsに新しく加わったProducerAIは、最先端の人工知能を活用して音楽制作を支援する革新的なプラットフォームです。このツールは、歌詞の生成からメロディの微調整、さらには全く新しい楽器の創造まで、あらゆるレベルのクリエイターが直感的に操作できる機能を提供します。google DeepMindが開発したLyria 3などの高度なモデルを搭載しており、プロ仕様の音質と細やかな制御を両立させています。著名なアーティストとの連携を通じて開発されたこの技術は、人間の創造性を拡張し、音楽表現の新たな可能性を切り拓くことを目的としています。ユーザーは無料版または有料版を通じて、自分だけの楽曲や映像コンテンツを世界中で自由に制作す
1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、Anthropicが2026年2月20日にリサーチプレビュー版を限定公開した、コードの脆弱性をAIが自律的に発見し、修正パッチまで提案する新機能「Claude Code Security」を取り上げます。 この発表直後、AIによる高度な自動化が既存のセキュリティツールの需要を奪うとの見方が広がり、CrowdStrikeやCloudflareといったサイバーセキュリティ大手企業の株価が下落する事態へと発展しました。現場のエンジニアや企業が抱える高額なセキュリティツールへの不満を解決してしまう可能性を秘めているからです。 これまで開発現場で広く使われてきた静的解析ツールなどの自動セキュリティテストは、パスワード
次のページ
このページを最初にブックマークしてみませんか?
『テクノエッジ TechnoEdge』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く