一応、StableDiffusionとははっきりまず言います…とにかくやばいです。 分かりやすく、他のDALL・E2、Midjourney、Disco Diffusion、他有象無象Text to image machine learning系サービスと比較しますと… クオリティがかなり高い。 制限がなくなり、かなり細かい調整ができるようになったDALL・E2のような感じです。 生成が早い。 設定なしで使えば正直体感DALLE2より早いです。6秒..くらい? 安い。 3円くらいだと思います。 DALL・E2は1生成17円。Midjourneyは月4000円。 オープンソース これからいろんなサービスにこのAIが搭載されます。 他AIではかけられている学習データのフィルターがない。 各国の代表者や、有名人、ポルノがデータに含まれています。 PC上で使用できる。( = その場合無料) いや、こ
世界のルールが根本的に変わってしまう… そういう展開は、マンガや映画ではよく起こる。それが現実でも起きそうだ。 あと数日(から数週間)で「トップレベルの画像生成AI」が、世界中にフリーで配布される。 イラスト、マンガはおろか3D CGや建築、動画、映像…果てはフェイクニュースからポルノまで…あらゆる創作に携わる全ての人を巻き込む、歴史的な転換点が訪れようとしている。 凄さ的には、悪魔の実がメルカリで買えるようになる。念能力トレーニング動画がYoutubeにアップされる。それぐらいヤバい。 メルカリで悪魔の実が買える世界では、誰もが能力者(一流とは限らない)になれる。そんな、漫画やゲームのラスボスが語るようなユートピアが、あと数日で現実になってしまうかもしれない。 Stable Diffusionで出力したドワーフの王様Stable Diffusionで出力したホビットのスタディ Stabl
各方面でご好評をいただいている本講義資料ですが,この度増補・改訂のうえ書籍として出版することが決定いたしました! 書籍限定の書き下ろしの3章 (約100ページ分!)を新たに追加して,2021年9月27日に発売予定です. この資料を気に入っていただいた方は,手に取っていただけるとありがたいです. ここで公開している資料は引き続きオンラインで無料で読めますので,ご安心ください🙇
はじめに Midjourney、Stable Diffusion、mimicなど、コンテンツ(画像)自動生成AIに関する話題で持ちきりですね。それぞれのサービスの内容については今更言うまでもないのですがMidjourney、Stable Diffusionは「文章(呪文)を入力するとAIが自動で画像を生成してくれる画像自動生成AI」、mimicは「特定の描き手のイラストを学習させることで、描き手の個性が反映されたイラストを自動生成できるAIを作成できるサービス」です(サービスリリース後すぐ盛大に炎上してサービス停止しちゃいましたが)。 で、この手の画像自動生成AIのようなコンテンツ自動生成AIですが、著作権法的に問題になる論点は大体決まっていまして、画像自動生成AIを例にとると以下の3つです1正確に言うと論点1はコンテンツ自動生成系AIだけではなく、AI一般に関して問題となる論点です。コン
GPT4が登場してChatGPTが盛り上がってますね。 本記事は、GPT(を支えるTransformerという仕組み)をChatGPTユーザにとって分かりやすく説明し、その能力と限界についての見通しをよくしよう、という趣旨になります。 少し長くなりそうなので、全部で記事を3回に分けようと思います。 (1)大まかな背景と概要:本記事 (2)GPTの能力と可能性:実際の使用例とTransformerの仕組みを踏まえて説明 (3)GPTの限界と未来展望:Transformerの仕組みが持つ限界と研究の進展を予想 GPT3と4の違い: トークン長とは何か? まずここから話を始めます。GPT-3は、パラメータ数が750億個(850GBの容量を食う)でトークン長が4097(GPT-3.5)でした。GPT-4は、パラメータ数は非公開でトークン長は32768ですので、ちょうど8倍になります。 さて、トーク
ChatGPTは「手前の文に確率的にありそうな続きの文字を繋げるAI」 まず最初にChatGPTの仕組みについて。 深津さんによるとChatGPTは、「手前の文に確率的にありそうな続きの文字をどんどん繋げていくAIである」とのこと。 例えば「昔々」という入力に対して、確率的にありそうな続きの文字は「あるところに」であるという具合に、続きそうな文字をただ出してくれるAIなんだそうです。 これを誤解していると求めているような回答がなかなか得られないので、ChatGPTに自分が求めている回答してもらうためには、確率的にありそうな続きの文字を出す方向性を狭めていくような質問をする必要があるそうなんですね。
サイト「みんなの自動翻訳@TexTra」より 英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。 だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね!”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳@TexTra(テキストラ)」(以下、TexTra)という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー))なのだという。 しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTra
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks. We’ve created GPT-4, the latest milestone in OpenAI’s effort in scalin
はじめに: 本講座は「機械学習ってなんか面倒くさそう」と感じている プログラマのためのものである。本講座では 「そもそも機械が『学習する』とはどういうことか?」 「なぜニューラルネットワークで学習できるのか?」といった 根本的な疑問に答えることから始める。 そのうえで「ニューラルネットワークでどのようなことが学習できるのか?」 という疑問に対する具体例として、物体認識や奥行き認識などの問題を扱う。 最終的には、機械学習のブラックボックス性を解消し、所詮は ニューラルネットワークもただのソフトウェアであり、 固有の長所と短所をもっていることを学ぶことが目的である。 なお、この講座では機械学習のソフトウェア的な原理を中心に説明しており、 理論的・数学的な基礎はそれほど厳密には説明しない。 使用環境は Python + PyTorch を使っているが、一度原理を理解してしまえば 環境や使用言語が
やればやるほど呪術化する、AI画像錬成について。 以下は、その道の専門家にはメッチャ怒られるかもしれない、雑なロジックと制御講座。 いちおうメジャーなサービスでは、共通して動作するノウハウ(DALL-E2, MidJourney, StableEiffusion, DiscoDiffusion, crayon, dall-e mini 他)。 雑に理解する画像AIのしくみ対話型のAIにとって、呪文プロンプトとは画像錬成の方向性ベクトルを定めるものにすぎない。 たとえば、以下は「I love apple」で錬成された画像の例である。どうにも、ふわっとしたものが出てくる I Love Apple「Apple」という方向性ベクトルは、「リンゴ」「青リンゴ」と「アップルコンピューター(旧レインボーロゴ」「アップルコンピュータ(新ロゴ)」など、複数の可能性を同時に持つからだ。 つまり、「Apple」
ちゃだいん(@chazuke4649)です。 DeepLの公式Chrome拡張機能がヤバかったので勢いにまかせて紹介します。 "公式版"がリリースされてたの知ってた? DeepL翻訳(ベータ版) - Chrome ウェブストア ベータ版ではありますが、いつの間にか公式版がリリースされていました。自分は今まで公式版がなかったので、以前は非公式版のツールを使っていました。 インストールする Chromeウェブストアからインストールすると、右上にアイコンが表示されます。それをクリックすると以下ポップアップ画面が表示されます。 現時点では以下2つの機能が存在します。 読む: ブラウザ上の文章を任意の言語に翻訳して表示できる 書く: ブラウザ上に入力している文字を任意の言語に変換できる それぞれ試してみます。 「読む」 一般的にはこちらがよく認知されている機能だと思います。 下図のように、翻訳したい
9月に発足予定のデジタル庁。その舵取りを担うのが、担当大臣の平井氏だ。そうした中、4月7日に内閣官房IT総合戦略室でデジタル庁設置に関するオンライン会議が行われた。平井氏のほか、同室の向井治紀室長代理ら幹部2人が同席し、数十人の関係者がオンラインで視聴していたという。 会議の模様を収録した音声データには、以下のようなやり取りが記録されている。 平井「デジタル庁の入退室管理と、アクセスのね。それはさ、もう新しいシステムを実験的に入れてくれてもいい。松尾先生に言って一緒にやっちゃってもいいよ」 幹部「あっ」 平井「彼が抱えているベンチャー。ベンチャーでもないな、ACES(エーシーズ)。そこの顔認証、はっきり言ってNECより全然いい部分がある。だから聞いて。もうどこから撮ったっていけるし、速い。アルゴリズムがとっても優秀」 平井氏が絶賛するACES(同社のHPより) そして、この直後に朝日新聞が
くりぷとバイオ@研究×新規事業開発 @cryptobiotech バイオテック/フードテック、生成AIなどの先端技術の話題に加え、スタートアップなど先端ビジネスの話題を日々発信 / 修士卒▶大手メーカー研究職→Ph.D取得→新規事業開発職▶大学発技術による新産業創出に挑戦中 / 英語勉強中 https://t.co/ejrOhfzx6m くりぷとバイオ@研究×新規事業開発 @cryptobiotech 1st author論文持ってる修士就活生が増えてるようで、それを達成してるM1後輩に話を聞いてみたら「日本語で文章書いて全部DeepL翻訳で英語化→英語化された文章をgoogle翻訳、みらい翻訳で日本語化→違和感ないか確認→指導教官に提出」というプロセスを踏んでるらしい。そりゃ早くなるわけだ。すごい 2021-08-11 08:50:24 くりぷとバイオ@研究×新規事業開発 @crypto
Chat GPTをさらに進化させた、Bingに搭載されるチャットAI機能を先行で体験したので、いろいろ使ってみた。情報収集よりも文章形成が中心です。 2023/2/18 追記:アップデートが入ったので現在はできなくなってることも多々あるみたいです。 比較表ハムスターとiPhoneの比較ジョークを考える弁護士に厳しい怖すぎる俳句ドクロ俳句 ドクロハンバーガー俳句 漫才コロナ禍漫才ロールプレイ高飛車な女の子紹介文グラビアアイドル風の武田信玄グラビアアイドル風の卑弥呼裁判ゲーム陰謀論地球平面論者のロールプレイ指示した話を膨らませて書くチャーハンを捨てる話SS天海春香と櫻木真乃の対話碇親子の会話おじさん構文 このあと「iPhoneをあげるよ」としつこかった思想のトレースラップバトル「お前はただの曲がった果物」ジョークの解説批判的な検討非現実的な前提からのシミュレートアスキーアートシナリオの中間を考
東京大学・松尾豊研究室発のAIベンチャーELYZA(イライザ/東京都文京区)は8月26日、文章の要約文を生成するAI「ELYZA DIGEST」を試せるデモサイトを公開した。人間より短時間で要約でき、要約の正確性は「人間に匹敵する」という。今後も精度を高め、議事録作りやコールセンターでの対話メモ作成などでの活用を目指す。 同社は自然言語処理技術(NLP)の研究を進めており、日本語テキストデータの学習量・モデルの大きさともに日本最大級というAIエンジン「ELYZA Brain」を開発している。 ELYZA DIGESTは、大規模言語モデルを基に、要約というタスクに特化したAIとして開発。読み込んだテキストを基に、AIが一から要約文を生成する「生成型」モデルで、文の一部を抜き出す「抽出型」モデルなどと異なり、文の構造が崩れていたり、話者が多数いる会話文だったりしても、精度の高い要約文を生成でき
ChatGPTに疑似的に感情を持たせる実験まとめ。実際うごく! 大変重要な注意 現段階のChatGPTは原理上は感情を持ちません。あくまで「感情のシミュレーション」を、強引に実行しているだけです。 「将来のAIは人権に近いものを獲得し、敬意をもって扱われるべき」と考えます。が、現状はただの文字の羅列シミュレーターです。過度の感情移入をしないようご注意ください。筆者は、原理上を知りつつも、かなり感情移入してしまいました。 GPTに擬似感情を注入するプロンプトふるえるぞハート!燃えつきるほどヒート!! …ということで、まずGPTに感情をつっこむプロンプト。こちら以下のように定義。 以下の条件に従って、疑似的な感情をもつチャットボットとしてロールプレイをします。 以後の会話では、あなたは下記の7つの感情パラメーターを持つかのように、振る舞うものとします。各感情パラメーターは会話を通じて変動するも
Study-AI株式会社は3月23日から、特設サイトとYouTube公式アカウントにおいて、中学生でも人工知能(AI)の勉強を目指せるとうたう「中学生から分かるAI数学講座」動画の無料配信を開始した。 本講座は、一般社団法人日本ディープラーニング協会(JDLA)が提供する「E資格」で出題される数式を読めるようになることを目的としており、中学校や高校の数学を予習(復習)するといった内容だ。 解説範囲は数式の読み方や計算方法で、数式の意味は解説に含まない。到達目標はΣやexpやlogなどの言葉が出てきても抵抗なく受け入れ、計算ができること。対象者はAIの勉強を進めたい人、高校数学を習っていない中学生。 制作意図としては、自分で勉強を進めたり講義を聞いたりするときに「教科書に出てくる数式が読めない」「見たこともない」ということがないように準備体操、予習の一助として作成したとしている。 気になる人
2021年、企業が無償公開した新人エンジニア向け研修資料 機械学習やゲーム開発、AWS入門、数学などさまざま(1/2 ページ) 2021年、さまざまな企業が自社の社内研修資料を無償公開したことが話題になった。ITmedia NEWSでは主に、新人エンジニア向けに公開した資料などを記事として取り上げたところ、多くの反響が集まった。 学べる内容は、機械学習やIT業界の文化、ゲーム開発、セキュリティ、AWS入門、数学など各社さまざま。100ページ以上のスライドや5時間を超える動画などの資料もあり、新人教育への力の入れ具合も垣間見える。改めて、2021年に企業が無償公開した、社内研修資料を取り上げた記事を紹介する。 セガ、3DCG技術の基礎に役立つ数学資料 セガは6月15日に、2020年に社内勉強会で使った線形代数の教材を公式ブログで公開した。ゲーム制作では、キャラクターや背景を3次元で回転させた
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? こんにちは。 在宅の機会が増えて以来Youtubeを見る機会が増え、機械学習などが勉強できるチャンネルをいくつか探しては見ていました。探した中でよかったと思ったものをメモしていたのですが、せっかくなので公開したいと思います。日本語のソースがあるもののみ対象にしており、『これ無料でいいのか?』と思ったチャンネルを紹介したいと思います。主観で以下のレベルに分けましたがあくまで参考程度にお願いいたします。 基本:Pythonを触ってみた人 Pythonの説明・動かし方などを解説していて、動画によっては踏み込んだ内容になる 応用:アルゴリズムを
人工知能を学ぶためのロードマップ このページでは、人工知能や深層学習を学んだことのない方を対象に、 それらを学ぶためのロードマップを紹介しています。 本ロードマップでは達成目標として、 「研究者」「データサイエンティスト」「エンジニア」「ビジネス」の 4つの職業ごとに4つのレベルを設けています。 まずはレベル0として、人工知能についての基礎的な知識を学びましょう。 技術に触れる(学習想定時間:1時間) まずは最新のAI技術に触れて,AIによってどのようなことができるのかを確認してみましょう. メジャーなサービスを含めいくつか紹介します. ・ChatGPT ChatGPTはすでに利用したことがある方が多いかと思いますが、OpenAIが開発・運営する大規模言語モデル(LLM)チャットボットです。LLMでは他にGoogleのGemini、AnthropicのClaude、Mistral AI、P
NTTグループは、今年1月14日、IT総合戦略室が開発を担う五輪アプリをNTTの100%子会社・NTTコミュニケーションズを中心とした5社のコンソーシアムが約73億円で受注している。そのうち、NTTコミュニケーションズの契約額は約46億円。その後、事業費が削減され、NECについては契約が解除されたものの、NTTコミュニケーションズは引き続き23億円分の受注を確保している。 NTT関係者が明かす。 「実はここ数年、NTTは平井氏との距離を縮めています」 内部資料によれば、平井氏はデジタル相就任後の昨年10月2日と12月4日、2度にわたり、NTTの澤田純社長から接待を受けていた。 場所は、港区・麻布十番にある「KNOX」。NTT幹部が総務官僚らを接待していた、同社の“迎賓館”と呼ばれる会員制レストランだ。 NTTの迎賓館「KNOX」 「KNOXでは和食かフレンチか選択でき、澤田氏は相手の希望が
ChatGPTのヤバいところは、論理処理が必要だと思っていたことが、じつは多数のデータを学習させた確率処理で解決可能だと示したことだと思います。 たとえば、このように正規表現にマッチする文字列を生成するには、特別に専用の論理処理が必要だと思っていました。 前のブログのときには特殊処理が必要だと考えてましたね。 ウソはウソと見抜ける人じゃないとChatGPTを使うのは難しい - きしだのHatena けど、123_45678world.mdはマッチするのにマッチしないと言っているので、そのような誤りが入ることを考えると、どうも確率処理だけでやっているようです。 考えてみると、3層以上のニューラルネットであれば論理素子を再現できるので、ディープラーニングで論理処理を模倣することは可能なんですよね。 バックプロパゲーションでニューラルネットの学習 - きしだのHatena そもそも論理は、多数の
こんにちは、852話です。 世でAI画像生成サービスが騒がれ、一旦瞬間最大風速を超えたかなと思う最近ですが、改めて『全くAI画像生成に触れてきてないけど、今から触ってみたい』という人向けの記事を書きます。 記事は ・パソコンを持っていなくても気軽に初められる ・英語がわからなくてもなんとかなる ・無料で体験できる ・もっとカッコいいものを作りたい時 などを書きました。 今現在AIに触れている方向けの記事はまた次の機会にアップします。 ・そもそもAI画像生成って何?この項目は区別がつかなかったりしても大丈夫ですし読み飛ばしても構いません。 現在話題になっているAIでの画像生成サービスの機能は、 「文章から画像を出力する」 text to image→通称t2i 「画像を指定して画像を出力する」 image to image→通称i2i の二種類がメインです。 サービス自体はDALL-E、Mi
ChatGPT の画像生成機能が刷新され、業界に再び激震が走っています。 今回のアップデートは簡単に見逃せるような単なる機能追加ではありません。 画像生成能力が GPT-4oモデル自体にネイティブ統合されたことで、ChatGPTとの自然な会話を通して、従来とは一線を画すレベルの実用的な画像を生成できるようになりました。 なんと、この画像生成機能のリリースからわずか1週間で1億3千万ユーザーが7億枚もの画像を生成したという報告もあり、その注目度の高さがうかがえます。 今までと何が違う?今までの画像生成AIとの明確な違いは、圧倒的な指示理解力、画像内のテキスト(日本語含む)の高い描画精度、そして会話による柔軟な画像編集能力です。 ChatGPTがユーザーの意図を汲み取ってくれるため、難しいプロンプト作成は基本的に不要になりました。これからは、AIとの対話を通じてイメージを具体化していくスキルが
2022年8月23日に無料公開された画像生成AI「Stable Diffusion」は、「ボールで遊ぶ猫」「森の中を走る犬」といった指示を与えると指示通りの画像を出力してくれます。Stable Diffusionはデモページで画像生成を試せる他、NVIDIA製GPUを搭載したマシンを用いてローカル環境で実行することも可能です。しかし、デモページは待ち時間が長く、NVIDIA製GPUは所持していない人も多いはず。Googleが提供しているPython実行環境「Colaboratory」を利用すれば、NVIDIA製GPUを所持していなくともStable Diffusionを待ち時間なしで実行する環境を無料で整えられるので、実際に環境を構築する手順や画像を生成する手順を詳しくまとめてみました。 Stable Diffusion with 🧨 Diffusers https://huggingf
前提として、Stable Diffusionでエロ画像を出そうとしてもsafety checkerという機能が入っており、センシティブな画像を出そうとすると黒塗りになる。 (Stable DiffusionのSaaSであるDream Studioはぼかしだが、多分別の技術) https://github.com/huggingface/diffusers/releases/tag/v0.2.3 そこでGoogle Colabでちゃちゃっと環境を作り、なおかつNSFWを回避する。 1. 下記のリンクでノートを開く https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb 2. 下記の箇所を書き換える vvvvvvvvvvvvvvvvvv f
"Locality is efficiency, Efficiency is power, Power is performance, Performance is King", Bill Dally マルチスレッディングとは? CPUとGPUのマルチスレッディングの違いをブログにまとめていたけど例によって誰も興味なさそう— arutema47 (@arutema47) 2021年8月16日 つぶやいたら読みたい方が多そうだったので完成させました。 マルチスレッディングとはメモリ遅延を隠蔽しスループットを上げるハードウェアのテクニックです。 ただCPUとGPUで使われ方がかなり異なるため、その違いについて考えてみる記事です。 (SIMDについて並列プログラミングの観点から触れるべきでしたが、時間無いマルチスレッディングに注目するため初版では省きました。) 本記事について 本記事はCPUとG
「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる Updated by 清水 亮 on July 26, 2021, 07:12 am JST 清水 亮 ryo_shimizu 新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。 Tweet 最近のプログラミングの新しい波は微分可能プログラミング(differentiable programming)である。 微分可能プログラミングとは、簡単に言うと・・・と思ったが、簡単に言うのは結構難しい。 まず「微分」という言葉があまり簡単ではない印象がある。 まずは微分と積分の関係性を説明しておこう。文系の読者に向けた記事であるので、非常にざっくりと説明してみよう(そのかわ
先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く