サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ChatGPT
upura.hatenablog.com
ご縁があり、講談社から共著で『Kaggle ではじめる大規模言語モデル入門 〜自然言語処理〈実践〉プログラミング〜』を出版します。 Amazon ページ や講談社の書籍ページは先日公開され、年明け 2026 年 1 月中旬に出版予定です。 書籍概要 書名の通り、Kaggle と大規模言語モデル (Large Language Models; LLM) を題材とした書籍です。 機械学習コンペティション(コンペ)での事例を通じて、LLM をはじめとした自然言語処理に関する実践的な知識やプログラミングを学ぶ内容になっています。 本書の大きな特徴は、学習済みのモデルを所与のものとして、どうモデルを活用するかに焦点を当てていることです。 一般的な LLM の解説は、肝となる Transformer などのモデル構造や事前学習の仕組みなどから丁寧に始まることが多いかと思います。 一方で本書では、これら
『先輩データサイエンティストからの指南書 -実務で生き抜くためのエンジニアリングスキル』(技術評論社)を、著者らのご厚意でご恵贈いただきました。実務で求められるコードの品質管理に関する考え方・ツールや、機械学習に特徴的なデータ確認や実験管理などの話題を扱っています。主な想定読者は新人データサイエンティストやこれからチームでのデータ分析業務に臨む方です。 gihyo.jp 「大学での研究や Kaggle などでデータ分析技術には一定の自信があるが、会社に入ってチームで開発するのは未経験で不安」という方の最初の一冊としてお勧めしやすい書籍だと思います。2017 年にデータサイエンティストとして現職に入社した私はまさに想定読者で、当時にこのような書籍があれば、より円滑に業務に入り込めたようにも感じました。コード品質向上のための考え方に加え、Git によるバージョン管理、Docker や uv に
『Pythonによる金融テキストマイニング』(朝倉書店)を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で全体像を示した後、第 2 、 3 章で開発環境構築と MeCab などのツール・ライブラリを紹介します。第 4 章から第 7 章は、応用事例です。最後に第 8 章で、書籍内で扱えなかった話題や将来展望を解説しています。 金融テイストマイニングの概要 金融データ解析・機械学習の環境構築 テキストマイニングツールの使い方 多変量解析を用いた日銀レポート解析と債券市場予測 深層学習を用いた価格予想 ブートストラップ法を用いた業績要因抽出法 決算短信テキストからの因果関係の抽出 金融テキストマイニング応用の課題を将来 まず、第 4
※ 「Kaggle Advent Calendar 2022」の 25 日目の記事です ご縁があって、講談社から共著で『Kaggleに挑む深層学習プログラミングの極意』を出版します。 画像・自然言語処理の機械学習コンテストを題材として、深層学習ライブラリ「PyTorch」での実装を交えながら、著者らの経験に基づく知見をまとめました。 Amazon ページ が先日公開され、ありがたいことに発売前にもかかわらず「ベストセラー1位」の記載が付きました。 現在は出版に向けた最終の校正中で、ご期待に沿えるよう精一杯の作業を進めていきます。 書籍と担当章の紹介 著者は 4 人で、私は過去の Kaggle 関連書籍や「Weekly Kaggle News」の経験を活かし、まえがきから第 2 章まで担当しました。細かな目次は講談社の書籍ページに掲載されています。 第1章「機械学習コンテストの基礎知識」では
11 月 20〜23 日開催の自然言語処理の主要な国際会議「AACL-IJCNLP 2022」に参加しました。投稿した論文が本会議にロングペーパーとして採択され、22 日にポスター発表を実施しました。本記事の最後に、論文・コード・発表資料のリンクを掲載しています。 本研究では、コーパス内の通時的な単語の意味変化と、事前学習済み言語モデルの時系列性能劣化の関係性を議論しました。主要な発見の一つは「構築した word2vec や RoBERTa モデルの性能が時系列で大きく悪化する際に、学習用コーパス内の通時的な単語の意味変化が大きくなっている」点です。巨大なモデルが普及する中で(比較的低コストな)学習用コーパスの分析から、再学習した場合の性能を推察できるのは実用上の利点があります。 この研究では、学習用コーパスの期間を変えながら日・英の word2vec モデルや 12 個の日本語 RoBE
機械学習を用いたサービス開発者として、最近読んだ3冊の簡単な紹介です。 ここ2年ほどは、自らプロジェクトを設計して推進する立場も多くなってきました。 いずれも手元に置いておいて、しばらくして読み返すとまた違った気づきがあるような書籍だと思います。 『よくわかるパーソナルデータの教科書』(オーム社) 企業でのパーソナルデータの利活用について、法律・倫理・技術など分野横断で解説している書籍です。 平易な文章で具体例多めに書かれていて、非技術者でも取っ付きやすいと思います。 機械学習を活用する上で、入力となるデータや出力されたスコアの扱い方には細心の注意を払う必要があります。 「個人情報」や「パーソナルデータ」とは何か、情報技術分野との用語の使い方の違い、意識すべき観点など、頭の中を整理しておく上で役立つ情報がまとめられていると感じました。 改めて気を引き締め直す良い契機となりました。 www.
運営に関わる知人に誘われ、この週末に開催された「NHKハッカソン- 教育×シビックテック×ニュース」に参加してきました。以下がイベントページから抜粋した本イベントの概要です。NHKのニュース関連のAPIを用いて開発できる貴重な機会でした。 今回は「NHK for School」「NHK NEWS WEB」などのデータを活用し、試験的にサービスやアプリケーションを開発することを通して、新たな学びの可能性を探ります。コロナ禍で教育現場や子どもたちの日常に大きな変化が起きている今、新しいサービスやコンテンツのアイデアが本イベントの中で生まれ、カタチとして表現されることを期待しています。 NHK for Schoolは子どもや先生向けに学びのための動画コンテンツが集まっているサイト、NHK NEWS WEBはNHKの一般的なニュースサイトです。APIを通じて、動画・画像・テキスト・ジャンルなど各種
Kaggle特集に惹かれ、今月の『Software Design』を購入しました。 gihyo.jp 特集の目次は、以下のとおりです。 第1特集 Kaggleで知る機械学習 前処理から学習モデルの構築,スコアの上げ方までわかる 第1章:Kaggleにエントリーしよう 登録からSubmitまでブラウザ上で完結 第2章:自然言語処理のコンペに挑戦① データの前処理・学習・推論の流れ 第3章:自然言語処理のコンペに挑戦② モデル変更でスコアを底上げする 第4章:くずし字認識のコンペに挑戦① パラメータチューニングの奥深さに触れる 第5章:くずし字認識のコンペに挑戦② さらなるスコアアップのためにKagglerがやっていること まずは、広くソフトウェアエンジニア向けの雑誌にKaggleの特集が掲載されたのが印象的でした。その中で第1章では、Kaggleの概要や機能をスクリーンショットと共に紹介して
10月16日に「PyCon JP 2021」で発表しました。PyCon JP は日本最大級のPythonユーザが集まるイベントです。私はイベント自体が初参加で「Pythonによるアクセスログ解析入門」の題目で提出したプロポーザルが採択されました。 発表では、普段業務で扱っているWebサービスのアクセスログを題材に、PythonのPandasを用いたデータ解析の技法や数々の応用事例を紹介しました。Zoomでの発表時間30分も盛況で、Discordでの質問時間30分にも20名近くの方に残っていただき、さまざまな観点で質疑応答や議論をすることができました。オンライン発表ながら、多くの方々の反響を頂き、私自身もよい学びの機会となりました。 他の方の発表では、将棋棋士の谷合廣紀さんとPythonのコア開発者のブラントブーカーさんによるキーノートが共に大変面白く、これだけでも参加した価値があったと感じ
Google Colab の最上位プランとして「Pro+」が登場しました。Twitterの検索結果を見ると、日本時間の2021年8月12日午後辺りが初出のようです。 t.co 上記サイトの説明によると、既存の「Pro」プランに比べて、以下の利点があるそうです。 Background execution ブラウザを閉じても実行を継続 Faster GPUs より高速なGPUやTPUへの優先アクセス権 Even more memory より大きなRAM Even longer runtimes より長い実行時間 FAQを見ると、既に日本でも利用可能とのことでした。 Where are Colab Pro and Pro+ available? For now, both Colab Pro and Pro+ are only available in the following countri
8月2日に終了したKaggle「CommonLit Readability Prize」コンペにチームで参加し、25位でした。 3682チーム参加で、17位までが金メダル圏内で、もう一歩という結果でした。 コンペ概要 チームでの取り組み 上位解法 全体共通の傾向 1位 2位 3位 4位 5位 6位 9位 12位 13位 14位 15位 16位 コンペ概要 英語の文章の「読みやすさ」の値を-3から3程度の範囲(大きいほど読みやすい)*1で予測する問題でした。 正解の値は、2つの文章の比較結果を利用する「Bradley–Terry model」*2で付けられていたそうです*3。 推論時は文章単体に対してスコアを予測する必要がありました。 データセットのサイズは小さく、学習用データセットが約3000で、評価用データセットが2000*4以下でした。 与えられたデータセットのカラムは、以下の通りです
マイナビ出版より8月に『Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ』と題した書籍が出版されることになりました。 世界各国で出版・公開された書籍 "Approaching (Almost) Any Machine Learning Problem" の翻訳書です。 豊富なコード例と機械学習にまつわる基礎的な内容を取り上げています。 book.mynavi.jp https://www.amazon.co.jp/dp/4839974985/ "Approaching (Almost) Any Machine Learning Problem"は、国際的なデータサイエンスコミュニティ「Kaggle」で史上初めて全カテゴリで最上位の称号を獲得した Abhishek Thakur さん による書籍です。 日本ではKaggleコミュニティを中心に「4GM本」とも呼ばれ、話題を
『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)をサラッと読みました。近年の自然言語処理領域の飛躍的発展のきっかけとなった BERT について、理論と実践をバランス良く取り上げた良書だと感じました。 『BERTによる自然言語処理入門 Transformersを使った実践プログラミング』(オーム社)を入手した。本を積む自分 vs 読む自分📚https://t.co/sMVHR3g5FQ pic.twitter.com/ORKv6rgsdA— u++ (@upura0) June 24, 2021 書籍情報 内容の概要や目次、サンプルのPDFは以下で確認できます。 www.ohmsha.co.jp 所感 書名に「実践プログラミング」とある通り、Google Colaboratory 上に用意されているソースコードで BERT を実践していく部
コンピュータサイエンス技術の一つに、自然言語処理(NLP)と呼ばれている領域があります。NLPは、コンピュータに人間の用いる言語(自然言語)を処理させる取り組み全般を指します。 ここ数年のNLPの傾向として、大規模テキストでの事前学習済みモデルの活用が挙げられます。代表的な例が、Googleが2018年10月に発表した「Bidirectional Encoder Representations from Transformers (BERT)」*1です。BERTは多数のNLPタスクで飛躍的な性能を示し、注目を集めました。BERTの登場後、大規模テキストを用いた巨大モデルを学習させていく流れが強まっています*2。 BERTの登場以前は、個別のタスクに対してモデルを訓練する取り組みが優勢でした。一方でBERTでは、事前に大量のテキストデータを用いて巨大なニューラルネットワークを学習させて汎用的
概要 毎週金曜日に更新しているニューズレター「Weekly Kaggle News」を横断検索できる仕組みを作りました GitHubのレポジトリに全データを蓄積し、左上の検索ボックスからレポジトリ内を検索できます 最新号のデータをAPIで取得し、GitHub Actionsで自動更新するように設定しました なぜ作った 基本的に自分用です。ニューズレターの発行を重ねるにつれ「この話題、昔どこかの号で取り上げたな」と感じる機会が増えてきました。そのような話題に言及する際、以前の書きぶりを確認する必要が生じます。ただし、現在使っているプラットフォーム「Revue」だと、過去の号を逐一開いて確認しなければなりませんでした。 要件 以上を踏まえて「過去の文字列を検索できること」が最低限の要件になります。また、可能であれば自動的に最新号までを検索対象に含めることが望ましいです。 どうやって作った Re
以前に参加したNishika「財務・非財務情報を活用した株主価値予測」コンペ*1で検討していたタイトルの技術について、別コンペで使う可能性があったので改めてコードを整理していました。結局使わなかったですが、せっかくまとめたのでブログ記事として供養しておきます。 www.kaggle.com 手法 会社名などラベル名に意味がある場合、何らかの形でそのラベル名のベクトル表現を獲得し特徴量として追加することは性能向上に繋がる可能性があります。今回はラベル名が日本語の会社名なので、日本語で事前学習されたBERTを用いて埋め込み表現を獲得しました。 結果 処理の詳細はソースコードをご確認ください。結果として、例えば「三井住友建設株式会社」のベクトル表現に類似している企業名として「住友不動産株式会社」「住友商事株式会社」「第一建設工業株式会社」などの文字列が似ているラベル名が挙がっています。なお実験の
10月30日からオンライン開催される「SciPy Japan 2020」にて、初日朝9:00〜12:30のチュートリアル講座を担当します。本記事では「SciPy Japan」の紹介と、参加される方向けのご案内を掲載します。 Tutorial: Pythonで機械学習コンペティション「Kaggle」をはじめよう (Let's start a machine learning competition called Kaggle, with Python) - Shotaro Ishihara (Beginner) (JP) Conference Schedule | SciPy Japan 「SciPy Japan」とは? SciPy Japanは、Pythonの数値計算系ライブラリ「SciPy」の名を冠した、科学技術分野の幅広い話題を扱っている技術イベントです。本家「SciPy Confer
「BERT応用勉強会」にオンライン参加しました。簡単な発表概要と個人的な所感をメモしておきます。発表動画のアーカイブは、youtubeで後日公開されるそうですました。slidoとyoutubeコメントでの質疑応答はSpreadsheetにまとめてみました。 nlpaper-challenge.connpass.com 医療言語処理へのBERTの応用 --BioBERT, ClinicalBERT, そして-- 発表資料 概要 所感 Multilingual BERTの二言語領域適応に基づく対訳文同定 概要 所感 BERTのMulti Modalタスクへの活用 発表資料 概要 所感 BERTをブラウザで動かしたい!―MobileBERTとTensorFlow.js― 発表資料 概要 所感 テキスト生成の評価 × BERT 発表資料 概要 所感 おわりに 医療言語処理へのBERTの応用 --B
TISが公開している企業名認識のためのデータセット「JCLdic」*1を用いて、Encoder-Decoderモデルを学習させてみました。 結果と考察 学習・検証に利用していないデータに対して適応した結果を下図に示します。統計的な出現頻度に基づくので当然な気がしますが①「ヤ」→「ャ」に修正②「有限会社」を明示しない場合は「株式会社」を付与ーーしています。 Encoder-Decoderモデルを用いた正規化は、クックパッドのブログ*2を読んで以来、試してみたいと考えていました。 今回は簡単のため「JCLdic」をそのまま活用しましたが「株式会社」を前に付けるか後に付けるかなどは、統計的に処理するのは不可能なタスクなように感じます。学習前のtgt側のデータから「株式会社」「有限会社」などを削除しておくことで、会社名部分のみの正規化というタスクに変換する方が理にかなっていそうです。 実装 実装に
「言語処理100本ノック 2020」が4月6日に公開されました。2015年以来、5年ぶりの改訂です。昨今の自然言語処理の研究動向を鑑み、深層ニューラルネットワークに関する問題追加などの変更があります。 nlp100.github.io 実装のためのプログラミング言語としては、Python3系を利用します。バージョンは初公開時は3.6.8で、2023年11月に3.11.3に更新しました。ソースコードは、GitHubで公開しています。 github.com 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02. 「パトカー」+「タクシー」=「パタトクカシーー」 03. 円周率 04. 元素記号 05. n-gram 06. 集合 07. テンプレートによる文生成 08. 暗号文 09. Typoglycemia 第2章: UNIXコマンド 10. 行数のカウント 11.
「企業分析における自然言語処理を学ぼう」と題した勉強会*1に参加しました。初めての大規模なオンライン勉強会への参加でしたが、画質も全く問題なくChatやtwitterのハッシュタグでコミュニケーションが取れて「これはこれで良いな」という感想を抱きました。発表終了時に、拍手の意で「8888888」のコメントが流れるのは往年のニコニコ動画を思い出しました。 以下、発表メモを共有します。 発表1: 「財務・非財務一体型の企業分析に向けて」by @icoxfog417 財務・非財務一体型の企業分析に向けて from Takahiro Kubo TISで企業分析に取り組む@icoxfog417さんの発表 TISが公開したデータセットを用いた、Nishikaというプラットフォームで「財務・非財務情報を活用した株主価値予測」コンペ*2も開催中 企業分析の中で、非財務情報の活用は進んでいるとは言いづらい
AutoML「AutoGluon-Tabular」が、少なくとも私の観測範囲の中で局所的に話題になっています。 構造化データに対するAutoMLとしてAutoGluon-Tabularは基本モデルを積み重ねる多層スタックアンサンブルを利用。各層は前層の予測結果と入力を受け取り、過学習を防ぐよう交差検定のテスト集合に対する予測のアンサンブルを出力する。他OSSや商用AutoMLを上回る https://t.co/MYiY6ryAfC— Daisuke Okanohara (@hillbig) March 17, 2020 テーブルデータに対し自動で予測モデルを構築するAutoGluon-Tabularの発表。モデル1つ選びパラメーター探索する手法と異なり、k-foldのBaggingで学習を行ったモデルを積んでいく(予測結果平均が次層の入力になる)。既存の商用/OSSのAutoMLを上回る精
共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』(講談社)が手元に届きました。 本記事では、本書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード github.com 告知記事 upura.hatenablog.com 告知記事の補足 1. 私がレビューをお願いした方々のご紹介 告知記事のタイミングではレビューが完了していなかったため積極的に公表していませんでしたが、私が優勝したKaggle「PetFinder.my Adoption Prediction」コンペ*1のチームメイト4人に、本書のレビューにご協力いただきました。Kaggle GrandmasterやKaggle Masterの称号を持っている方々に深く議論に参加していただき、より良い書籍に仕上
「Data Journalism Awards 2019」を受賞した全12作の中で、特に機械学習など高度なデータサイエンスを活用した事例があったので、簡単に概要を紹介します。 Radmesser 作品URL 受賞概要 概要 課題背景 目的 データ収集 データ分析 追い越しイベントの検出 地理情報などの分析 結果の可視化 チーム構成 おわりに Radmesser By ドイツの新聞社「Der Tagesspiegel」 作品URL interaktiv.tagesspiegel.de 受賞概要 https://datajournalismawards.org/projects/radmesser/ 概要 課題背景 自転車に乗る人たちから「追い抜きの車の接近が怖くて市街で自転車に乗りづらい」との声が挙がっていた ドイツでは自転車に乗った人を車が追い越す際の接近距離に関する法的規制はあるが、この
データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。 data-gateway-talk.connpass.com 対象を絞った勉強会で以前から関心はあり、今回が初参加です。 本記事では、全発表について概要と所感を述べます。 データ分析業務を1年間やって実感したこと 発表資料 概要 所感 「データ分析」の解像度を上げたい 発表資料 概要 所感 GBDTアルゴリズム Gradient Boost Decision Tree with Iris Data 発表資料 概要 所感 Hivemallを使ってSQLで機械学習 発表資料 概要 所感 SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する 発表資料 概要 所感 リサー
Kaggleで開催されていた「PetFinder.my Adoption Prediction」コンペ*1で優勝しました*2。 素晴らしいチームメイトに恵まれた思い出深いコンペです。開催から1年近く経過した今でもチーム「Wodori」のSlackでは活発に議論が交わされており、常に互いに刺激を受けながら切磋琢磨できていると感じます。 Wodoriのチームメイトの皆さまには、私が3月に出版するKaggle入門書*3の技術観点でのレビューも快く引き受けていただきました。Kaggle GrandmasterやKaggle Masterの称号を持っている方々に深く議論に参加していただき、より良い書籍に仕上げられたことを大変嬉しく思っています。 本記事の締め括りとして、本コンペの取り組みに関する公開済の情報を下記にまとめておきます。 Kaggle Discussion u++'s post: Ove
「Weekly Kaggle News」と冠したニューズレター*1を始めてみました。 www.getrevue.co 日本語で、Kaggleをはじめとするデータ分析コンペティションに関する話題を取り扱う予定です。週次で、毎週金〜日ごろの更新を予定しています。 個人的に、SNSが存分に普及した現代だからこそのニューズレターの価値が少し気になりました。いつまで続けるか未定ですが、のんびり続けてみたいと思います。 *1:kotobank.jp
※ 「Kaggle Advent Calendar 2019」*1の12日目の記事です。 2019年12月11、12日に開催された「Kaggle Days Tokyo」*2に参加しました。1日目はワークショップとプレゼンテーション、2日目はオフラインコンペティションが開催されました。 資料や動画は恐らく公式から公開されると思うので、本記事では私の聴講した内容を基に、個人的な所感を述べます。なお1日目の内容はGunosyブログの記事*3やWantedlyブログの記事*4、twitterまとめ*5に詳しく記載されています。 1日目 Leveling-up Kaggle Competitions Ben Hamner, Kaggle CTO KaggleのCTOを務めるBenさんから、Kaggleの遍歴や今後の展望についてのお話でした 深層学習の大躍進以前からKaggleを開催している歴史や、強
このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月17日を予定しています。 https://www.amazon.co.jp/dp/4065190061 同人誌ながら累計2500部以上を売り上げている『Kaggleのチュートリアル』*2を執筆したカレーさんとの共著です。 私がQiitaに投稿した「Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~」*3と、カレーさんの『Kaggleのチュートリアル』を基にした書籍です。この2つのコンテンツを土台に、さらなる内容も盛り込みながら「初学者向けのKaggle入門書の決定版」を目指して執筆を進めています。 本書の前半では、初学者向けチュートリアルの「Titanic
次のページ
このページを最初にブックマークしてみませんか?
『u++の備忘録』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く