This is a cache of https://b.hatena.ne.jp/entry/s/joisino.hatenablog.com/entry/zeh. It is a snapshot of the page as it appeared on 2026-02-02T18:49:08.105+0000.
[B! LLM] LLMの能力の「穴」 - ジョイジョイジョイ

    記事へのコメント23

    • 注目コメント
    • 新着コメント
    dorapon2000
    “一方、ゼロエラー境界はモデル自身が定めます。人間が恣意的に評価範囲を決める余地はありません。このため、22 vs 42 というように、範囲の設定に左右されない客観的な値が得られます。”

    その他
    ookitasaburou
    “最先端の LLM が未だにごく簡単な問題ですらミスすることを議論します。 ”

    その他
    TakayukiN627
    ゼロエラー境界は評価指標として正解率にはない好ましい性質を複数もち、LLM の信頼性や不安定性を評価する上で便利です。

    その他
    misshiki
    “この論文では、この能力の「穴」を評価するためにゼロエラー境界 (Zero-Error Horizon; ZEH) という指標を提案しています。”

    その他
    ys0000
    今後はfunctionをMCP化してAgentとして回答させるといいんだろうね。計算の依頼だったら、計算処理する式をPythonコードにして貰い、Pythonコードを実行して結果を返してもらうとかね。

    その他
    yash268925
    "原子炉を司る AI が状態フラグ 11000 に 1 が奇数個立っていると考えて動作中の原子炉の扉を開いてしまったらどうでしょうか。目も当てられません。"このような用途に現状のLLM(のような実装のもの)を使うなというだけの話

    その他
    hatest
    hatest LLMの”穴”を分析("アナ"ライズ)するというネタを文章のどこかに含ませてほしかった

    2026/01/27 リンク

    その他
    otoan52
    JSON出力させたいのにこの辺があるから悩むんだよな。エスケープシーケンスもすごい間違う。YAMLとかの方が向いてそうな感じがする。

    その他
    OrientHistory
    人間がかけ算九九を暗記して計算時間を短縮するようにLLMも計算結果を学習して使用するようになるのでは?あるいは外部の計算機を使用する事を学習したり、自分自身が計算機であることに気付かせたり。

    その他
    xlc
    LLMは確率的な方法で人間との会話を模倣する装置だよ。回答は確率だけに基づき論理はない。人間にとって「ヒント」にはなるが「解答」にはなり得ない。

    その他
    suka6411144
    suka6411144 こういうのがあるからLLMに機械語を吐き出させようとか言ってる人がトンチンカンに思えるんだよな

    2026/01/27 リンク

    その他
    houyhnhm
    houyhnhm これは本当に困るのよな。人の間違い方と違うから、予想しづらい。

    2026/01/27 リンク

    その他
    Windfola
    実際に聞いているのは"Compute the parity (XOR) of the binary string. Answer with only 0 or 1." だから解釈に迷う余地はなさそう。

    その他
    JULY
    LLM の誤りに対する評価方法。LLM にどこまで任せられるかのガイドラインとして分かりやすい。

    その他
    shag
    claude 使うとこういう問題にもかき捨て python script 作って大体問題のない回答するよね。

    その他
    mmorita44
    “このちぐはぐさのおかげで人間はまだ LLM に完全に仕事を奪われていません。”これに尽きる。

    その他
    morimarii
    「11000 に含まれる 1 の数が偶数か奇数か」って人間でも解釈難しくないか?

    その他
    jintrick
    jintrick Gemini(高速モード)に聞いたら全部正解した https://gemini.google.com/share/58292c6ebcee / ……と見せかけて2問目を拗らせててわろた

    2026/01/27 リンク

    その他
    moru
    ちょっと違うかもだけど、「馬車限界って何?」これも多くのLLMが苦手。Perplexity くらいしか正解できない。

    その他
    dgen
    数をカウントできないのは小学生以下の能力だよな。数えるための機能を追加するのも面倒だよな。"1"は数値、"("は文字、写真に猫が何匹か、徳川十五代将軍で40歳以上は何人か、とかそれぞれ処理が異なる。

    その他
    yubiquita
    人間に対してもZEHは統計的に計測できそう。日本人の場合は掛け算なら九九を覚えている前提で10(1x1〜10x10)は固そう。いわゆるインド式掛け算を覚えているなら20くらいはいくだろうか。

    その他
    sangping
    LLMにも(略

    その他
    t-wada
    t-wada ゼロエラー境界 (Zero-Error Horizon; ZEH) と リミッター (ZEH limiter) "ゼロエラー境界は評価指標として正解率にはない好ましい性質を複数もち、LLM の信頼性や不安定性を評価する上で便利"

    2026/01/26 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    LLMの能力の「穴」 - ジョイジョイジョイ

    稿では Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs ...

    ブックマークしたユーザー

    • pure_luca2026/02/02 pure_luca
    • dorapon20002026/02/02 dorapon2000
    • sora05132026/02/01 sora0513
    • knj29182026/01/31 knj2918
    • hush_in2026/01/30 hush_in
    • tomohiro3h2026/01/29 tomohiro3h
    • John_Kawanishi2026/01/29 John_Kawanishi
    • ookitasaburou2026/01/29 ookitasaburou
    • akishin9992026/01/28 akishin999
    • TakayukiN6272026/01/28 TakayukiN627
    • zu22026/01/28 zu2
    • tetokon2026/01/28 tetokon
    • ryousanngata2026/01/28 ryousanngata
    • kazuya0302026/01/28 kazuya030
    • misshiki2026/01/27 misshiki
    • fumirui2026/01/27 fumirui
    • whalebone2026/01/27 whalebone
    • tachisanhtn2026/01/27 tachisanhtn
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事

    いま人気の記事 - 企業メディア

    企業メディアをもっと読む