「優秀な新人が、毎朝すべてを忘れて出社してくる」——社内に生成AIを入れた現場では、運用がしばらく続くとこの感覚に行き当たることがあります。物知りで文章もうまい。けれど昨日の失敗も、自社のやり方も、何ひとつ積み上がっていかない。ベテランが時間をかけて身につける「経験」が、AIにはどうしても溜まらないのです。
この記事では、その正体を「AIは経験を積まない」という一点に絞って解きほぐします。そのうえで、経験を3つの層に分け、それぞれをRAG・シナリオ・ハーネスエンジニアリングという別の手段で”外付け”する設計図を示します。RAGを入れたのに成果が伸びない、という停滞の理由もここにあります。
なぜ最新モデルでも「経験」が積み上がらないのか
学習はするのに、業務の経験は一回ごとに消える
「AIは学習するのでは」という疑問はもっともです。ただし、ここで言う学習(事前学習や追加学習)と、人間が現場で積む経験とは別物です。モデルの賢さは訓練時に重みへ刻まれますが、その重みは運用中ずっと凍結されています。あなたとの会話の中で見せる”理解”は、基本的にはその場のコンテキスト内での適応にすぎません。ログや外部メモリ、ナレッジ更新の仕組みを別途用意しない限り、その経験がモデル本体の重みに蓄積されることはありません。
では追加学習で覚えさせればよいか、というと簡単ではありません。新しいデータで重みを更新すると、以前に学んだ内容を失う「破滅的忘却」が起きやすいことが知られています[1]。一回の経験を安全に内在化させ続けるのは、技術的にまだ重いのです。つまりAIは、人間のように「失敗から学んで次に活かす」回路を、それ自体としては持っていません。
RAGを入れても、成果が伸びないことがある
この弱点への定番の処方箋がRAG(社内データを検索して回答に反映する仕組み)です。たしかにRAGは強力で、自社の文書を踏まえた回答を返せるようになります。ところが、RAGを導入しても現場の成果が期待ほど伸びないケースがあります。
象徴的なのが、より自律的に動くエージェント領域での失速です。Gartnerは、2027年末までにエージェント型AIプロジェクトの40%以上が、コスト高騰やビジネス価値の不明確さ、リスク統制の不足を理由に中止されると予測しています[2]。これはRAG導入後の停滞を直接示した統計ではありませんが、より自律的なAI活用へ進む局面ほど、コスト・価値・リスク統制の設計不足が失敗要因になることを示唆します。原因をモデルの賢さ不足に求めがちですが、実際にはAIに渡す「経験」の設計が足りていない場合が多いのです。RAGは経験の一部しか埋めません。次章で、その「一部」が何かを分解します。
「経験」は3つの層に分けて外付けする
知識・手順・判断の型——埋めるべきは別物
ベテランの「経験」を分解すると、少なくとも三つの層が見えてきます。第一に、規程や過去データといった知識(何を知っているか)。第二に、段取りやコツといった手順(こういうときはこうやる)。第三に、いつ何を確認し、どこで手を止め、どう検証するかという判断の型です。
人間はこの三層を一体で身につけるため区別しにくいのですが、AIに外付けするときは話が変わります。層ごとに有効な手段がまったく異なるからです。知識を足しても手順は埋まらず、手順を渡しても判断の型は育ちません。経験を一語で語るのをやめ、三層に切り分けることが設計の出発点になります。
RAGが埋めるのは、一番下の層にすぎない
ここで先ほどの問いに答えが出ます。RAGが主に補うのは、三層のうち一番下の知識、つまり推論時に参照する外部情報です。手順書や過去事例を検索させることはできますが、作業順序の強制や途中状態の管理、完了前の検証、人へのエスカレーションといった制御までは、RAGだけでは担保しにくい領域です。「自社の規程ではどうなっているか」には答えられても、「この案件をどの順で、どこまでAIに任せ、どこで人が止めるか」という手順と判断の型には踏み込みきれません。

この上位二層を設計する営みは、近年「コンテキストエンジニアリング」と呼ばれ、プロンプトの言葉選びに代わる中心課題として位置づけられています。要は「推論のたびに、どんな情報の集合を構成すれば望む挙動を引き出せるか」を組み立てる仕事です[3]。RAGはその構成要素の一つでしかありません。残る手順と判断の型を、どう外付けするのかを見ていきます。
手順と判断の型をどう設計するか
シナリオ=再利用できる「手続き」の外付け
二層目の手順は、業務をシナリオとして構造化することで外付けします。頻出業務をテンプレート化し、必要項目を入れるだけで一定品質の出力が得られる形にする発想です。プロンプトを書ける一部の達人に依存せず、誰が使っても結果がそろうため、全社展開と相性がよいのが利点です。
技術的にも、この方向は理にかなっています。手順を構造化されたファイルとして渡し、必要なときだけ該当部分を読み込ませる「段階的開示」という設計が提唱されており、組織固有の手続きを、必要な場面で参照・再利用しやすくなるとされています[4]。すべてを毎回プロンプトに詰め込む方式とも、知識を検索するだけのRAGとも異なる、第二の外付け手段です。
ハーネスエンジニアリング=「判断の型」を足場にする
最上層の判断の型を担うのが、モデルの周囲に組む足場の設計です。本記事ではこれをハーネスエンジニアリングと呼びます。ハーネスとは、ツール、検証の仕組み、状態の記録、作業をやり直すループなどの総体——モデル本体ではなく、その周りの装置一式を指します。モデルを賢くするのではなく、賢さを実務で安定して発揮させるための装置だと考えるとわかりやすいでしょう。

ここが本質です。ある長時間コーディングエージェントの実験では、最先端級のモデルを長時間ループで走らせても、高レベルの指示だけでは本番品質のWebアプリ構築のような複雑なタスクに届きにくいと報告されています[5]。鍵を握るのは、毎回の作業開始時に現在地と進捗を読み直させ、一度に一つの工程に集中させ、完了前に必ず自動で検証させ、失敗したら前の状態へ戻す——といった足場の作り込みです。これは、AIエージェント単体では足りず自律ワークフローとして設計する必要がある分岐点とも重なります。人間が経験で身につける「確認と検証の段取り」を、重みではなくハーネスとして外から組む。これが判断の型の外付けにあたります。
3層設計を自社で回す進め方
どの層から手をつけるかを見極める
三層は同時に完璧をめざす必要はありません。まず自社の停滞がどの層に起因するかを切り分けます。回答が「自社の事情を踏まえていない」なら知識層、つまりRAGの整備が先です。「人によって使い方も品質もばらばら」なら手順層、シナリオ化が効きます。「任せた作業の精度が安定せず、止めどころも曖昧」なら判断の型、すなわちハーネスの設計に課題があります。
こうした三層は、社内AI基盤の機能にもそのまま対応します。知識層は社内データを取り込むRAG機能、手順層はシナリオ機能、判断の型は業務を自律実行させるワークフロー機能、という具合です。停滞している層に対応する打ち手から着手すれば、投資が空回りしにくくなります。
最後の層は、人が運用で書き換え続ける
ただし、忘れてはならない第四の側面があります。経験のいちばん奥にある「失敗から学んで次に活かす」更新だけは、まだ自動では回りません。AIは一回ごとに経験を内在化しないため、現場で起きた失敗をシナリオやハーネスの側へ反映し、型を書き換え続ける役割は人間に残ります。
これは負担ではなく、むしろ競争優位の源泉です。自社の失敗と工夫を足場に刻み込めるのは自社だけであり、その積み重ねが他社には模倣しにくい資産になります。だからこそ、誰がどの業務でどう使ったかをログから可視化する効果測定を行い、定期的に型を見直す運用を組み込むことが要になります。AIに経験は溜まらなくても、組織の側に経験を溜める仕組みは作れるのです。
さいごに
生成AIに不足しているのは、多くの場合「賢さ」ではなく「経験」です。そして経験は、知識・手順・判断の型という三層に分けて、RAG・シナリオ・ハーネスエンジニアリングで一つずつ外付けできます。RAGだけで止まっていた現場は、他の二層が手つかずだっただけかもしれません。
まずは自社の停滞がどの層にあるかを一度棚卸ししてみてください。足りない層を見極め、対応する打ち手から着手し、最後は人が運用で型を磨き続ける。この設計図に沿えば、「毎朝すべてを忘れる新人」を、少しずつ自社の流儀を体現する戦力へと育てていけるはずです。
出典
- [1] Self-Distillation Enables Continual Learning – arXiv
- [2] Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027 – Gartner
- [3] Effective context engineering for AI agents – Anthropic
- [4] Equipping agents for the real world with Agent Skills – Anthropic
- [5] Effective harnesses for long-running agents – Anthropic

