
RAG構築・改善、データ整備ならDTへ
既存AIの回答精度を
RAG×データ整備で実務
レベルへ
ChatGPT / ABEJA / PKSHA AI / ELYZA / Allganize(Alli LLM App Market) など、導入済みAIはそのままに、RAGの構築とデータ整備で、改善します。
社内文書、FAQ、マニュアルを整備し、「使えるAI」に育てます。
こんなお悩みをお持ちでしたら、お役に立てるかもしれません。
AIを導入した。でも、精度が上がらず、成果(業務改善)につながっていない。現場で使われなくなり、改善も止まってしまった。。。
よくあるお悩み
・学習用(教師)データが足りず、
欲しい回答が返ってこない。
・データの品質が悪い/未整備で、
検索も回答もブレる。
・ハルシネーション※が頻発して
ユーザーから信用されない。
・何をすれば改善できるのか分からない。
・改善の指標が作れない。
※生成AIが「もっともらしい嘘をつく」こと

具体例のご紹介
社員がマニュアルを検索するAIヘルプデスクを導入したが、精度が悪く、利用されない。

Case 1
保守点検用に、AIエラー自動検知システムを導入したが、精度が悪い。

Case 2
AIによる正答や部分正答、不正解(未回答)など、精度の指標はどう作ればいい?

Case 3
DTなら、お役に立てるかもしれません。
「データ」「検索(RAG)」「使われ方(運用)」の改善。
「どんなデータを」「どう検索して」「どう使い、どう価値を出すか」を改善していきます。
まずは、即効性のある改善策から着手し、段階的に精度を引き上げます。
RAG構築 / 改善
+
データ整備
で
既存AIの精度を引き上げる!
「AIに答えさせる前に、社内データから根拠を検索して渡す」ことで、誤回答を抑え、再現性の高い回答へ近づけます。
RAG構築 / 改善とデータ整備
DTでは、RAG(検索拡張生成)とデータ整備を組み合わせて、導入済みAIの回答精度を改善します。
RAG構築 / 改善
そもそも、RAG(検索拡張生成)って何?
RAG(Retrieval-Augmented Generation)は、大規模言語モデル(LLM)に、外部の知識を参照させて回答を生成する手法です。LLMの文脈とは別に、社内ドキュメントやマニュアルなどを検索し、その内容を回答の根拠に組み込むことで、回答の信頼性と精度を高めます。


なぜ、RAGを構築する必要があるの?
汎用的な生成AIは、企業固有のルールや最新情報をデフォルトでは知りません。社内限定の知識は、一般の学習データに含まれないため、モデル単独では正答できないことがあります。そのため、AIに社内文書やFAQを参照させることで、生成された回答の信頼性が向上します。
RAGの構築ってどうやるの?
- 評価用Q&Aデータを作成
実際に想定される業務質問と正答例を数十件用意し、AIが正しく回答できるかを試験します。 - データ前処理
社内文書などのデータ全文を「チャンク」と呼ばれる小単位に分割します。これらのチャンクをベクトル化して検索インデックスに格納し、ユーザーの質問に応じて類似度検索を行うパイプラインを構築します。 - 回答結果の分析
テスト質問を投げて、回答の正答率や参照元の適切さを確認し、不正解の原因を追究します。 - 調整作業
必要に応じてチャンクサイズ調整ハイブリッド検索(意味検索+キーワード検索)への切り替え、プロンプト修正、あるいはモデルの見直しなどで精度向上を図ります。
このように、データ準備→パイプライン実装→評価→改善というサイクルを繰り返します。

RAG構築以外の改善方法について
- ファインチューニング(追加学習)
特定業務に特化した高精度モデルを作れます。ただし、膨大なデータ収集・再学習のコストが必要です。 - プロンプトエンジニアリング
AIに「このコンテキストだけを使う」「わからない場合は『不明』と答える」などの条件を与えて誤答を抑制します。
その他、必要に合わせた処置を行います。
データ整備
なぜ、データ整備が必要なの?
RAGで参照する社内データの品質は、AI回答の精度を大きく左右します。ファイルサーバーに、大量の非構造化データや古いバージョンが混在していると、AIが誤った情報を「正解」として参照し、ハルシネーションを生み出してしまいます。
※非構造化データ:PDF、Word、Excel、画像、表・図・フローチャートなど。
そのため、RAG導入の前提として、社内資料を整理し、不要データの削除や、最新ファイルの選定、アクセス権の整理などを行い、AIが迷わないようにしておきます。
データ整備が不十分だと、AIの出力はブレやすく、リスクも増大するため、まずはデータの整理・構造化が優先されます。


データ整備って何をするの?
- ノイズ除去と重複排除
同じ内容のファイルや、古い改訂版を削除またはアーカイブし、最新で信頼できる情報だけを残します。 - 企業名・製品名・日付の表記揺れを統一
業界/専門/社内用語、敬語/略語/型番など。また、文字コードを統一することで、機械処理しやすくします。PDFやWord文書内のヘッダー・フッター、ページ番号などの不要要素は自動で削除し、本文だけを取り出します。 - セマンティックチャンク分割
文書を意味的なまとまり単位(チャンク)に分割します。また、チャンク間で、内容を重ね合わせるオーバーラップを設定して、文脈の連続性を保ちます。 - メタデータを付与
各文書やチャンクにファイル名、作成日、関連部署、カテゴリなどを付与し、検索・フィルタリングしやすい構造にします。
これらの作業により、AIが「参照すべき情報」を効率的に抽出できるようになります。
それでもやっぱり…
100%は難しい!
AIの特性上、完璧な精度は、現実的に難しい領域です。
そこで、DTでは、設計とデータ整備、運用改善を行うことで、
15.8%
→
31.7%
43.5%
→
61.8%
のように、堅実な改善を目指し、「業務で使える」水準に引き上げていきます。
また、AIのハルシネーションを避け、「URLで返答」させることもできます。
まずは、「ログ×評価×原因分類」で、原因特定
1. 質問/回答ログを収集(どんな質問で失敗しているか。よくある質問の中から10件抽出。)
2. 評価指標を設計(正答、部分正答、不正解、未回答/該当情報なし)
3. 失敗を分類
- 検索が外れている(チャンク、言い換え、Embedding(数値化)/類似度検索)
- データが悪い(古い、誤り、不足、重複、類似、簡潔、カテゴリ、未整備)
- 生成が暴れる(回答ルール、根拠提示不足)
4. 対策をして再評価(改善ループ化)
この流れで「どこを直せば効果的か」を短期間で特定します。
サービス内容
提供領域
RAGの新規構築
(設計〜実装)
既存RAG / 既存AIの精度改善
(必要な箇所を選んで実施)
教師データ整備
(弊社パートナーにより、学習データを新規作成します。想定問答+メタデータ+不要データ削除。
改善指標(評価方法)の
設計と運用
ゴール
検索で正しい情報を取得する
+
AIが情報を正しく使えるようにする
この2つを同時に整えて、業務で使える精度に近づけます。
進め方
1.現状ヒアリング
用途、課題、ログ・データ状況の確認
2.改善方針の策定
データ、検索(RAG)、運用の優先順位決め
3.改善実装
即効性のあるところから段階適用
4.検証
正答/部分正答/不正解の採点設計、改善効果の確認
5.運用改善
ログを起点に継続的に精度を上げる

料金について
次のサービスの組み合わせによって、ご提供しています。
【RAG構築費】~「どんなデータを」「どう検索して」「どう使うか」
データ設計
7人日~
予算42万円~
検索設計
10人日~
予算60万円~
使われ方
7人日~
予算42万円~
【RAG改善費】
| 改善メニュー | 改善内容(具体的にやること) | 期間 | 予算 |
|---|---|---|---|
| チャンク(分割)の改善 | 文書の区切り方・粒度を見直し、検索で「必要な根拠」が当たるように調整(見出し / 段落 / 表などの分割ルール再設計、サンプル検証 → 再インデックス) | 3~5日 | 18~30万円 |
| 言い換え表現の追記 | 社内用語、略語、敬語、型番などの表記ゆれを整理し、同義語辞書/クエリ拡張で、ヒット率を改善(例:略語 ↔ 正式名称、型番表記ゆれ) | 3~7日 | 18~42万円 |
| Embedding(ベクトル化)モデルの見直し | 類似検索のズレを減らすため、Embeddingモデル/設定を比較検証し最適化(評価セット作成 → 候補比較 → 切替) | 3~5日 | 21~35万円 |
| 要約機能の追加 | 長文・複数文書をそのまま渡さず、要点を整理してAIに渡せるようにする(要約プロンプト設計、要約粒度 / 長さ調整、引用保持) | 3~7日 | 18~42万円 |
| 教師データ整備 | 想定問答の作成、メタデータ付与(部署 / 作成日 / 版数 / カテゴリ等)、不要(古い / 誤り / 重複)デー タ削除で「答えの材料」を強化(パートナー連携) | 1~2ヶ月 | 100~300万円 |
| 回答ルールの厳格化 | ハルシネーション抑制のため、回答ポリシーを実装(根拠を必ず提示 / 根拠が取れない場合は「分かりません」 / 参照範囲内のみ回答) | 3~5日 | 18~30万円 |
| 部署別・権限別カテゴリ分離/ノイズ除去 | 参照範囲を部署・権限で分け、不要データを除外して誤ヒットを削減(カテゴリ設計、アクセス制御方針、インデックス分割 / フィルタ) | 4~8日 | 24~48万円 |
| 質問ログの活用 | つまずき質問の抽出 → 原因分類 → 改善へ反映(言い換え追加、データ追加/削除、チャンク調整、回答ルール調整)。改善サイクルを回す運用設計も実施 | 3~5日 | 18~30万円 |
※一部門、複数部門、全社など、規模により予算は変わります。
※ テキスト(社内文書/FAQ)、OpenAIなどのAPI型モデル、利用者:20人~300人想定
※ データ量、非構造データ比率、権限設計、連携範囲により変動
※ 本料金表は「社内文書/FAQなどテキスト×API型モデル」を想定しています。
画像/動画/音声の精度改善(検知・認識)は要件に応じて別途お見積りいたします。
お問い合わせ(無料相談)
「ログ×評価×原因分類」で原因特定し、「どんなデータを」「どう検索して」「どう使うか」を改善することは、技術的に可能です。
しかしながら、「そこまでの予算と工数を使って、やる意味あるのか?」ということもあります。例えば、100万円のコストをかけて、「30万円分の成果が出たね」では、意味がないと考えています。
まずは、御社の課題と、あるべき姿を教えてください。その上で、やるべきか、やらない方がよいか、また、やるにしても、原因特定だけやってみる等、御社に合った改善策をご案内します。
精度改善の第一歩として、まずはお気軽にお問い合わせください。
お問い合わせ後、貴社の課題に合わせた最適なソリューションプランをスピーディーにご案内いたします。
会社概要

株式会社ドリーム・シアター
人材紹介 × 教育 × IT/AIの専門家
・AIを使ったWebシステム開発
・クラウドサーバ設計/構築
・就職/転職のためのプログラミングスクール「Pスク転職(無料PHPスクール)」運営
・プログラミング教育系Webプラットフォームサービス「Tech_theater(旧:TASUKEAI)」運営
・AI面接対策サービス「SHITATE_AGE(シタテアゲ)」提供
※有料職業紹介事業許可番号:13-ユ-305399
※労働者派遣事業許可番号:派13-316812
※BHAG:IT/AI+セールスライティング+会計+英語を、実務で学ぶ専門学校の設立(理論+実践×3倍の職業訓練学校)
住所:〒170-0014 東京都豊島区池袋1-16-17 カワムラビル3F-A
TEL:090-3509-3242(留守電いただければ、24時間以内に折り返し致します)
メール: info@dt30.net
代表者紹介

中田斉道(なかた・せいどう)
人材紹介23年、ITエンジニア教育18年、Webシステム開発15年
大学卒業後、教育研修会社にて、セールス・マーケティング専門の人材紹介事業の立ち上げに参画(IT/Web業界担当)。新人賞受賞(2004年)。2005年8月、最年少マネージャー(当時)として昇進。
その後、同企業にてITコンサルティング事業を立ち上げる。2010年12月に起業し、現在は、AIシステム開発と、人材紹介(無料PHPスクール)を行う。
●出身地: 兵庫県加古川市(母親の旧姓は加古さん)
●現住所: 東京都北区在住(私・妻・長女10歳・次女8歳)
●出身校: 加古川東高校(新聞部)、東京理科大学 基礎工学部(ロック研究会をクビに→ジャズ研究会へ)
●趣味: 世界遺産巡り(現在26ヶ国)、プログレ・メタル演奏(担当:ドラム)
●モットー: 苦労/困難/失敗/敗北/挫折/喪失/孤独/逆境は、過去の固定概念を手放すチャンス!
●StrengthsFinder: 最上志向、原点思考、包含、コミュニケーション