RAG構築・改善、データ整備ならDTへ

既存AIの回答精度を
RAG×データ整備で実務
レベル

ChatGPT / ABEJA / PKSHA AI / ELYZA / Allganize(Alli LLM App Market) など、導入済みAIはそのままに、RAGの構築とデータ整備で、改善します。

社内文書、FAQ、マニュアルを整備し、「使えるAI」に育てます。

こんなお悩みをお持ちでしたら、お役に立てるかもしれません。

AIを導入した。でも、精度が上がらず、成果(業務改善)につながっていない。現場で使われなくなり、改善も止まってしまった。。。

・学習用(教師)データが足りず、
欲しい回答が返ってこない。

・データの品質が悪い/未整備で、
検索も回答もブレる。

・ハルシネーション※が頻発して
ユーザーから信用されない。

・何をすれば改善できるのか分からない。
・改善の指標が作れない。

※生成AIが「もっともらしい嘘をつく」こと

社員がマニュアルを検索するAIヘルプデスクを導入したが、精度が悪く、利用されない。

保守点検用に、AIエラー自動検知システムを導入したが、精度が悪い。

AIによる正答や部分正答、不正解(未回答)など、精度の指標はどう作ればいい?

DTなら、お役に立てるかもしれません。

「データ」「検索(RAG)」「使われ方(運用)」の改善。

「どんなデータを」「どう検索して」「どう使い、どう価値を出すか」を改善していきます。

まずは、即効性のある改善策から着手し、段階的に精度を引き上げます。

RAG構築 / 改善

データ整備

「AIに答えさせる前に、社内データから根拠を検索して渡す」ことで、誤回答を抑え、再現性の高い回答へ近づけます。

RAG構築 / 改善とデータ整備

DTでは、RAG(検索拡張生成)データ整備を組み合わせて、導入済みAIの回答精度を改善します。

RAG構築 / 改善

そもそも、RAG(検索拡張生成)って何?

RAG(Retrieval-Augmented Generation)は、大規模言語モデル(LLM)に、外部の知識を参照させて回答を生成する手法です。LLMの文脈とは別に、社内ドキュメントやマニュアルなどを検索し、その内容を回答の根拠に組み込むことで、回答の信頼性と精度を高めます。

なぜ、RAGを構築する必要があるの?

汎用的な生成AIは、企業固有のルールや最新情報をデフォルトでは知りません。社内限定の知識は、一般の学習データに含まれないため、モデル単独では正答できないことがあります。そのため、AIに社内文書やFAQを参照させることで、生成された回答の信頼性が向上します。

RAGの構築ってどうやるの?

  1. 評価用Q&Aデータを作成
    実際に想定される業務質問と正答例を数十件用意し、AIが正しく回答できるかを試験します。
  2. データ前処理
    社内文書などのデータ全文を「チャンク」と呼ばれる小単位に分割します。これらのチャンクをベクトル化して検索インデックスに格納し、ユーザーの質問に応じて類似度検索を行うパイプラインを構築します。
  3. 回答結果の分析
    テスト質問を投げて、回答の正答率や参照元の適切さを確認し、不正解の原因を追究します。
  4. 調整作業
    必要に応じてチャンクサイズ調整ハイブリッド検索(意味検索+キーワード検索)への切り替え、プロンプト修正、あるいはモデルの見直しなどで精度向上を図ります。

このように、データ準備→パイプライン実装→評価→改善というサイクルを繰り返します。

RAG構築以外の改善方法について

  • ファインチューニング(追加学習)
    特定業務に特化した高精度モデルを作れます。ただし、膨大なデータ収集・再学習のコストが必要です。
  • プロンプトエンジニアリング
    AIに「このコンテキストだけを使う」「わからない場合は『不明』と答える」などの条件を与えて誤答を抑制します。

その他、必要に合わせた処置を行います。

データ整備

なぜ、データ整備が必要なの?

RAGで参照する社内データの品質は、AI回答の精度を大きく左右します。ファイルサーバーに、大量の非構造化データや古いバージョンが混在していると、AIが誤った情報を「正解」として参照し、ハルシネーションを生み出してしまいます。

※非構造化データ:PDF、Word、Excel、画像、表・図・フローチャートなど。

そのため、RAG導入の前提として、社内資料を整理し、不要データの削除や、最新ファイルの選定、アクセス権の整理などを行い、AIが迷わないようにしておきます。

データ整備が不十分だと、AIの出力はブレやすく、リスクも増大するため、まずはデータの整理・構造化が優先されます。

データ整備って何をするの?

  1. ノイズ除去と重複排除
    同じ内容のファイルや、古い改訂版を削除またはアーカイブし、最新で信頼できる情報だけを残します。
  2. 企業名・製品名・日付の表記揺れを統一
    業界/専門/社内用語、敬語/略語/型番など。また、文字コードを統一することで、機械処理しやすくします。PDFやWord文書内のヘッダー・フッター、ページ番号などの不要要素は自動で削除し、本文だけを取り出します。
  3. セマンティックチャンク分割
    文書を意味的なまとまり単位(チャンク)に分割します。また、チャンク間で、内容を重ね合わせるオーバーラップを設定して、文脈の連続性を保ちます。
  4. メタデータを付与
    各文書やチャンクにファイル名、作成日、関連部署、カテゴリなどを付与し、検索・フィルタリングしやすい構造にします。

これらの作業により、AIが「参照すべき情報」を効率的に抽出できるようになります。

100%は難しい!

AIの特性上、完璧な精度は、現実的に難しい領域です。

そこで、DTでは、設計とデータ整備、運用改善を行うことで、

15.8%

43.5%

のように、堅実な改善を目指し、「業務で使える」水準に引き上げていきます。

また、AIのハルシネーションを避け、「URLで返答」させることもできます。

1. 質問/回答ログを収集(どんな質問で失敗しているか。よくある質問の中から10件抽出。)

2. 評価指標を設計(正答、部分正答、不正解、未回答/該当情報なし)

3. 失敗を分類

  • 検索が外れている(チャンク、言い換え、Embedding(数値化)/類似度検索)
  • データが悪い(古い、誤り、不足、重複、類似、簡潔、カテゴリ、未整備)
  • 生成が暴れる(回答ルール、根拠提示不足)

4. 対策をして再評価(改善ループ化)

この流れで「どこを直せば効果的か」を短期間で特定します。

サービス内容

検索で正しい情報を取得する

AIが情報を正しく使えるようにする

この2つを同時に整えて、業務で使える精度に近づけます。

1.現状ヒアリング

用途、課題、ログ・データ状況の確認

2.改善方針の策定

データ、検索(RAG)、運用の優先順位決め

3.改善実装

即効性のあるところから段階適用

4.検証

正答/部分正答/不正解の採点設計、改善効果の確認

5.運用改善

ログを起点に継続的に精度を上げる

料金について

次のサービスの組み合わせによって、ご提供しています。

データ設計

7人日~

予算42万円~

検索設計

10人日~

予算60万円~

使われ方

7人日~

予算42万円~

改善メニュー改善内容(具体的にやること)期間予算
チャンク(分割)の改善文書の区切り方・粒度を見直し、検索で「必要な根拠」が当たるように調整(見出し / 段落 / 表などの分割ルール再設計、サンプル検証 → 再インデックス)3~5日18~30万円
言い換え表現の追記社内用語、略語、敬語、型番などの表記ゆれを整理し、同義語辞書/クエリ拡張で、ヒット率を改善(例:略語 ↔ 正式名称、型番表記ゆれ)3~7日18~42万円
Embedding(ベクトル化)モデルの見直し類似検索のズレを減らすため、Embeddingモデル/設定を比較検証し最適化(評価セット作成 → 候補比較 → 切替)3~5日21~35万円
要約機能の追加長文・複数文書をそのまま渡さず、要点を整理してAIに渡せるようにする(要約プロンプト設計、要約粒度 / 長さ調整、引用保持)3~7日18~42万円
教師データ整備想定問答の作成、メタデータ付与(部署 / 作成日 / 版数 / カテゴリ等)、不要(古い / 誤り / 重複)デー タ削除で「答えの材料」を強化(パートナー連携)1~2ヶ月100~300万円
回答ルールの厳格化ハルシネーション抑制のため、回答ポリシーを実装(根拠を必ず提示 / 根拠が取れない場合は「分かりません」 / 参照範囲内のみ回答)3~5日18~30万円
部署別・権限別カテゴリ分離/ノイズ除去参照範囲を部署・権限で分け、不要データを除外して誤ヒットを削減(カテゴリ設計、アクセス制御方針、インデックス分割 / フィルタ)4~8日24~48万円
質問ログの活用つまずき質問の抽出 → 原因分類 → 改善へ反映(言い換え追加、データ追加/削除、チャンク調整、回答ルール調整)。改善サイクルを回す運用設計も実施3~5日18~30万円

※一部門、複数部門、全社など、規模により予算は変わります。

※ テキスト(社内文書/FAQ)、OpenAIなどのAPI型モデル、利用者:20人~300人想定

※ データ量、非構造データ比率、権限設計、連携範囲により変動

※ 本料金表は「社内文書/FAQなどテキスト×API型モデル」を想定しています。

 画像/動画/音声の精度改善(検知・認識)は要件に応じて別途お見積りいたします。

お問い合わせ(無料相談)

「ログ×評価×原因分類」で原因特定し、「どんなデータを」「どう検索して」「どう使うか」を改善することは、技術的に可能です。

しかしながら、「そこまでの予算と工数を使って、やる意味あるのか?」ということもあります。例えば、100万円のコストをかけて、「30万円分の成果が出たね」では、意味がないと考えています。

まずは、御社の課題と、あるべき姿を教えてください。その上で、やるべきか、やらない方がよいか、また、やるにしても、原因特定だけやってみる等、御社に合った改善策をご案内します。

精度改善の第一歩として、まずはお気軽にお問い合わせください。

お問い合わせ後、貴社の課題に合わせた最適なソリューションプランをスピーディーにご案内いたします。

会社概要


株式会社ドリーム・シアター

人材紹介 × 教育 × IT/AIの専門家

・AIを使ったWebシステム開発
・クラウドサーバ設計/構築
・就職/転職のためのプログラミングスクール「Pスク転職(無料PHPスクール)」運営
・プログラミング教育系Webプラットフォームサービス「Tech_theater(旧:TASUKEAI)」運営

・AI面接対策サービス「SHITATE_AGE(シタテアゲ)」提供

※有料職業紹介事業許可番号:13-ユ-305399

※労働者派遣事業許可番号:派13-316812
※BHAG:IT/AI+セールスライティング+会計+英語を、実務で学ぶ専門学校の設立(理論+実践×3倍の職業訓練学校)

住所:〒170-0014 東京都豊島区池袋1-16-17 カワムラビル3F-A
TEL:090-3509-3242(留守電いただければ、24時間以内に折り返し致します)

メール: info@dt30.net

代表者紹介


中田斉道(なかた・せいどう)

人材紹介23年、ITエンジニア教育18年、Webシステム開発15年

 大学卒業後、教育研修会社にて、セールス・マーケティング専門の人材紹介事業の立ち上げに参画(IT/Web業界担当)。新人賞受賞(2004年)。2005年8月、最年少マネージャー(当時)として昇進。
 その後、同企業にてITコンサルティング事業を立ち上げる。2010年12月に起業し、現在は、AIシステム開発と、人材紹介(無料PHPスクール)を行う。

 ●出身地: 兵庫県加古川市(母親の旧姓は加古さん)
 ●現住所: 東京都北区在住(私・妻・長女10歳・次女8歳)
 ●出身校: 加古川東高校(新聞部)、東京理科大学 基礎工学部(ロック研究会をクビに→ジャズ研究会へ)
 ●趣味: 世界遺産巡り(現在26ヶ国)、プログレ・メタル演奏(担当:ドラム)
 ●モットー: 苦労/困難/失敗/敗北/挫折/喪失/孤独/逆境は、過去の固定概念を手放すチャンス!
 ●StrengthsFinder: 最上志向、原点思考、包含、コミュニケーション