ノーコードRAG製品「ChatBrid」にベンチマーク用質問文&模範回答の自動生成と、自動採点機能を一体化しGUIで提供開始

2025年10月21日
お知らせ

~ Excel作業からの解放、評価作業の大半の自動化によりRAG精度向上の生産性が10倍向上、快適に!

メタデータ株式会社(所在地:東京都文京区、代表取締役社長:野村直之)は、RAGエンジン「ChatBrid(チャットブリッド)」において、評価用の質問文セットを自動生成・編集・保存し、さらに自動採点まで行える新機能群「質問文セット生成・編集・保存」「自動採点機能付き採点画面」を追加しました。従来、Excelベースで人手に頼っていた評価作業をアプリ内で完結できるようにし、導入初期の評価・改善サイクルを大幅に短縮します。本機能は、一部顧客に2025年3月より提供していたものですが、2025年11月より正式に提供開始いたします。

画像①:機能トップ画面イメージ

■ 背景 ~従来はExcel前提の評価業務がボトルネックに

ChatBridは、ビジュアル類似検索による“知識デバッグのしやすさ”で高い評価を獲得してきました。しかし、評価用の質問文セットの作成・保守、採点・集計は多くの企業でExcel中心の手作業に依存しており、負担が大きいという課題がありました。今回の新機能は、この評価プロセス全体をアプリに内蔵し、標準化・自動化するものです。

新機能の概要

(画像②:生成された質問と回答のレビュー画面)

1. 質問文セットの自動生成・編集・保存

  • 指定したデータセットから、内容を問う質問を任意件数自動生成。
  • 標準でデータセット全体からなるべく満遍なく、且つ重要そうなポイントを選んで質問文を生成。
  • 生成された質問・回答は鉛筆アイコンで手動編集でき、保存可能。

2. 模範回答の生成

  • 管理者画面で設定したパラメータ、現行の影プロンプト、データセットプロンプトの状態で、1.で生成した質問の模範回答案を生成。
  • 回答は各質問に紐づけて保存し、後段の採点に活用。

3. 自動採点(減点理由・改善コメント付き/50点満点)

  • 標準採点プロンプトと、採点基準のカスタマイズプロンプトを用意。
  • 関連データセット(および知識レコード)単位で思考型(Reasoning type LLM)に送って自動採点を実行。
  • 減点理由や改善ポイントも同時に生成・保存。
  • データセット別に、全体の平均点を集計して表示。

(画像③:自動採点の詳細と減点理由の表示)

■ 使い勝手を高めるオプション/発展機能 (今後の予定を含む)

  • 手動評価欄:人手で点数・コメントを記入可能。自動評価結果をワンクリックで複製して下書きにできます。
  • 採点履歴の保存:各種パラメータを変更した際の点数推移を履歴として保持。
  • 標準質問セットのプリセット:5~10セットの標準質問を保存・呼び出し。
  • 可視化:データセット別/全体の折れ線グラフで点数の変化を表示(X軸は日時)。
  • 網羅性チェック:質問の答えが知識レコードに存在しない場合を検出し、知識追加を促す機能と連携。

■ 期待される効果

  • 評価作業の生産性向上:質問の作成~回答取得~採点~集計までを一気通貫でほぼ自動化。 
  • 初期導入の短縮:評価と改善サイクルが高速化することで、初期導入期間を半分以下へ(当社見込み)。
  • 再現性と説明責任:採点プロンプト・履歴・減点理由が残るため、評価基準の透明性が向上。
  • 「次の質問サジェスト」の確度向:既存の対話画面の「次の質問サジェスト」の内容および表現(文章の分かり易さ等)が改善。
  • 最小質問数で主要質問をカバー:思考型LLMと高度プロンプトにより、評価対象のデータセットに関する高頻度の質問を、比較的少ない質問&回答の数でカバー。
  • データセット自体の改良を加速:生成された質問、回答、自動採点結果により、RAGの精度を左右する知識データ自体の欠陥を素早く見つけ、そのデータの不備を速やかに解決。


Contact

弊社のサービス・APIについてお気軽にご連絡・ご相談ください

> お問い合わせはこちらから <