WORKS

開発・運用実績

15コールセンター業務における生成AI（LLM）活用PoC

コールセンターに蓄積された応対履歴やマニュアル等の「生データ」を活用し、オペレーターの回答支援や自動応答の実現可能性を検証する生成AI（LLM）活用PoC（概念実証）を実施しました。

コールセンターの「生データ（過去ログ、マニュアル等）」を用い、検索手法、データ前処理、プロンプトエンジニアリング、さらにはFine-tuningとの比較など、10項目以上の変数について網羅的な精度評価を遂行。理論値ではない、実務転用を見据えた最適解を導き出しました。

本プロジェクトでは、精度に影響を与える変数を切り分け、ABテスト形式で以下の検証を行いました。

ベクトルDBごとの評価：
- Pinecone / FAISS / ChromaDB
ベクトルDBと検索エンジンの検証：
- ベクトル検索 vs 全文検索（Elasticsearch） vs ハイブリッド検索の比較
データ構造・前処理の検証：
- チャンク分割の有無および、最適なチャンクサイズ（文字数・意味の切れ目）の特定
- 精度低下を招くデータの特徴抽出
- ゴミデータ（不要な定型句・ノイズ・短すぎる報告文）のクレンジングによる精度変化の計測
- PDF、Excel、PowerPointからの非テキスト情報抽出性能（LlamaIndex活用）の評価
モデルおよび学習手法の比較評価：
- RAG（検索拡張） vs Fine-tuning（追加学習）による回答精度の検証
- ベクトル変換（Embedding）モデルごとの検索再現率の比較
プロンプトエンジニアリングの深化：
- Zero-shot / Few-shot / CoT / ReFine / HHH 等の各手法による回答品質の評価
実運用シナリオに基づく評価：
- データセット（製品カテゴリや時期）の違いによる汎用性の検証
- 既知の問い合わせ（過去ログ存在）と未知の問い合わせに対する、AIの挙動およびハルシネーションの発生率比較

※ 精度評価には、Ragasを活用

徹底的な「定量的評価」へのこだわり 「なんとなく動く」ではなく、どの手法が何％精度を向上させるのかを全て数値化。LlamaIndexやLangChainの機能をフル活用し、技術的な裏付けに基づいたアーキテクチャ選定を行いました。
生データ特有の泥臭い課題解決 現場の生データには、AIの精度を著しく下げるノイズが多く含まれます。それらを「特徴抽出」によって特定し、エンジニアリングによって解決するプロセスを確立しました。

運用実現性に向けた「本質的課題」の提示： 検証の結果、現状のログデータの質・構造では実運用に耐えうる精度に到達しないことを定量的に証明。その上で、次期システムで目標精度を達成するために「どのようなログデータを、どう蓄積すべきか」という具体的なデータ戦略レポートを策定しました。
検証資産のライブラリ化（技術資産の構築）： 今回の評価に使用した膨大な検証コードを、単なる使い捨てのスクリプトで終わらせず、次期システム開発において「アプリ基盤」として即座に再利用できるよう、汎用的なライブラリとして再整備・納品しました。

単にAIツールを導入するのではなく、インフラ、DB、コード、そしてデータの性質までを垂直統合で理解し、ハックする。その姿勢があるからできる緻密な比較検証です。

新しい技術を魔法のように語るのではなく、地道な検証の積み重ねによって「ビジネスで使える道具」へと昇華させる。それが私たちのエンジニアリングの流儀です。