WORKS

開発・運用実績

15コールセンター業務における生成AI(LLM)活用PoC

プロジェクト概要

コールセンターに蓄積された応対履歴やマニュアル等の「生データ」を活用し、オペレーターの回答支援や自動応答の実現可能性を検証する生成AI(LLM)活用PoC(概念実証)を実施しました。

コールセンターの「生データ(過去ログ、マニュアル等)」を用い、検索手法、データ前処理、プロンプトエンジニアリング、さらにはFine-tuningとの比較など、10項目以上の変数について網羅的な精度評価を遂行。理論値ではない、実務転用を見据えた最適解を導き出しました。

技術スタック

  • Language: Python
  • LLM Orchestration: LangChain / LlamaIndex
  • Evaluation Framework: Ragas
  • Vector Database / Search: * Pinecone / Elasticsearch / FAISS / ChromaDB
  • Development Library:
    • OpenAI API / オープンソースモデル

検証内容・プロセス

本プロジェクトでは、精度に影響を与える変数を切り分け、ABテスト形式で以下の検証を行いました。

  1. ベクトルDBごとの評価:
    • Pinecone / FAISS / ChromaDB
  2. ベクトルDBと検索エンジンの検証:
    • ベクトル検索 vs 全文検索(Elasticsearch) vs ハイブリッド検索の比較
  3. データ構造・前処理の検証:
    • チャンク分割の有無および、最適なチャンクサイズ(文字数・意味の切れ目)の特定
    • 精度低下を招くデータの特徴抽出
    • ゴミデータ(不要な定型句・ノイズ・短すぎる報告文)のクレンジングによる精度変化の計測
    • PDF、Excel、PowerPointからの非テキスト情報抽出性能(LlamaIndex活用)の評価
  4. モデルおよび学習手法の比較評価:
    • RAG(検索拡張) vs Fine-tuning(追加学習)による回答精度の検証
    • ベクトル変換(Embedding)モデルごとの検索再現率の比較
  5. プロンプトエンジニアリングの深化:
    • Zero-shot / Few-shot / CoT / ReFine / HHH 等の各手法による回答品質の評価
  6. 実運用シナリオに基づく評価:
    • データセット(製品カテゴリや時期)の違いによる汎用性の検証
    • 既知の問い合わせ(過去ログ存在)と未知の問い合わせに対する、AIの挙動およびハルシネーションの発生率比較

※ 精度評価には、Ragasを活用

プロジェクトの特徴

  • 徹底的な「定量的評価」へのこだわり 「なんとなく動く」ではなく、どの手法が何%精度を向上させるのかを全て数値化。LlamaIndexやLangChainの機能をフル活用し、技術的な裏付けに基づいたアーキテクチャ選定を行いました。
  • 生データ特有の泥臭い課題解決 現場の生データには、AIの精度を著しく下げるノイズが多く含まれます。それらを「特徴抽出」によって特定し、エンジニアリングによって解決するプロセスを確立しました。

成果

  • 運用実現性に向けた「本質的課題」の提示: 検証の結果、現状のログデータの質・構造では実運用に耐えうる精度に到達しないことを定量的に証明。その上で、次期システムで目標精度を達成するために「どのようなログデータを、どう蓄積すべきか」という具体的なデータ戦略レポートを策定しました。
  • 検証資産のライブラリ化(技術資産の構築): 今回の評価に使用した膨大な検証コードを、単なる使い捨てのスクリプトで終わらせず、次期システム開発において「アプリ基盤」として即座に再利用できるよう、汎用的なライブラリとして再整備・納品しました。

💡 Altus-Fiveの強み

単にAIツールを導入するのではなく、インフラ、DB、コード、そしてデータの性質までを垂直統合で理解し、ハックする。その姿勢があるからできる緻密な比較検証です。

新しい技術を魔法のように語るのではなく、地道な検証の積み重ねによって「ビジネスで使える道具」へと昇華させる。それが私たちのエンジニアリングの流儀です。