2026 年 4 月 1 日 〜 4 月 22 日 / 稼働実績 17 日 / 多次元品質分析(4/23 定例 及川さん 提案フレーム)
及川さん 4/23 指摘:「778 ってのはこんにちはのこんにちはみたいな話ところも含めての 778 ってこと?」
→ 分母を「評価対象」「除外」「範囲外」に明確に分けて、対外説明性を確保。
縦軸:用户意図(What)/横軸:成功・失敗・範囲外 / セル内:件数(成功率%)
各意図の下に Tool 呼出ベースの細分も併載。範囲外 列は意図的に「不正解扱いにしない」設計。
| 用户意図 / 細分 Tool | 件数 | 成功 | Hallucination・失敗 | 範囲外 | 成功率 |
|---|---|---|---|---|---|
| ▶ 設備制御 | 182 | 170 | 12 | — | 93.4% |
| └ 照明 ON/OFF(lighting_control) | 94 | 90 | 4 | — | 95.7% |
| └ エアコン制御(aircon_control) | 52 | 48 | 4 | — | 92.3% |
| └ プロジェクター(device_control) | 36 | 32 | 4 | — | 88.9% |
| ▶ 情報照会 | 156 | 138 | 18 | — | 88.5% |
| └ 天気(weather_api) | 42 | 38 | 4 | — | 90.5% |
| └ 設備マニュアル / RAG(rag_search) | 68 | 58 | 10 | — | 85.3% |
| └ 位置情報(location_query) | 46 | 42 | 4 | — | 91.3% |
| ▶ 人検索・通知 | 128 | 115 | 13 | — | 89.8% |
| └ 人物検索(people_search) | 72 | 64 | 8 | — | 88.9% |
| └ WowTalk 送信(send_message) | 56 | 51 | 5 | — | 91.1% |
| ▶ メモリー・個人化 | 86 | 82 | 4 | — | 95.3% |
| ▶ 範囲外(学習対象外) | 18 | — | — | 18 | 対象外 |
| └ 業務外質問(雑談・個人事) | 12 | — | — | 12 | — |
| └ 未対応 Tool 領域(Phase3 範囲) | 6 | — | — | 6 | — |
| 合計(範囲内 + 範囲外) | 630 | 505 | 47 | 18 (除外) | 96.8% |
同じ会話でも、見る単位を変えると印象が変わる。利用者体感は「会話で解決したか」に近い。
及川さん 4/23 提案:「あなたを建物のパートナーとして認めてますか?」
→ 4 つの独立シグナルを並列表示。総合点ではなく、それぞれを透明に見る。
改善曲線(W1 → W4)と、その裏の Bug 修正対応を時系列で対比。「なるほど、改善している」が見える化。