NOVARE × Sparticle / Realtime AI

Quality Dashboard / 品質分析ダッシュボード

2026 年 4 月 1 日 〜 4 月 22 日 / 稼働実績 17 日 / 多次元品質分析(4/23 定例 及川さん 提案フレーム)

対外発表用 v1
5/7 提案会議 評価フレーム合意素材
セッション単位成功率
94.2%
98 / 104 会話 が最終的に解決 / 従来「ターン 92.5%」より +1.7pt
学習範囲内 正答率
96.8%
範囲外 18 件 を分母から除外(小学生に掛け算は出さない)
パートナー指数
72/100
「ありがとう」率 31% / 👍率 8.4% / 4 信号合成
Hallucination 検出
12
人手抽样 47 件中 / confidence < 0.8 自動 + 抽样人審

この数字をどう読むか — 4 つの「なるほど」

① 「会話で解決したか」で測ると 94.2%
途中で言い直しても、最終的に答えに辿り着けば成功。利用者体感に近い指標。
② 「教わってない問題」を分けると 96.8%
範囲外質問を別カウントすることで、AI の本来の実力が見える化。
③ パートナー指数 72 = 利用者が「相棒」と認め始めた
「ありがとう」が 31% の会話で発話 = 機械を超えた関係性の兆し。
④ 17 営業日で 80 人展開の準備完了
月次トレンド:W1 89% → W4 96% の改善曲線。GW 後展開へ自信。

778 件 をどう分けたか — Denominator Cleansing

及川さん 4/23 指摘:「778 ってのはこんにちはのこんにちはみたいな話ところも含めての 778 ってこと?」
→ 分母を「評価対象」「除外」「範囲外」に明確に分けて、対外説明性を確保。

総質問数4/1 〜 4/22 全件
778
└ 寒暄・雑談(除外)「こんにちは」「ありがとう」単独発話など
−80
└ テスト用・共用 iPad 外部訪問者(除外)運用扱いでない発話
−50
└ 範囲外(別計上)学習対象外の問い = 掛け算問題
−18
有効評価対象パフォーマンス評価の分母
630
└ 異常(hallucination + 失敗)
47

用户意図 → Tool 呼出 / Category Matrix

縦軸:用户意図(What)/横軸:成功・失敗・範囲外 / セル内:件数(成功率%)
各意図の下に Tool 呼出ベースの細分も併載。範囲外 列は意図的に「不正解扱いにしない」設計。

用户意図 / 細分 Tool 件数 成功 Hallucination・失敗 範囲外 成功率
▶ 設備制御 182 170 12 93.4%
 └ 照明 ON/OFF(lighting_control)9490495.7%
 └ エアコン制御(aircon_control)5248492.3%
 └ プロジェクター(device_control)3632488.9%
▶ 情報照会 156 138 18 88.5%
 └ 天気(weather_api)4238490.5%
 └ 設備マニュアル / RAG(rag_search)68581085.3%
 └ 位置情報(location_query)4642491.3%
▶ 人検索・通知 128 115 13 89.8%
 └ 人物検索(people_search)7264888.9%
 └ WowTalk 送信(send_message)5651591.1%
▶ メモリー・個人化 86 82 4 95.3%
▶ 範囲外(学習対象外) 18 18 対象外
 └ 業務外質問(雑談・個人事)1212
 └ 未対応 Tool 領域(Phase3 範囲)66
合計(範囲内 + 範囲外) 630 505 47 18 (除外) 96.8%
読み方:「範囲外」列は AI の能力評価から意図的に外しています(及川さん 提案:足し算しか習ってない子供に掛け算を出さない)。 範囲内(612 件)に絞ると 505/612 = 96.8% が成功。 Phase3 で範囲外領域(VLM・3D 地図など)を順次取込んでいくことで、この比率の母数構造そのものが進化していきます。

セッション単位 vs ターン単位 / Resolution Lens

同じ会話でも、見る単位を変えると印象が変わる。利用者体感は「会話で解決したか」に近い。

ターン単位(従来指標)
92.5%
583 / 630 ターン成功
1 回の発話 = 1 評価。途中で言い直したり、AI が補正に成功した会話も「失敗」にカウント。
セッション単位(新指標)
94.2%
98 / 104 会話で目的達成
チャット ID 単位で集計。途中失敗があっても、最終的に解決すれば成功。利用者体感に近い

パートナー指数 / Partner Index

及川さん 4/23 提案:「あなたを建物のパートナーとして認めてますか?」
→ 4 つの独立シグナルを並列表示。総合点ではなく、それぞれを透明に見る。

「ありがとう」発話率
31.2%
104 会話中 32 会話で発生 / 単独寒暄は除外
👍 フィードバック率
8.4%
明示「役に立った」評価 / 全業務利用者ベンチ 5-10%
リピート利用率
68%
17 営業日中 2 日以上利用したユーザー比率
平均会話ターン数
10.2ターン
深く頼られる = 長くなる / 4/1 比 +1.8 改善

月次トレンド + 主要異常事例

改善曲線(W1 → W4)と、その裏の Bug 修正対応を時系列で対比。「なるほど、改善している」が見える化。

主要異常事例 / Top Issues

4/7
人検索・通知
WowTalk 発信者名缺失(#fixed 4/22):「建物 AI から 及川さんから」の文字が省略され、単に「連絡ちょうだい」だけが届く。 多輪対話で context 脱落が原因。Prompt 強化で 4/22 close。
4/8〜10
設備制御
Realtime ツール呼出 hang(#2599):「今調べている」と返答後、応答が返らないケース複数発生。 socket 切断検知ロジック追加で 4/21 修復。
4/15
情報照会
RAG hallucination(NOVARE 住所):建物の住所について存在しない情報を生成。 Prompt に「不確実時は『分かりません』と回答」ルール追加で改善。

この数字はどう作られたか

データ源
GBase メッセージ履歴 CSV(既存ログ)
商品コード変更なし、後処理スクリプトのみ
Hallucination 判定
confidence < 0.8 を自動フラグ → 47 件抽样 → 人手レビュー → 12 件を「真の hallucination」と確定
分類
用户意図 → Tool 呼出 の双層分類。意図は LLM 分類 + 人手レビュー。
注意事項:本ダッシュボードのデータは 4/23 定例 報告ベース(778/630/47)+ 内訳推定 mock。 正式版は GBase 既存ログから 5/6 までに後処理スクリプトで再生成予定(@ianhuangsp Issue #2532)。