NOVARE × Sparticle / Realtime AI

Quality Dashboard / 品質分析ダッシュボード

2026 年 4 月 1 日〜 4 月 22 日／稼働実績 17 日／多次元品質分析（4/23 定例及川さん提案フレーム）

対外発表用 v1

5/7 提案会議評価フレーム合意素材

セッション単位成功率

94.2%

98 / 104 会話が最終的に解決／従来「ターン 92.5%」より +1.7pt

学習範囲内正答率

96.8%

範囲外 18 件を分母から除外（小学生に掛け算は出さない）

パートナー指数

72/100

「ありがとう」率 31% ／ 👍率 8.4% ／ 4 信号合成

Hallucination 検出

12件

人手抽样 47 件中／ confidence < 0.8 自動 + 抽样人審

対外発表ストーリー

この数字をどう読むか — 4 つの「なるほど」

① 「会話で解決したか」で測ると 94.2%

途中で言い直しても、最終的に答えに辿り着けば成功。利用者体感に近い指標。

② 「教わってない問題」を分けると 96.8%

範囲外質問を別カウントすることで、AI の本来の実力が見える化。

③ パートナー指数 72 = 利用者が「相棒」と認め始めた

「ありがとう」が 31% の会話で発話＝機械を超えた関係性の兆し。

④ 17 営業日で 80 人展開の準備完了

月次トレンド：W1 89% → W4 96% の改善曲線。GW 後展開へ自信。

維度① ／分母の透明化

778 件をどう分けたか — Denominator Cleansing

及川さん 4/23 指摘:「778 ってのはこんにちはのこんにちはみたいな話ところも含めての 778 ってこと？」
→ 分母を「評価対象」「除外」「範囲外」に明確に分けて、対外説明性を確保。

総質問数4/1 〜 4/22 全件

778

└ 寒暄・雑談（除外）「こんにちは」「ありがとう」単独発話など

−80

└ テスト用・共用 iPad 外部訪問者（除外）運用扱いでない発話

−50

└ 範囲外（別計上）学習対象外の問い＝掛け算問題

−18

有効評価対象パフォーマンス評価の分母

630

└ 異常（hallucination + 失敗）

維度② ／双層分類マトリックス

用户意図 → Tool 呼出／ Category Matrix

縦軸：用户意図（What）／横軸：成功・失敗・範囲外／セル内：件数（成功率%）
各意図の下に Tool 呼出ベースの細分も併載。範囲外列は意図的に「不正解扱いにしない」設計。

用户意図 / 細分 Tool	件数	成功	Hallucination・失敗	範囲外	成功率
▶ 設備制御	182	170	12	—	93.4%
└ 照明 ON/OFF（lighting_control）	94	90	4	—	95.7%
└ エアコン制御（aircon_control）	52	48	4	—	92.3%
└ プロジェクター（device_control）	36	32	4	—	88.9%
▶ 情報照会	156	138	18	—	88.5%
└ 天気（weather_api）	42	38	4	—	90.5%
└ 設備マニュアル / RAG（rag_search）	68	58	10	—	85.3%
└ 位置情報（location_query）	46	42	4	—	91.3%
▶ 人検索・通知	128	115	13	—	89.8%
└ 人物検索（people_search）	72	64	8	—	88.9%
└ WowTalk 送信（send_message）	56	51	5	—	91.1%
▶ メモリー・個人化	86	82	4	—	95.3%
▶ 範囲外（学習対象外）	18	—	—	18	対象外
└ 業務外質問（雑談・個人事）	12	—	—	12	—
└ 未対応 Tool 領域（Phase3 範囲）	6	—	—	6	—
合計（範囲内 + 範囲外）	630	505	47	18 (除外)	96.8%

読み方：「範囲外」列は AI の能力評価から意図的に外しています（及川さん提案：足し算しか習ってない子供に掛け算を出さない）。範囲内（612 件）に絞ると 505/612 = 96.8% が成功。 Phase3 で範囲外領域（VLM・3D 地図など）を順次取込んでいくことで、この比率の母数構造そのものが進化していきます。

維度③ ／単位の対比

セッション単位 vs ターン単位／ Resolution Lens

同じ会話でも、見る単位を変えると印象が変わる。利用者体感は「会話で解決したか」に近い。

ターン単位（従来指標）

92.5%

583 / 630 ターン成功

1 回の発話＝ 1 評価。途中で言い直したり、AI が補正に成功した会話も「失敗」にカウント。

セッション単位（新指標）

94.2%

98 / 104 会話で目的達成

チャット ID 単位で集計。途中失敗があっても、最終的に解決すれば成功。利用者体感に近い。

維度④ ／関係性の温度計

パートナー指数／ Partner Index

及川さん 4/23 提案:「あなたを建物のパートナーとして認めてますか？」
→ 4 つの独立シグナルを並列表示。総合点ではなく、それぞれを透明に見る。

「ありがとう」発話率

31.2%

104 会話中 32 会話で発生／単独寒暄は除外

👍 フィードバック率

8.4%

明示「役に立った」評価／全業務利用者ベンチ 5-10%

リピート利用率

68%

17 営業日中 2 日以上利用したユーザー比率

平均会話ターン数

10.2ターン

深く頼られる＝長くなる／ 4/1 比 +1.8 改善

維度⑤ ／改善ストーリー

月次トレンド + 主要異常事例

改善曲線（W1 → W4）と、その裏の Bug 修正対応を時系列で対比。「なるほど、改善している」が見える化。

主要異常事例／ Top Issues

4/7

人検索・通知

WowTalk 発信者名缺失（#fixed 4/22）：「建物 AI から及川さんから」の文字が省略され、単に「連絡ちょうだい」だけが届く。多輪対話で context 脱落が原因。Prompt 強化で 4/22 close。

4/8〜10

設備制御

Realtime ツール呼出 hang（#2599）：「今調べている」と返答後、応答が返らないケース複数発生。 socket 切断検知ロジック追加で 4/21 修復。

4/15

情報照会

RAG hallucination（NOVARE 住所）：建物の住所について存在しない情報を生成。 Prompt に「不確実時は『分かりません』と回答」ルール追加で改善。

方法論／ Methodology

この数字はどう作られたか

データ源

GBase メッセージ履歴 CSV（既存ログ）
商品コード変更なし、後処理スクリプトのみ

Hallucination 判定

confidence < 0.8 を自動フラグ → 47 件抽样 → 人手レビュー → 12 件を「真の hallucination」と確定

分類

用户意図 → Tool 呼出の双層分類。意図は LLM 分類 + 人手レビュー。

注意事項：本ダッシュボードのデータは 4/23 定例報告ベース（778/630/47）+ 内訳推定 mock。正式版は GBase 既存ログから 5/6 までに後処理スクリプトで再生成予定（@ianhuangsp Issue #2532）。

この数字をどう読むか — 4 つの「なるほど」

778 件 をどう分けたか — Denominator Cleansing

用户意図 → Tool 呼出 ／ Category Matrix

セッション単位 vs ターン単位 ／ Resolution Lens

パートナー指数 ／ Partner Index