用户735用户735测试类目 | 识别表格数据 | 执行数据计算 | 识别数据错误 |
测试数据明细 | 测试数据 - 财务行业 - 企业预算管理 - 识别预算表格中的数据 | 测试明细 - 财务行业 - 企业预算管理 - 执行简单数据计算 | 测试明细 - 财务行业 - 企业预算管理 - 识别数据错误 |
通义千问 (Qwen 2.5) 正确率 | 94.29% | 93.33% | 0% |
Coze (Qwen 2.5 Max) 正确率 | 94.29% | 96.67% | 50% |
Coze (GPT-4o) 正确率 | 94.29% | 93.33% | 25% |
DeepSeek (DeepSeek V3) 正确率 | 65.71% | - | 50% |
Coze (DeepSeek V3) 正确率 | 94.29% | 96.67% | 50% |