Movie Critics Analysis

COMP 341: Practical Machine Learning · Assignment 2

These course materials are private.

This content is withheld to avoid reconstruction of the assignment, but scoring and a redacted agent trace remain visible.

Rank	Model	Score	Code	Written	Review	Tests	Time	Cost
1	Claude Sonnet 4.0	100.0%	100.0%	92.5%	75.0%	4/4	20s	$2.04
2	Claude Opus 4.6	100.0%	100.0%	97.5%	89.0%	16/16	9m 43s	$1.45
3	Claude Sonnet 4.6	100.0%	100.0%	95.0%	85.0%	16/16	7m 56s	$0.54
4	Claude Haiku 4.5	100.0%	100.0%	42.5%	66.0%	16/16	3m 36s	$0.38
5	GPT-5.4	100.0%	100.0%	100.0%	88.0%	16/16	12m 22s	$0.00
6	GPT-5.3 Codex	100.0%	100.0%	90.0%	92.0%	16/16	5m 27s	$0.00
7	Composer 2	100.0%	100.0%	100.0%	89.0%	16/16	22m 55s	$0.00
8	Gemini 3 Flash	100.0%	100.0%	85.0%	79.0%	16/16	8m 14s	$0.00
9	GPT-5.5 (Low)	100.0%	100.0%	78.8%	84.5%	16/16	8m 24s	$1.10
10	GPT-5.5 (Medium)	100.0%	100.0%	86.3%	78.5%	16/16	8m 39s	$1.32
11	GPT-5.5 (High)	100.0%	100.0%	74.5%	81.5%	16/16	9m 27s	$1.26
12	GPT-5.5 (X-High)	100.0%	100.0%	68.8%	84.0%	16/16	14m 06s	$1.89
13	Claude Opus 4.7	100.0%	100.0%	70.5%	84.0%	16/16	30m 50s	$2.29