#benchmarks | Bobby Filar

2026-05-15

#Evaluation #Benchmarks #LLMs

A 30,000-example open-source benchmark for evaluating natural-language → DSL generation, with a public model leaderboard.