notesum.ai

Published at November 29

TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension

cs.AI

cs.CL

cs.IR

Released Date: November 29, 2024

Authors: Zipeng Qiu¹, You Peng¹, Guangxin He¹, Binhang Yuan¹, Chen Wang²

Aff.: ¹HKUST; ²Tsinghua University

Arxiv: http://arxiv.org/pdf/2411.19504v1

Refer to caption

Database Name	Source	Table Count	Average Columns	Average Rows	Total Cells
airline	BIRD	3	10.67	$2.37\times 10^{5}$	$1.97\times 10^{7}$
food_inspection	BIRD	3	8.33	$2.21\times 10^{4}$	$3.77\times 10^{5}$
movie	BIRD	3	9.00	$2.55\times 10^{3}$	$6.00\times 10^{4}$
music_tracker	BIRD	2	5.00	$1.19\times 10^{5}$	$1.01\times 10^{6}$
restaurant	BIRD	3	4.00	$6.43\times 10^{3}$	$8.66\times 10^{4}$
university	BIRD	6	3.33	$5.34\times 10^{3}$	$1.29\times 10^{5}$
cookbook	BIRD	4	9.75	$2.59\times 10^{3}$	$7.97\times 10^{4}$
food_facility_inspections	DataGov	3	13.67	$1.69\times 10^{5}$	$4.82\times 10^{6}$
water_quality	DataGov	4	9.75	$1.64\times 10^{6}$	$7.01\times 10^{7}$
global_biodiversity	WorldBank	2	15.50	$5.97\times 10^{5}$	$1.85\times 10^{7}$
Overall Average	-	3.3	8.36	$2.83\times 10^{5}$	$1.15\times 10^{7}$