Explore Repository Collections

Collections/datasets/visual-llms

Visual LLMs

This collection is datasets for understanding of images with large language models

datasets/DocVQA

public

A Dataset for VQA on Document Images.

9.7 gb

117K1

Updated: 1 year ago

echo840/OCRBench

public

Computer Vision

85.4 mb

1K12

Updated: 2 years ago

datasets/MMVet

public

Evaluating Large Multimodal Models for Integrated Capabilities

70.5 mb

11218

Updated: 1 year ago

OCRBench is a comprehensive evaluation benchmark designed to assess the OCR capabilities of Large Multimodal Models. It comprises five components: Text Recognition, SceneText-Centric VQA, Document-Oriented VQA, Key Information Extraction, and Handwritten Mathematical Expression Recognition. The benchmark includes 1000 question-answer pairs, and all the answers undergo manual verification and correction to ensure a more precise evaluation.

4.5 gb

3210K

Updated: 11 months ago

datasets/AI2D

public

AI2 Diagrams (AI2D) is a dataset of over 5000 grade school science diagrams with over 150000 rich annotations, their ground truth syntactic parses, and more than 15000 corresponding multiple choice questions.

503.3 mb

3.1K2

Updated: 1 year ago

BLINK-Benchmark/BLINK

public

This repo contains data for the paper "BLINK: Multimodal Large Language Models Can See but Not Perceive"

Computer Vision

466.3 mb

24K30

Updated: 2 years ago

datasets/HallusionBench

public

An Advanced Diagnostic Suite for Entangled Language Hallucination & Visual Illusion in Large Vision-Language Models

163.9 mb

252411

Updated: 1 year ago

datasets/MMMU

public

A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

3.4 gb

12K2

Updated: 1 year ago

datasets/MathVista

public

MathVista is a consolidated Mathematical reasoning benchmark within Visual contexts.

1.2 gb

26.1K

Updated: 1 year ago

lmms-lab/Video-MME

public

405.9 kB

Updated: 2 years ago

datasets/ChartQA

public

A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

976 mb

21K72

Updated: 1 year ago

datasets/A-OKVQA

public

A Benchmark for Visual Question Answering using World Knowledge.

1.3 gb

25K2

Updated: 1 year ago

datasets/CLEVR

public

A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

20 gb

8100K

Updated: 1 year ago

Visual LLMs

datasets/DocVQA

echo840/OCRBench

datasets/MMVet

lmms-lab/OCRBench-v2

datasets/AI2D

BLINK-Benchmark/BLINK

datasets/HallusionBench

datasets/MMMU

datasets/MathVista

lmms-lab/Video-MME

datasets/ChartQA

datasets/A-OKVQA

datasets/CLEVR