Audio Visual Language Model

Microsoft unveils AI model that understands image content, solves visual puzzles

On Monday, researchers from Microsoft introduced Kosmos-1, a multimodal model that can reportedly analyze images for content, solve visual puzzles, perform visual text recognition, pass visual IQ ...

Slator

Alibaba Updates Speech Translation Model, Triples Language Coverage

Alibaba expands its AI live speech translation model from 18 to 60 languages, adding real-time voice cloning and reducing ...

Results that may be inaccessible to you are currently showing.

Hide inaccessible results

Microsoft unveils AI model that understands image content, solves visual puzzles

Alibaba Updates Speech Translation Model, Triples Language Coverage

Trending now