multi-modality

Here are 68 public repositories matching this topic...

jina-ai / clip-as-service

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

deep-learning pytorch openai bert sentence2vec onnx cross-modality multi-modality image2vec sentence-encoding bert-as-service cross-modal-retrieval neural-search clip-model clip-as-service

Updated Jan 23, 2024
Python

haotian-liu / LLaVA

Star

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

chatbot llama multimodal multi-modality gpt-4 foundation-models visual-language-learning chatgpt instruction-tuning vision-language-model llava llama2 llama-2

Updated May 28, 2024
Python

BradyFU / Awesome-Multimodal-Large-Language-Models

Star

✨✨Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

multi-modality instruction-following in-context-learning large-language-models chain-of-thought instruction-tuning visual-instruction-tuning large-vision-language-model multimodal-instruction-tuning large-vision-language-models multimodal-large-language-models visual-in-context-learning multimodal-in-context-learning visual-chain-of-thought multimodal-chain-of-thought

Updated May 31, 2024

lucidrains / deep-daze

Star

Simple command line tool for text to image generation using OpenAI's CLIP and Siren (Implicit neural representation network). Technique was originally created by https://twitter.com/advadnoun

deep-learning transformers artificial-intelligence siren text-to-image multi-modality implicit-neural-representation

Updated Mar 13, 2022
Python

Luodian / Otter

Star

🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

machine-learning deep-learning multi-modality artificial-inteligence embodied-ai gpt-4 foundation-models large-scale-models visual-language-learning chatgpt instruction-tuning

Updated Mar 5, 2024
Python

InternLM / InternLM-XComposer

Star

InternLM-XComposer2 is a groundbreaking vision-language large model (VLLM) excelling in free-form text-image composition and comprehension.

foundation gpt language-model multimodal multi-modality vision-transformer gpt-4 visual-language-learning llm chatgpt instruction-tuning large-language-model supervised-finetuning mllm vision-language-model large-vision-language-model

Updated May 29, 2024
Python

DLR-RM / 3DObjectTracking

Star

Algorithms and Publications on 3D Object Tracking

tracking real-time computer-vision paper object-tracking rgbd pose-estimation ijcv multi-modality articulated tpami multi-body accv2020 cvpr2022 iros2023

Updated May 16, 2024
C++

kyegomez / swarms

Sponsor

Star

Orchestrate Swarms of Agents From Any Framework Like OpenAI, Langchain, and Etc for Business Operation Automation. Join our Community: https://discord.gg/DbjBMJTSWD

Updated May 31, 2024
Python

jackyjsy / CVPR21Chal-SLR

Star

This repo contains the official code of our work SAM-SLR which won the CVPR 2021 Challenge on Large Scale Signer Independent Isolated Sign Language Recognition.

sign-language-recognition-system sign-language-recognition multi-modality cvpr2021 skeleton-features

Updated Nov 16, 2022
Python

kyegomez / Gemini

Sponsor

Star

The open source implementation of Gemini, the model that will "eclipse ChatGPT" by Google

machine-learning ai ml artificial-intelligence gemini multi-modality gpt4 multimodla

Updated May 26, 2024
Python

DerrickWang005 / CRIS.pytorch

Star

An official PyTorch implementation of the CRIS paper

multi-modality referring-image-segmentation contrastive-learning

Updated Apr 6, 2024
Python

ziqihuangg / Collaborative-Diffusion

Star

Collaborative Diffusion (CVPR 2023)

image-editing image-generation face-generation multi-modality face-editing diffusion-models aigc stable-diffusion latent-diffusion-models gen-ai

Updated Nov 28, 2023
Python

OpenGVLab / Multi-Modality-Arena

Star

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat chatbot vqa gradio multi-modality large-language-models llms chatgpt vision-language-model