te6.in
Blog
글 코드 조각 태그
글
코드 조각
태그
  • iOS 7
  • 소셜 미디어 6
  • 생산성 5
  • 팁 5
  • 회고 5
  • Google 4
  • iPhone 4
  • macOS 4
  • 단축어 4
  • 자동화 4
  • 해커톤 4
  • 후기 4
  • AI 3
  • LLM 3
  • TypeScript 3
  • 뉴스레터 3
  • 대전 3
  • 영문학 3
  • 일상 3
  • GitHub 2
  • iCloud 2
  • Instagram 2
  • 군대 2
  • 디자인 시스템 2
  • 유틸리티 2
  • 카카오톡 2
  • 캘린더 2
  • AirDrop 1
  • Apps Script 1
  • Astro 1
  • BeReal 1
  • ChatGPT 1
  • Gemini 1
  • Git 1
  • Homebrew 1
  • iMessage 1
  • JavaScript 1
  • JSON 1
  • KAIST 1
  • KUCC 1
  • NameDrop 1
  • Next.js 1
  • Node.js 1
  • Perplexity 1
  • Raycast 1
  • SaaS 1
  • SPARCS 1
  • Spotlight 1
  • Swift 1
  • UX 1
  • UX 라이팅 1
  • 공군해커톤 1
  • 당근 1
  • 돈 1
  • 디지털 권리 1
  • 멀티모달 1
  • 번역 1
  • 법률 1
  • 브랜딩 1
  • 블로그 1
  • 스프레드시트 1
  • 신한 1
  • 절약 1
  • 텔레그램 1
  • 핀테크 1
  • 현지화 1

Gemini가 이미지를 볼 수 없다고 주장하는 문제

이런 동작은 문서에 꼭 적어주었으면 해요

  • Gemini 1
  • 멀티모달 1
  • LLM 3
  • Google 4
  • 찬휘 te6
작성 2024. 9. 26.
목차
  1. TL;DR
  2. 배경
  3. 추측
반응 댓글

TL;DR

  • 멀티모달 LLM이 제공받은 이미지를 볼 수 없다고 주장하거나(can’t see, no image provided 등) 아무것도 없는 사각형만 보인다고 주장할 때는(empty image, void, black rectangle 등)
    • 투명한 색과 특정 색상, 두 색상으로만 이루어진 PNG 파일을 제공했는지 확인해 봅니다.
    • 해당 색상을 다른 색으로 변경하거나 투명도가 없는 이미지를 제공해 봅니다.

배경

  • Vercel의 AI SDK 와 Google Vertex AI 가 쓰이는 Node.js 스크립트를 짜고 있었습니다.
  • 특정 이미지 세트에 대해서는 Gemini가 이미지에 대한 적절한 설명을 제공했지만, 특정 이미지 세트에 대해서는 제공하지 않았습니다.
    • 적절한 설명이 제공된 세트의 이미지들은 연한 검은색과 alpha 0의 투명한 색으로 이루어진 이미지였습니다.
    • 적절한 설명이 제공되지 않는 세트의 이미지들은 완전한 검은색(#000)과 alpha 0의 투명한 색으로 이루어진 이미지였습니다.

추측

  • PNG 파일이 숫자 벡터로 변환되는 과정 이전에 전처리 과정이 존재하고, 해당 과정에서 투명도가 있는 픽셀들이 #000000으로 변환되는 것 같다는 팀 동료분의 추측이 있었습니다.
  • 투명한 색과 검은색으로 이루어진 이미지에서 투명한 색으로 칠해진 부분이 검은색으로 덮어씌워지면 LLM이 보게 되는 이미지는 검은색 사각형입니다.
  • API를 통해 요청할 때와 달리, 웹 Gemini 에서는 기대한 대로 동작하는 것으로 보아 전처리 과정이 다르게 동작하는 것으로 보입니다.
디지털 생존 키트 2024
이전 글
각종 앱 아이콘이 나열되어 있는 그리드 위에 오버레이된 상어 모양의 te6.in 로고
Google Sheets 셀에 base64 이미지 넣기
다음 글
base64 인코딩 결과 텍스트 위에 표시된 Google Sheets 로고
모든 글 보기
블로그 마지막 업데이트 2025년 11월 10일 01:48

microsoft/fluentui-emoji is licensed under the MIT License.
Copyright (c) Microsoft Corporation.