Geminiの画像認識が思ったより賢くて驚いた話

こんにちは！ひなこです。

先日、領収書の山を整理していて「これ、写真撮って読み取らせたらどうなるんだろう」とふと思ったんです。で、試しにGoogle Geminiに画像を投げてみたら、想像以上に賢くてびっくりしました。

今回は、Geminiの画像認識を実際に使ってみて「これは仕事に使える！」と感じた場面を3つシェアしますね。

そもそもGeminiの画像認識って何ができるの？

Google Geminiは、テキストだけじゃなくて画像を読み取って分析する機能を持っています。ChatGPTやClaudeにも似た機能はありますが、Geminiは特にGoogleのエコシステムとの相性が良いのが特徴です。

使い方はシンプルで、Geminiのチャット画面に画像をアップロードして、質問を添えるだけ。スマホからでもPCからでもOKです！

食べながらAIを研究しています 😊

紙の領収書をスマホで撮影して、Geminiに「この領収書の日付、金額、店名を読み取ってください」と送ってみました。

結果、手書きの領収書でもほぼ正確に読み取ってくれました！ちょっと字が汚いものでも、金額と日付は合っていて感動です 👀

ただし、かすれている文字や極端に斜めの写真は誤読することもあるので、なるべく正面から明るい場所で撮るのがコツですね。

溜まっていた名刺を1枚ずつ撮影して、「この名刺の会社名、氏名、電話番号、メールアドレスを表形式で出してください」とお願いしました。

これが本当に便利で、10枚くらいまとめて処理したら、今まで手入力していた時間が一気に短縮されました。出力をそのままスプレッドシートにコピペできるのも嬉しいポイントです ✨

仕事で受け取ったPDF資料の中のグラフをスクリーンショットで撮って、「このグラフから読み取れる傾向を教えてください」と聞いてみました。

すると、数値の増減トレンドやピーク時期まで説明してくれたんです。自分で見たらなんとなく分かることでも、言語化してもらえると資料作成がすごく楽になりますね！

正直なところ、画像認識の精度は ChatGPT（GPT-4o）やClaude 3.5とかなり近いです。大きな差を感じる場面は少ないかもしれません。

ただ、GeminiはGoogleアカウントがあれば無料で使える範囲が広いのと、Googleドライブやスプレッドシートとの連携がスムーズなのが強みです。Googleをメインで使っている方には特におすすめですね 😊

Geminiの画像認識、使う前は「まあそこそこかな」と思っていたんですが、実際にやってみると想像以上に実用的でした。

特に領収書や名刺など、「手入力が面倒だな」と感じているものがある方は、今日1枚だけでも試してみてほしいです。きっと「もっと早く使えばよかった」と思うはずです 🙌

今回も最後まで読んでいただき、ありがとうございました！
ではまた、次のnoteでお会いしましょう💁🏻‍♀️

💬 プロンプト集

ひなこが実際に使っているプロンプトを全部まとめました。