Geminiの画像認識が思ったより賢くて驚いた話
こんにちは!ひなこです。
先日、領収書の山を整理していて「これ、写真撮って読み取らせたらどうなるんだろう」とふと思ったんです。で、試しにGoogle Geminiに画像を投げてみたら、想像以上に賢くてびっくりしました。
今回は、Geminiの画像認識を実際に使ってみて「これは仕事に使える!」と感じた場面を3つシェアしますね。
そもそもGeminiの画像認識って何ができるの?
Google Geminiは、テキストだけじゃなくて画像を読み取って分析する機能を持っています。ChatGPTやClaudeにも似た機能はありますが、Geminiは特にGoogleのエコシステムとの相性が良いのが特徴です。
使い方はシンプルで、Geminiのチャット画面に画像をアップロードして、質問を添えるだけ。スマホからでもPCからでもOKです!
食べながらAIを研究しています 😊
ひなこのむきうしゅ(大食い)チャンネル
仕事の合間にひたすら食べています😋 @hinako_taberu でフォローしてね!
実際に試した3つの場面
① 領収書の読み取り
紙の領収書をスマホで撮影して、Geminiに「この領収書の日付、金額、店名を読み取ってください」と送ってみました。
結果、手書きの領収書でもほぼ正確に読み取ってくれました!ちょっと字が汚いものでも、金額と日付は合っていて感動です 👀
ただし、かすれている文字や極端に斜めの写真は誤読することもあるので、なるべく正面から明るい場所で撮るのがコツですね。
② 名刺の情報整理
溜まっていた名刺を1枚ずつ撮影して、「この名刺の会社名、氏名、電話番号、メールアドレスを表形式で出してください」とお願いしました。
これが本当に便利で、10枚くらいまとめて処理したら、今まで手入力していた時間が一気に短縮されました。出力をそのままスプレッドシートにコピペできるのも嬉しいポイントです ✨
③ グラフや表の読み解き
仕事で受け取ったPDF資料の中のグラフをスクリーンショットで撮って、「このグラフから読み取れる傾向を教えてください」と聞いてみました。
すると、数値の増減トレンドやピーク時期まで説明してくれたんです。自分で見たらなんとなく分かることでも、言語化してもらえると資料作成がすごく楽になりますね!
Geminiを使うときの3つのコツ
- 写真は明るく、正面から撮る:画像の質が認識精度に直結します。影や反射を避けるだけで結果が変わります。
- 質問は具体的に書く:「この画像について教えて」より、「日付と金額を抽出してください」のほうが的確な回答が返ってきます。
- 出力形式を指定する:「表形式で」「箇条書きで」と伝えると、そのまま仕事に使いやすい形で出してくれます。
ChatGPTやClaudeとどう違う?
正直なところ、画像認識の精度は ChatGPT(GPT-4o)やClaude 3.5とかなり近いです。大きな差を感じる場面は少ないかもしれません。
ただ、GeminiはGoogleアカウントがあれば無料で使える範囲が広いのと、Googleドライブやスプレッドシートとの連携がスムーズなのが強みです。Googleをメインで使っている方には特におすすめですね 😊
まとめ:まずは身の回りの紙を1枚撮ってみて
Geminiの画像認識、使う前は「まあそこそこかな」と思っていたんですが、実際にやってみると想像以上に実用的でした。
特に領収書や名刺など、「手入力が面倒だな」と感じているものがある方は、今日1枚だけでも試してみてほしいです。きっと「もっと早く使えばよかった」と思うはずです 🙌
今回も最後まで読んでいただき、ありがとうございました!
ではまた、次のnoteでお会いしましょう💁🏻♀️