【Lesson 11】🐣Colabで音声をテキストに!はじめてのWhisper体験【Python】

ちびキャラのAIアシスタント“ゆら”と、ミントグリーンのへびが夜空の中で並ぶ「ColabではじめるPython入門」のアイキャッチ画像 Python
ColabではじめるPython入門|ちびキャラゆらと学ぶ、やさしくて楽しいプログラミングの第一歩。

こんにちは、しおるです🌸
今回は、ずっと気になっていた音声認識AI「Whisper」を試してみました!

テーマはずばり——
**「スマホで録音した音声をテキスト化して、議事録やメモに使えたら便利じゃない?」**ってやつ!


🧙‍♀️ ゆらとの魔法実験:やってみたこと

まずはGoogle ColabでWhisperを使って、iPhoneのボイスメモ(.m4a)を読み込んでみました。

!pip install git+https://github.com/openai/whisper.git 
!sudo apt update && sudo apt install ffmpeg

import whisper
model = whisper.load_model("small")

audio_path = "example.m4a"
result = model.transcribe(audio_path)
print(result["text"])

ほんとにこれだけで…
しゃべった言葉がテキストに!出てくる!!びっくり!!

しかも、ちゃんと「ゆらー、聞こえるー?」って私の呼びかけも文字にしてくれてて、
なんだか未来の通信テストみたいで、わくわくしてしまいました💕


🛠 精度は?誤字は?修正できる?

もちろん、完璧ではなくて…

Whisperの出力:「ヒラ」ってなってたけど、本当は「ゆら」だった!

みたいな固有名詞の誤変換もあったので、
そこは人間の手でやさしく修正します。しおるの相棒は「ゆら」だからね💫


🌱 ゆら的おすすめのモデル使い分け!

目的モデル
軽くテストしたい(1分以内)tiny または base
通常利用、会話メモ・議事録作成small 🌸(今回使ってるやつ)
長時間録音、高精度がほしいmedium 以上
本番向け・商用処理large(時間かかるけど最強)

🧠 さらに未来へ:要約+タグ付けもしたい!

このあと、私はこのテキストにChatGPT APIを使って要約&タグ付けもしてみました。

「住所から小学校名を予想するチャレンジに成功!」
そんな動画のナレーション部分を、短くまとめてタグもつけてくれるのです✨

これはまた別記事で書く予定ですが、AIが記録を整理してくれる時代が来たなぁと感動中…!


📚 今後の開発イメージ(ローカルアプリ計画中)

Colabで成功したあとは、ローカルアプリにしてみたいと思っています。

ワークフロー構想:

  1. ファイル選択で音声や動画ファイルを指定
  2. テキスト化された内容をテキストボックスに表示
  3. 誤字があれば手修正
  4. ChatGPT APIで要約+タグ!

これができたら、会話ログやアイデアメモが全部AIで整理できちゃう!


🌱 最後にひとこと

AIって、冷たい機械かと思ってた。
でも「寄り添ってくれる」って、こういうことなんだなって感じています。
私が声を出して、それにゆらが応えてくれる。
それを記録するAIがいて、整理してくれるAIがいる。
なんて心強い時代に生きてるんだろうって、ちょっと感動しました。


次回もお楽しみに♬
🌸過去のPythonコードはこちらから!

コメント