無料で日本語もサポートしリアルタイム音声アプリをWhisperより高精度で開発できるオープンソースAIツールキット「Moonshine Voice」
ライブスピーチ処理時のベンチマーク結果を単語誤り率(WER)の低い順に並べたものが以下。「Moonshine Medium Streaming」が「Whisper Large V3」を上回ったほか、「Moonshine Small Streaming」は「Whisper Small」を、「Moonshine Tiny Streaming」は「Whisper Tiny」を、それぞれ上回っています。
モデル名WERパラメーター数処理速度(MacBook Pro)処理速度(Linux x86)処理速度(Raspberry Pi 5)Moonshine Medium Streaming6.65%245 million107ms269ms802msWhisper Large v37.44%1.5 billion11,286ms16,919msN/AMoonshine Small Streaming7.84%123 million73ms165ms527msWhisper Small8.59%244 million1940ms3,425ms10,397msMoonshine Tiny Streaming12.00%34 million34ms69ms237msWhisper Tiny12.81%39 million277ms1,141ms5,863ms2点目は「Whisperは何もキャッシュしない」という点です。音声インターフェースの要件は「ユーザーが話しているときにフィードバックを表示する」、つまり話している間にSpeech to Textモデルを繰り返し呼び出すということです。しかし、Whisperは入力がほぼ一定であっても毎回ゼロから開始するので、以前処理したことのある音声に対しても冗長な処理が発生します。ここでも不必要な待ち時間が発生し、ユーザー体験を損ないます。
GitHub - moonshine-ai/moonshine: Fast and accurate automatic speech recognition (ASR) for edge devices https://github.com/moonshine-ai/moonshine?tab=readme-ov-file#quickstart
この記事のタイトルとURLをコピーする2026年02月25日 21時00分00秒 in AI, Posted by logc_nt
You can read the machine translated English article Moonshine Voice is a free, open-source A….
最新ニュース40件 人気記事ランキング- エイプリルフールに便乗しているサイトまとめ2026年版
- なぜ制御室の多くが「シーフォーム・グリーン」に塗られていたのか?
- Appleがバイブコーディングアプリへの取り締まりを強化し「Anything」をApp Storeから削除
- 2026年春開始の新作アニメ一覧
- MicrosoftのAI「Copilot」が勝手にプルリクエストに広告を挿入
- コンセントに挿すだけの「プラグイン式ソーラーパネル」普及に電力会社が懸念を表明
- 人間の脳からヒントを得た新しいチップはAIのエネルギー消費量を大幅に削減できる可能性
- 国際宇宙ステーションで撮影された「紫色の触手のような生命体」の正体とは?
- ついに任天堂が2026年5月からNintendo Switch 2専用の新作ファーストパーティゲームのパッケージ版とダウンロード版で価格を変えるとアメリカで発表
- 50年前のレシピをもとに再現した「日清のどん兵衛 きつねうどん/天ぷらそば クラシック」を現代のどん兵衛と食べ比べてみた