AIを活用したスクリーンリーダー補助ツール「Viewpoint」
アクセシビリティ・エンジニア 大塚Viewpointは、スクリーンリーダーで読み上げられなかったり、操作できないアプリケーションやコンテンツに対して、AIを活用してアクセシビリティを向上させるツールです。
このツールは、アクセシブルなゲーム開発を行うNibble Nerdsによって開発されました。現在はWindows向けに提供されており、公式サイトからダウンロードできます。
Viewpointは、Google Gemini APIを利用し、画面上の情報を解析して、スクリーンリーダーでの操作をサポートします。主な機能として、アクセシブルでないUI要素の操作支援(UI)、画面のOCR認識(OCR)、質問応答による画面情報の取得(Query)、スキャンされたPDFのテキスト化(PDF Reader)が利用できます(括弧内はスクリーンリーダーで読み上げられる機能の略称です)。アプリの表示は英語ですが、いずれの機能も日本語を認識します。特にUI認識では、回答に英語が混在することがあるものの、多くの場合は日本語で出力されます。
Viewpointを起動した状態で、Ctrl+Shift+\キーを押すと、各機能を切り替えることができ、Ctrl+Shift+/キーを押すと、機能を実行することができます。
ここからは、各機能について紹介します。まず、アクセシブルでないUI要素の操作支援では、実行すると画面全体のスクリーンショットが取得され、操作可能と推測されるUIの一覧が生成されます。TabキーやShift+Tabキーを押して一覧を確認し、Enterキーを押すことで、該当のUIでの左クリック操作を実行できます。画面全体のスクリーンショットを解析してUI候補を抽出しているため、確認したいアプリケーションのウインドウサイズを広げると、より正確に認識できるようになります。一例として、デスクトップ画面を認識させると、「時計 button」、「ごみ箱 list item」などと読み上げます。
画面上のOCR認識では、取得されたスクリーンショットから、文字情報を出力します。出力された文字は、クリップボードにコピーすることもできます。例えば、当社トップページをブラウザで開いた画面を認識させると、「MITSUE-LINKS」としか読み上げないなど、認識対象をうまく設定するのが難しい印象でした。
質問応答による画面情報の取得では、質問事項を入力すると、スクリーンショットが取得され、回答が生成されます。日本語で質問を入力することで、回答も日本語で行われます。例えば、デスクトップを表示させた状態で、設定されている背景画像の内容を質問すると、「デスクトップの背景には、Windows 11の標準的な壁紙である、青色の抽象的な花や布のようなうねりのあるデザイン(Bloom)が表示されています。」という回答が生成されます。
スキャンされたPDFのテキスト化では、選択したPDFファイルのテキストを抽出、表示します。こちらも内容をクリップボードにコピーすることができます。PDF内の見出しやリストといった文書構造は、Markdown記法を用いて表現されます。
これらの機能の中でも、UIの操作支援は、リスト項目の内容を読み上げなかったり、キーボードでフォーカスを移動できないWindows用のアプリが問題なく操作できるようになるなど、活用の幅も広げられそうな印象でした。
注意点として、こちらのツールの利用には、GeminiのAPIキーを登録する必要があり、無料枠では1日20回の利用制限があります。また、これはAI関連のツールに共通することですが、生成される情報が必ずしも正確でなかったり、結果が安定しない可能性がある点には注意が必要です。
視覚障害者向けのツールとして、画像をAIによって認識するものはこれまでにもありましたが、スクリーンリーダーの操作を直接補助するツールは珍しく、今後の発展が期待されます。