FacebookやInstagramの自動代替テキスト機能に期待すること

アクセシビリティ・エンジニア 大塚

この記事はミツエーリンクス Advent Calendar 2020 - Adventarの10日目の記事です。

こんにちは。アクセシビリティ・エンジニアの大塚です。

突然ですが、この記事をご覧になっている方の中には、FacebookやInstagramを利用されている方も多くいらっしゃるかと思います。そして、投稿する際に、文章に加え、画像をアップロードすることも多々あるでしょう。ところで、FacebookやInstagramに投稿される画像には、自動的に画像の説明(代替テキスト)が設定されることをご存じでしょうか。

少し私自身について補足しますと、私は視覚に障害があり、日常的にスクリーンリーダーを利用しています。各種スクリーンリーダーでFacebookやInstagramにアクセスすると、画像の説明として自動生成されたテキストが読み上げられます。そのため、自動生成された説明は、画像に関する情報を得るための重要な手掛かりの1つとなっています。

今回は、FacebookやInstagramで利用できる自動代替テキスト機能の紹介と、個人的な今後への期待をまとめたいと思います。なお、下記に示すように、FacebookやInstagramでは、手動で代替テキストを設定することもできます。高機能化が進んでいるとはいえ、現在の自動代替テキストの現状を踏まえると、やはり可能な限り手動で適切な代替テキストを記載する必要があると考えています。それを前提に、記事をお読みいただければと思います。

自動代替テキストとは

自動代替テキストは、FacebookやInstagramで利用できる機能で、画像認識技術を利用して生成された説明が、アップロードされた画像の代替テキストとして設定されます。利用するための設定などは特に必要ありません。

この機能は、まず2016年にFacebookで利用できるようになり、当初は英語の説明が生成されていました(Under the hood: Building accessibility tools for the visually impaired on Facebook - Facebook Engineering)。その後、2018年にInstagramでもFacebookと同じ技術を利用した自動代替テキスト機能が利用できるようになりました(Instagramのアクセシビリティを向上する取り組み | Instagram Blog)。その際に日本語にも対応し、Facebook、Instagramそれぞれで日本語による画像の説明が利用できるようになりました。

それでは、実際どのような説明が生成されるのでしょうか。自動代替テキストが日本語で利用できるようになった当初は、画像に含まれているであろう要素を比較的大ざっぱに読み上げていました。例えば、複数人で記念撮影を行った写真では、「画像に含まれている可能性があるもの:屋外、1人以上」などと読み上げていました。なんとなく画像の内容をイメージできるでしょうか。しかし、屋外で撮影されたことがわかっても、例えばどの程度の人がいるのかはわかりません。

現在では、説明される項目もより詳細になり、写真によっては表情や英語のテキストなどを読み上げるようになりつつあります。例えば、先ほど挙げたような複数人が写る写真については、「画像に含まれている可能性があるもの:3人、スマイル、屋外」などと読み上げます。また、ミツエーリンクスのInstagramに掲載されたテックラウンジについて紹介する投稿の写真には、「画像に含まれている可能性があるもの:『IW1/ Mitsue Tech Lounge vol.89』というテキスト」(原文ママ)という説明がつけられています。なお、2020年12月1日現在、スクリーンリーダーを有効にして上記のページを開くと、画像の説明として「テキスト」とだけ読み上げられる場合があります。ミツエーリンクスのInstagramのプロフィールページから該当の投稿を確認すると、テキスト情報が読み上げられます。

自動代替テキストの課題

機能の向上が進む自動代替テキストですが、説明の精度や日本語のテキスト認識など、まだ課題があるようにも思います。

まず説明の精度については、現状でも説明が大ざっぱで、画像について想像しづらいことがあります。例えば、肉料理や魚料理などといった食べ物の画像にはどれもほぼ例外なく「食べ物」という説明が設定されます。また、テキスト認識については、英語のテキストは比較的認識されますが、日本語については多くの場合「テキスト」とだけ認識され、内容を把握することはできません。

今後への期待

そんな自動代替テキスト機能に、個人的に今後期待していることをいくつか挙げてみたいと思います。

まず、画像についての説明がより詳細なものになってほしいと感じます。例えば、人が写る画像に含まれる長袖、半袖といった服の形状に関する情報や、風景を写した画像に含まれる色に関する情報が認識されると、より画像を楽しめるようになるのではと思います。

また、上記でも触れましたが、日本語のテキスト情報の読み上げにも期待したいところです。これについては、最近一度だけ日本語のテキスト情報が含まれた画像の説明をFacebookで読んだことがあるので、現在機能改善が進められているのかもしれません。

まとめ

自動代替テキスト機能が導入される以前に、FacebookやInstagramにアップロードされた画像に関する情報を得るためには、画像情報を読み上げるアプリで読み取るなど、追加の手順を踏む必要がありました。しかし、自動代替テキスト機能によって、画像情報を得るための手順が少なくなり、画像の説明を得るためのハードルが低くなりました。また、サービス開始当初と比べ、説明される項目もかなり増え、特にテキスト情報の読み上げには感動しました。

現在でも説明の不足を感じる場面はありますが、上記に示したように改良が進められており、今後のさらなる改善に期待したいです。