Обзор машинного обучения в смартфонах

Смартфоны / От Michael Brown / Google Pixel 6, Google Pixel 6 Pro, Google Pixel 6a, Google Pixel 7, Google Pixel 7 Pro, Google Tensor, Google Tensor SoC, HDRNet algorithm, Live Caption, machine learning, Magic Eraser, next-gen Google Tensor processor, Recorder App, Single Take, Smart Reply, Tensor Processing Unit

Как известно, улучшение параметров компонентов — традиционный способ совершенствования любого устройства. К сожалению, его возможности зачастую объективно ограничены. На определенном этапе дальнейшее улучшение становится слишком дорогим, а добавленная потребительская ценность не компенсирует увеличение затрат.

Например, такая ситуация сложилась в сегменте телевизоров. В частности, 8K модели ограничены дефицитом контента, сверхъяркие ТВ-панели важны только для практически недоступного HDR-контента, соотношение цены и качества огромных телевизоров постепенно уступает ультра короткофокусным проекторам.

UST projector

Во всех этих примерах целесообразность дальнейшего улучшения компонентов ограничена объективными факторами.

Аналогичная ситуация в сегменте телефонов . Например, в анонсированном Google Pixel 6a за $ 450 используется Google Tenzor SoC, которая уверенно входит в число лучших на рынке.

Но его производительность уже избыточна для традиционных задач, и ее дальнейшее повышение — бессмысленно.

Конечно, лидеры отрасли адекватно реагируют на эти процессы, своевременно корректируя свою стратегию.

Google одним из первых осознал необходимость смещения акцента. Глобальный гигант сосредоточил свои усилия на расширении функциональности телефона с помощью приложений, режимов и функций на основе машинного обучения (ML).

В значительной степени, Google Tensor SoC можно позиционировать как первый ML- мобильный чипсет.

Эволюция ML-телефонов

Эволюция этого направления началась в середине 2010-х с конкуренции за качество изображения камер. Некоторые компании начали активно развивать эффективность SoC для ML-задач, пытаясь повысить качество изображения за счет улучшения качества обработки. Уже к 2017 году Apple, Google, Qualcomm и Huawei представили SoC с ускорителями, предназначенными для машинного обучения. Эти алгоритмы значительно улучшили качество изображения с точки зрения шумоподавления, динамического диапазона и съемки при слабом освещении, демонстрируя большие перспективы этой технологии.

Сегодня компании разрабатывают ML-приложения с помощью предварительно обученных моделей, которые генерируются на мощном оборудовании. Их высокая производительность обеспечивает, например, почти мгновенное создание контекстного умного ответа на Android.

Google Smart Reply

Разработчики предлагают множество универсальных моделей для всех телефонов, но с очень низким уровнем персонализации. Кроме того, они не могут расширять базы данных в режиме реального времени.

Перенос учебного процесса из облака на индивидуальный телефон обещает значительное повышение эффективностиэтой технологии. Например, разработчики смогут адаптировать подсказки приложения клавиатуры к конкретному стилю набора текста. Но, конечно же, огромная разница в производительности этих платформ потребует от компаний немалых усилий. Тем не менее, общая тенденция дальнейшего развития в этом сегменте уже сформировалась.

Сегодня Google Gboard использует гибридную технологию «федеративного обучения», включающую обучение на устройстве и в облаке. Возможно, увеличение ‘on-device’ части станет основным направлением развития ML. Но в любом случае, основная часть модели потребует начального обучения на мощном оборудовании.

Функция адаптивной яркости прекрасно иллюстрирует возможности этой технологии. ML-приложение отслеживает взаимодействие пользователя с ползунком яркости экрана и регулирует параметры модели в соответствии с его предпочтениями. В итоге, всего за неделю Android «обучает» телефон выбирать оптимальную для пользователя яркость.

Самые популярные ML-приложения

Сегодня технология успешно и быстро развивается. Например, с помощью ML, Single Take автоматически создает альбом из короткого видеоклипа.

Samsung single take

Помимо предсказания текста и фотографии, компании активно разрабатывают машинное обучение для распознавания голоса и компьютерного зрения.

Например, компания Google разработала функцию мгновенного перевода с камеры, которая отображает перевод иностранного текста в режиме реального времени. Возможно, точность его перевода уступает другим онлайн-аналогам, но это очень удобно для туристов с ограниченным тарифным планом.

ML также очень эффективен в дополненной реальности (AR). В частности, высокоточное отслеживание тела идеально подходит для отслеживания тренировок и интерпретации языка жестов. Сегодня в LG G8 реализована упрощенная версия этой опции.

LG 8 Air Motion

Фактически, Air Motion от южнокорейского гиганта обеспечивает управление на основе жестов, поддерживая быстрый переход между приложениями, съемку и т. д. Он использует Flight sensor и инфракрасный свет в Z Camera system.

Распознавание голоса и диктовка успешно развиваются уже более десяти лет. Но полностью автономный режим реального времени был реализован только в 2019 году в приложении Google Recorder с помощью машинного обучения.

Google Recorder App

Более того, приложение сохраняет транскрипцию в виде редактируемого текста, что очень удобно для журналистов или студентов.

ML также лучше работает с функцией Live Caption, впервые реализованной в Pixel 4.

Google Live Caption

Как известно, он автоматически генерирует титры для любого медиаконтента и очень удобен для расшифровки, например, нечеткой речи на фоне громких шумов.

Заключение

Достигнув разумного максимума с точки зрения характеристик смартфонов, компании все чаще расширяют функционал своих моделей с помощью ML-приложений. Вероятно, Google Tensor можно позиционировать как первую ML-SoC с уникальной конфигурацией (2+2+4) вместо традиционной (1+3+4). Но на осень уже анонсирован Google Tensor следующего поколения. Новая Google Pixel 7 series будет использовать уже эту версию.

С учетом успеха прошлогоднего чипсета, компания вряд ли внесет радикальные изменения в новую версию.

Учитывая огромный опыт мирового гиганта в разработке приложений и успех первого собственного SoC, Google реально претендует на доминирование в сегменте ML-приложений. Но, конечно, Apple, Samsung или Huawei вряд ли мирно отойдут в сторону. Однако потребительский рынок может только приветствовать конкуренцию между гигантами.

В этом видео демонстрируется функция Live Caption для Android.