Пример разработки интеллектуального многоязычного переводческого устройства на основе ИИ: проектирование системы перевода в реальном времени. Wonderful PCB

Создание голосового переводчика в реальном времени требует интенсивных вычислений на периферии сети и безупречного акустического проектирования. В этом тематическом исследовании подробно рассматривается инженерная основа многоязычного переводчика на основе искусственного интеллекта. Вы изучите архитектуру оборудования, аппаратное обеспечение нейронного машинного перевода и строгие требования производителя устройств для перевода на основе ИИ. Цель — создание бесперебойного и мгновенного оборудования для межкультурной коммуникации.

1. Обзор проекта

1.1 История клиента

Во-первых, необходимо понять точную мотивацию клиента. Крупный производитель бытовой электроники хотел создать устройство-переводчик на основе искусственного интеллекта, чтобы воспользоваться резким ростом числа путешествий после пандемии. Целевыми рынками были, в частности, иностранные путешественники, пользующиеся транспортными системами других стран, корпоративные клиенты, заключающие сложные сделки, и специалисты по трансграничной электронной коммерции.

Изначально эти пользователи пробовали приложения для смартфонов. Не очень удачно. Телефоны звонят, уведомления прерывают разговоры, а передать разблокированный телефон незнакомцу в чужом городе опасно. Цель была четко определена. Бренд хотел агрессивно конкурировать с уже существующими производителями устройств для перевода, создав специализированное, автономное устройство. Они обратились к опытному производителю устройств для перевода с использованием искусственного интеллекта, который помог бы им пройти путь от чистого листа до готового продукта на полках магазинов.

1.2 Цели проекта

Что именно нам нужно было создать? Во-первых, конечно, устройство должно было обладать возможностями двустороннего голосового перевода в реальном времени. Оно должно было поддерживать более 100 языков при подключении к интернету. Кроме того, офлайн-перевод для основных языков был обязательным требованием для путешественников, не имеющих доступа к мобильному интернету. Для обеспечения возможности использования устройства на переполненных вокзалах потребуется эффективное шумоподавление с использованием искусственного интеллекта.

Что касается возможностей подключения, мы ориентировались на 4G LTE, потенциал 5G и Wi-Fi 6. Пользователи требуют длительного времени автономной работы, ориентируясь на базовый показатель в 10 часов непрерывного активного использования. И, наконец, необходимо было уместить все эти мощные характеристики в компактный, карманный корпус промышленного класса.

2. Отраслевые проблемы в разработке переводчиков на основе искусственного интеллекта.

2.1 Точность распознавания речи

На первый взгляд, захват человеческой речи кажется простым делом. Но это не так. Обработка вариаций акцента нарушает работу большинства базовых алгоритмов. Знаете ли вы? Только в английском языке существует множество основных региональных акцентов, которые сбивают с толку стандартные модели. Фильтрация в условиях шума представляет собой еще большую проблему.

Если вы стоите рядом с оживленным перекрестком, ветер и шум транспорта заливают микрофонную решетку. Оптимизация захвата звука микрофонами на большом расстоянии абсолютно необходима. Нельзя просто размещать микрофоны случайным образом. Необходимо точно рассчитать расстояние, чтобы уловить голос с расстояния в метр, игнорируя фоновый шум.

2.2 Задержка трансляции

Насколько быстро должна реагировать система? Минимизация задержки между вводом речи и переведенным результатом определяет удовлетворенность пользователя. Если задержка становится слишком большой, люди начинают говорить одновременно. Баланс между периферийным ИИ и облачной обработкой определяет эту задержку. Периферийная обработка быстрая, но потребляет много энергии.

Облачная обработка данных обеспечивает доступ к огромным языковым базам данных, но страдает от задержек в сети. В связи с этим возникает полезный вопрос: следует ли обрабатывать грамматику локально, а словарь извлекать из облака? Поиск такого архитектурного баланса требует серьёзных инженерных решений.

2.3 Ограничения модели ИИ в автономном режиме

До этого разработчики предпочитали огромные облачные серверы. С устройством для автономного перевода вы сталкиваетесь с жесткими ограничениями локальной памяти. У вас ограниченное встроенное хранилище. Аппаратное обеспечение для глубокого нейронного машинного перевода обычно требует гигабайт быстрой оперативной памяти.

Необходимо добиться сильного сжатия модели без ущерба для точности перевода. Эффективное использование NPU — это математическая задача. Нейронный процессор выполняет матричные вычисления очень быстро, но если конвейер памяти слишком узок, процессор испытывает нехватку данных.

Потребляемая мощность 2.4

В начале тестирования команда была шокирована быстрым разрядом батареи. Режим непрерывного прослушивания заставляет процессор постоянно сканировать наличие ключевого слова или голосовой активности. Беспроводная передача данных приводит к значительным скачкам тока от батареи. Сотовые радиомодули, передающие данные на облачный сервер, потребляют энергию быстрее, чем экран.

Проблемы усугубляются температурными ограничениями в компактном корпусе. Тепло накапливается быстро. Как правило, следует избегать размещения микросхем, выделяющих тепло, непосредственно под экраном пользовательского интерфейса. При перегреве микросхем снижается скорость их работы, что ухудшает задержку трансляции.

3. Проектирование архитектуры системы

3.1 Основная вычислительная платформа

Затем следует разработать кремниевую основу. Мы выбрали высокоспециализированную SoC серии ARM Cortex-A. Мы реализовали схему расположения ядер big.LITTLE. Малые ядра обрабатывают режим ожидания для экономии заряда батареи, а большие ядра мгновенно пробуждаются для обработки голоса. Мы интегрировали выделенный нейронный процессор (NPU).

Блок-схема устройства искусственного интеллекта-переводчика, показывающая взаимосвязанные аппаратные компоненты, включая ARM SoC, NPU, массив микрофонов, DSP, динамик, память и микросхему управления питанием, с цветными стрелками, указывающими на аудио и цифровые данные.

Поддержка ускорения Edge AI означает, что чип обрабатывает тензорные операции нативно. Затем вы можете использовать в качестве основы встроенную операционную систему Linux или Android. Мы использовали упрощенную базу проекта Android с открытым исходным кодом, чтобы упростить управление драйверами для сенсорного экрана и радиомодулей.

3.2 Архитектура аудиоподсистемы

Во-вторых, акустическое оборудование требует скрупулезной настройки. Мы использовали массив из четырех MEMS-микрофонов. Четыре микрофона позволяют программному обеспечению создавать трехмерную карту окружающего звука. Специализированный алгоритм формирования луча фокусирует цифровой «конус» непосредственно на устье говорящего.

На технической схеме показаны четыре MEMS-микрофона, расположенные на ручном устройстве, с направленным конусом формирования луча, сфокусированным на рту говорящего, а разбросанные, приглушенные волновые формы представляют собой подавленный фоновый шум.

Независимый процессор DSP с функцией шумоподавления на основе искусственного интеллекта очищает аудиопоток до того, как он попадет в основной процессор. В нижней части корпуса расположен высококачественный модуль динамика. Вам нужно, чтобы человеческие голоса звучали естественно и глубоко, избегая металлических или роботизированных тонов.

3.3 Архитектура подключения

В-третьих, каналы передачи данных должны быть широкими и быстрыми. Мы интегрировали модули Wi-Fi 5 и 6 для быстрого подключения в отелях и аэропортах. Bluetooth 5.0 позволяет пользователям сопрягать беспроводные наушники для конфиденциального перевода во время деловых встреч.

Дополнительный модуль 4G LTE и eSIM обеспечивает подключение интеллектуального переводчика языков к вышкам сотовой связи по всему миру без необходимости физической замены SIM-карты. Функция GPS является дополнительной, но очень востребованной для использования в поездках, позволяя устройству переключать диалекты в зависимости от текущего географического местоположения пользователя.

3.4 Хранение и безопасность

Затем необходимо создать хранилище данных. Мы предусмотрели микросхемы памяти eMMC объемом от 16 до 64 ГБ для безопасного хранения языковых пакетов в автономном режиме. Строгая архитектура безопасной загрузки гарантирует, что вредоносное программное обеспечение не сможет захватить аппаратное обеспечение во время запуска.

Зашифрованная облачная связь защищает устную речь во время передачи на языковые серверы. Корпоративные пользователи обсуждают крайне конфиденциальные финансовые данные. Таким образом, для обеспечения безопасности корпоративных контрактов необходим строгий механизм защиты конфиденциальности пользовательских данных.

4. Интеграция ИИ и системы перевода.

4.1 Механизм преобразования речи в текст (ASR)

Далее аудиоволны необходимо преобразовать в цифровой текст. Мы использовали систему автоматического распознавания речи на основе глубокого обучения. В процессе обучения адаптации к акценту модель обработала тысячи часов разнообразных речевых данных.

Система автоматического распознавания речи в реальном времени выводит текст на экран по буквам по мере того, как человек говорит. Это означает, что пользователь видит мгновенную визуальную обратную связь еще до начала аудиоперевода.

4.2 Нейронный машинный перевод (НМТ)

После этого текст переключается на иностранный язык. Мы использовали современную архитектуру модели на основе трансформеров. Оптимизация вывода на устройстве требует изменения математических вычислений таким образом, чтобы они плавно работали на мобильном чипе, а не на настольной видеокарте.

Горизонтальная блок-схема конвейера, показывающая процесс перевода с помощью ИИ от голосового ввода через встроенную систему распознавания речи (ASR) до узла принятия решения, разделяющего его на пути автономного преобразования или облачного машинного перевода (NMT), и объединяющего его на выходе синтеза речи (TTS) с точностью до миллисекунды.

Мы разработали гибридную систему перевода, сочетающую периферийные вычисления и облачные технологии. В случае потери сигнала 4G программное обеспечение автоматически переключается на локальный офлайн-словарь. Как и всегда, пользовательский опыт остается бесперебойным.

4.3 Преобразование текста в речь (TTS)

Вскоре машине придётся произносить переведённые слова вслух. Естественный синтез речи — сложное искусство. Многоязычные голосовые пакеты требуют акустических моделей для точного воспроизведения звуков языка и губ. Пользователь должен управлять устройством.

Вы должны иметь возможность регулировать скорость и тембр речи. Пожилому пользователю может потребоваться более медленный темп, в то время как деловой руководитель, работающий в быстром темпе, предпочтёт быстрое воспроизведение звука.

4.4 Оптимизация модели ИИ

Как уместить огромный языковой мозг в карманное устройство? С помощью квантования. Мы преобразовали 32-битные вычисления с плавающей запятой в форматы INT8 или FP16. Обрезка модели удаляет нейронные связи, которые редко активируются. Мы провели исчерпывающий тест производительности по задержке. Лучше отбросить незначительную грамматическую частицу, чем заставлять пользователя ждать три секунды, пока машина сформулирует ответ.

5. Разработка печатных плат и аппаратной части.

5.1 Проектирование многослойных печатных плат

В свою очередь, печатная плата передает весь этот большой объем данных. Мы разработали плотную высокоскоростную печатную плату из 6-8 слоев. Оптимизация радиочастотной схемы гарантирует, что сигналы Wi-Fi и сотовой связи не будут пересекаться и взаимно компенсироваться.

Схема поперечного сечения многослойной печатной платы, показывающая отдельные медные, заземляющие, силовые и сигнальные слои с экранирующими кожухами от электромагнитных помех над аудио- и радиочастотными зонами, а также обозначенную трассировку дорожек с контролем импеданса.

Экранирование от электромагнитных помех для аудиосхем является обязательным. Если радиочастотная энергия проникает в аудиодорожки, динамик будет издавать ужасный жужжащий шум. Строгий контроль импеданса для беспроводных модулей гарантирует максимальную целостность сигнала.

5.2 Проектирование системы управления питанием

Позже вам предстоит решить проблему с питанием. Мы использовали специально разработанную литий-ионную батарею емкостью от 2000 до 3000 мАч. Специализированная микросхема управления питанием выполняет интеллектуальное планирование энергопотребления. Она отключает питание нейронного блока ровно в ту миллисекунду, когда завершается трансляция.

Быстрая зарядка через USB-C — это современный стандарт, который мы легко интегрировали. Глубокий режим ожидания с низким энергопотреблением позволяет портативному переводчику лежать в рюкзаке целую неделю и мгновенно включаться.

5.3 Проектирование радиочастот и антенн

Кроме того, размещение антенн внутри крошечного устройства — это довольно сложная задача. Мы проложили внутреннюю многодиапазонную антенну вдоль пластикового края корпуса. Соблюдение требований SAR является серьезным юридическим препятствием.

Схема, состоящая из двух частей, показывает внутреннюю трассировку многодиапазонной антенны вдоль края корпуса устройства с обозначениями частотных диапазонов слева и трехмерную диаграмму направленности излучения с маркером границы соответствия требованиям SAR справа.

Радиоволны не должны проникать в ткани человека выше строгих установленных законом пределов. Проверка и настройка мощности сигнала проводились внутри изолированной безэховой камеры для точного измерения того, как радиоволны излучаются наружу.

6. Механический и промышленный дизайн

6.1 Проектирование компактных корпусов

Учитывая все вышесказанное, физический объект должен ощущаться в руке как изделие премиум-класса. Мы поставили перед собой строгую цель по весу — менее 150 граммов. Каркас из алюминиевого сплава или корпус из закаленного поликарбоната и АБС-пластика обеспечивают структурную жесткость. Устойчивое к царапинам защитное покрытие дисплея из закаленного стекла гарантирует, что экран выдержит скольжение в кармане, полном монет и металлических ключей.

6.2 Человекоориентированный дизайн пользовательского интерфейса

Кроме того, навигация по интерфейсу должна быть полностью интуитивно понятной. В качестве основного визуального интерфейса используется четкий 3-4-дюймовый IPS-сенсорный экран. Однако взгляд на экран прерывает зрительный контакт во время разговора. Поэтому мы добавили тактильно приятные физические кнопки быстрого доступа на боковой панели. Специальный режим мгновенного перевода одним касанием позволяет пользователю нажать кнопку, произнести фразу и отпустить ее, чтобы запустить немедленный перевод, не отрывая взгляда от дисплея.

6.3 Управление температурным режимом

На приведенной в разобранном виде (боковой) тепловой схеме устройства искусственного интеллекта, демонстрирующей графитовый теплоотвод над процессором SoC, показан градиент цвета тепловой карты от красного в точке перегрева чипа до синего по краям корпуса устройства.

В результате вся эта обработка генерирует чрезвычайно много тепла. Пассивное рассеивание тепла — единственный вариант, поскольку моторизованные вентиляторы испортили бы аудиозаписи. Мы разместили внутренний графитовый теплоотвод на задней панели основного процессора. Это отводит тепловую нагрузку от одной горячей точки и распределяет ее по всей задней части корпуса. Программная проверка теплового моделирования гарантировала, что температура поверхности никогда не превысит комфортные пределы для человеческой кожи.

7. Разработка программного обеспечения.

7.1 Проектирование UI/UX-системы

Далее, операционная система покрывает аппаратное обеспечение. Удобный многоязычный интерфейс позволяет пользователям со всего мира легко ориентироваться в настройках. Мы разработали специальные профили, а именно режим путешествий и деловой режим. В режиме путешествий приоритет отдается разговорной лексике и быстрому общению.

В бизнес-режиме аппаратная часть нейронного машинного перевода переключается на обработку формальной грамматики и отраслевого жаргона. Сохранение истории разговоров позволяет пользователям прокручивать назад и читать расшифровки предыдущих взаимодействий.

7.2 Интеграция с облаком

Кроме того, устройство должно развиваться со временем. Облачная база данных языков ежедневно обновляет словарный запас для всего парка устройств. Обновления прошивки по беспроводной сети незаметно исправляют программные ошибки в фоновом режиме, пока пользователь спит. Регулярные обновления моделей искусственного интеллекта улучшают программное обеспечение для распознавания акцента, делая многоязычную систему перевода умнее по мере её использования.

7.3 Конфиденциальность и безопасность данных

Кроме того, правовые рамки диктуют строгие требования к архитектуре программного обеспечения. Соответствие GDPR является обязательным для любого устройства, продаваемого на рынке ЕС. Сквозное шифрование голосовых данных обеспечивает надежную защиту аудиопакетов. Даже если хакер перехватит сигнал Wi-Fi, он не сможет расшифровать аудио. Безопасное облачное хранилище позволяет пользователям создавать резервные копии своих деловых переговоров на защищенном сервере.

8. Тестирование и проверка

8.1 Акустические испытания

Как часто вы доводите оборудование до предела его возможностей? Мы создали специальные испытательные стенды. Калибровка чувствительности микрофонов гарантирует, что все четыре микрофона будут слышать звук на совершенно одинаковом уровне.

Проверка функции подавления эха заставляет устройство прослушивать громкую фоновую музыку, пока человек говорит; искусственный интеллект должен полностью отфильтровать музыку. В ходе тестирования функции подавления шума устройство оценивается по контролируемым аудиофайлам, имитирующим звуки поездов метро и реактивных двигателей.

8.2 Тестирование производительности

Через некоторое время необходимо измерить истинные пределы скорости. Инструменты измерения задержки перевода доказывают, что разрыв между окончанием речи и появлением текста минимален. Тестирование времени автономной работы запускает автоматизированные скрипты, которые заставляют устройство непрерывно слушать и говорить, пока батарея не разрядится. Тестирование точности ИИ использует библиотеку сложных многосоставных предложений, чтобы проверить, понимает ли машина глубокий контекст или просто слепо меняет местами отдельные слова.

8.3 Экологические испытания

Это произойдет в реальном мире: турист уронит устройство. Жесткое испытание на падение с высоты 1.0–1.2 метра на твердый бетон измеряет структурную целостность пластика и стекла. Проверка температурного диапазона предполагает помещение устройства в печь и морозильную камеру для обеспечения безопасной работы батареи в экстремальных климатических условиях. Вибрационные испытания имитируют сильную тряску, характерную для международной логистики.

9. Сертификация и соответствие

Во-вторых, производитель интеллектуального языкового переводчика должен пройти через огромный объем документации. Без одобрения регулирующих органов нельзя легально продавать электронику. Маркировка CE разрешает продажу устройства по всей Европе. Знак FCC подтверждает его пригодность для американского рынка. Документация RoHS доказывает, что завод использовал экологически безопасные припой и пластмассы.

Строгие испытания на удельную поглощенную мощность (SAR) доказывают безопасность радиочастот вблизи человеческого тела. Сертификация Bluetooth SIG дает нам законное право использовать протокол Bluetooth. Наконец, тестирование PTCRB является обязательным условием, если сотовый модем подключается к североамериканским телекоммуникационным сетям.

10. Производство и массовое производство

10.1 Оптимизация DFM

В-третьих, создать один идеальный прототип легко; создать миллион — невероятно сложно. Оптимизация проектирования для производства изменяет компоновку печатной платы таким образом, чтобы роботизированные сборочные линии могли изготавливать её быстрее. Управление жизненным циклом компонентов гарантирует, что отдел закупок избежит приобретения микросхем, производство которых производитель планирует прекратить в следующем году.

Альтернативная стратегия комплектации предусматривает список резервных поставщиков для каждого резистора и конденсатора. Разработка тестового стенда позволяет заводским рабочим за пять секунд установить материнскую плату в тестовый док-станцию и проверить все функции.

10.2 SMT и сборка

На заводском конвейере начинается следующий этап. В высокоплотном SMT-производстве используются массивные роботизированные манипуляторы, которые наносят микроскопические детали на паяльную пасту. На сборочной линии происходит автоматизированный процесс калибровки звука, в ходе которого роботизированный динамик воспроизводит звуковой сигнал, а микрофон устройства записывает его для подтверждения работоспособности.

Изометрическая блок-схема сборочной линии устройства искусственного интеллекта, отображающая последовательность производственных участков от приема печатной платы до установки компонентов поверхностного монтажа, пайки оплавлением, оптического контроля, прошивки программного обеспечения, калибровки звука и функциональности.

В процессе окончательной прошивки системы последняя версия программного обеспечения записывается непосредственно на микросхему памяти перед тем, как устройство помещается в розничную упаковку.

10.3 Контроль качества

Обратите внимание, что всегда нужно стремиться к идеальному показателю выхода годной продукции. Политика 100-процентного функционального тестирования означает, что человек или робот взаимодействует с каждым отдельным устройством. Проверка аудиозаписи требует, чтобы работник говорил в устройство и проверял качество воспроизведения. Быстрая проверка беспроводной связи подключает устройство к заводскому маршрутизатору, чтобы убедиться в надежном креплении антенн к материнской плате.

11. Результаты проекта

11.1 Технические достижения

Вот что измерили эксперты по завершении проекта. Задержка перевода стабильно оставалась ниже 1.5 секунд, даже в слабых сетях 4G. Мы достигли точности более 95 процентов на основных мировых языках. Стратегия оптимизации энергопотребления позволила обеспечить типичное время работы до 12 часов, что с легкостью позволяет путешественнику перемещаться по иностранному городу от рассвета до заката, не прибегая к зарядке.

11.2 Market Performance

Итак, помимо технических преимуществ, как же устройство продавалось? Оно успешно поступило в продажу через основные розничные сети Европы и Азии. Бренд позиционировал его как премиальное устройство для перевода на основе ИИ среднего и высокого класса. Поскольку мы разработали архитектуру с нуля, вся платформа теперь готова к глубокой персонализации под бренд, выступая в качестве высокодоходного OEM- и ODM-решения для других потенциальных клиентов.

12. Будущее расширение

12.1 Интеграция чата с ИИ

Что ждет платформу в будущем? Мы планируем интегрировать разговорного ИИ-помощника в стиле GPT. Пользователи будут запрашивать у устройства рекомендации по ресторанам или исторические факты о городе, который они посещают. Долгожданная функция составления кратких обзоров деловых встреч позволит устройству-переводчику с ИИ находиться в центре конференц-стола, записывать часовую многоязычную переписку и распечатывать краткое резюме встречи в виде маркированного списка.

12.2 Межплатформенная экосистема

Между тем, автономные устройства должны взаимодействовать с более широкой экосистемой. Синхронизация мобильных приложений будет передавать историю разговоров и сохраненные списки слов непосредственно на смартфон. Интеграция с носимыми устройствами будет передавать входящий переведенный текст непосредственно на экран умных часов. Функция сопряжения умных наушников позволит двум людям носить по одному наушнику, слыша переведенный голос другого человека, шепчущийся прямо им в ухо, в условиях полной конфиденциальности.

Заключение

Создание высококлассного устройства распознавания речи с использованием ИИ требует предельной дисциплины в проектировании аппаратной части и оптимизации программного обеспечения. Необходимо сбалансировать высокие вычислительные потребности нейронных сетей со строгими ограничениями химического состава батарей. Выбирая специализированного производителя устройств для перевода с использованием ИИ, бренды выпускают мощные и надежные инструменты. Затем, используя эту модель, можно занять лидирующие позиции на мировом рынке многоязычных систем перевода.