Куда уходит ваш голос после облачного рекордера
Вы поставили рекордер для звонков. Он подключился к вашему Zoom, затранскрибировал всё и выдал аккуратное саммари со списком задач. Удобно.
Но вы задумывались, куда делось аудио?
Стандартный пайплайн
Вот как работает большинство облачных рекордеров:
- Аудио захватывается на вашем устройстве
- Загружается на серверы сервиса (обычно AWS или GCP)
- Модель распознавания речи транскрибирует его на их инфраструктуре
- LLM (GPT-4, Claude или аналог) суммирует транскрипт
- Результат возвращается к вам
Шаги со 2 по 4 происходят на чужом компьютере. Ваш приватный разговор — обсуждение зарплаты, визит к врачу, юридическая стратегия, ссора с партнёром — лежит на сервере, который вы не контролируете.
Что на самом деле написано в политиках приватности
Я прочитал политики приватности, чтобы вам не пришлось. Вот что обычно сообщают популярные облачные рекордеры:
Полностью облачные сервисы хранят записи и транскрипты на своих серверах. Используют «стандартные для отрасли меры безопасности» (формулировка, которая не значит почти ничего). Могут использовать агрегированные данные для улучшения сервиса. Ваши данные могут обрабатываться сторонними субпроцессорами — включая крупных облачных провайдеров и API-сервисы ИИ.
Некоторые сервисы хранят данные на протяжении всего срока действия аккаунта, и часть данных может сохраняться даже после удаления.
Гибридные сервисы занимают интересную промежуточную позицию — заметки остаются локально, но AI-обработка идёт через их серверы. Транскрипт проходит через чужую инфраструктуру, даже если итоговые заметки живут на вашей машине.
Это не значит, что эти компании — злоумышленники. Они предоставляют продукт, и облачная обработка — самый простой способ это сделать. Но «простой» и «безопасный» — разные вещи.
Реальные риски
Утечки случаются
Облачные сервисы взламывают. Вопрос не «если», а «когда». Когда ломают рекордер звонков, злоумышленники получают не ваш пароль — они получают часы ваших нефильтрованных разговоров.
У сервисов медицинской транскрибации уже были задокументированные утечки — неправильно сконфигурированные API, открытые базы данных, недостаточный контроль доступа. Когда в утечке оказываются записи сеансов психотерапии и психиатрических обследований, «стандартные для отрасли меры безопасности» — слабое утешение.
Ваш голос обучает модели
Некоторые сервисы используют ваше аудио и транскрипты для обучения или дообучения своих моделей. Обычно это спрятано в пользовательском соглашении за формулировками вроде «улучшение наших сервисов» или «разработка новых функций».
Как только ваши голосовые данные попали в обучающий датасет, их нельзя «разучить». Они там навсегда, вмешанные в веса модели, которую будут использовать миллионы людей.
Субпроцессоры множат риски
Когда сервис пишет, что использует «субпроцессоров», ваши данные лежат не только на их серверах. Они на AWS. На API OpenAI. На серверах того сервиса транскрибации, с которым они заключили договор. Каждый промежуточный узел — это ещё одна организация со своими практиками безопасности, своими сотрудниками с доступом, своим риском утечки.
Метаданные — тоже данные
Даже если аудио зашифровано, метаданные — кто кому звонил, когда, сколько длился звонок, как часто — рассказывают историю. Рекрутер звонит конкуренту три раза за неделю. Адвокат звонит конкретному эксперту перед судом. Сотрудник звонит в HR в 11 вечера в пятницу.
«Мне нечего скрывать»
Может, и нечего. А людям на другом конце провода? Коллега обсуждает проблемы со здоровьем. Клиент делится конфиденциальной бизнес-информацией. Друг жалуется на начальника.
Когда вы используете облачный рекордер, вы принимаете решение о приватности не только за себя, но и за всех участников разговора. Не спрашивая их.
Вдумайтесь в это.
Альтернатива: обрабатывать всё локально
Технология для защиты ваших разговоров — не гипотеза. Она работает прямо сейчас, на железе, которое у вас уже есть.
Современные Mac на Apple Silicon имеют достаточно мощные GPU и нейронные движки, чтобы запускать распознавание речи и языковые модели локально. Open-source модели для транскрипции и суммаризации доступны и активно развиваются. macOS предоставляет системные API для захвата аудио из любого приложения.
Весь пайплайн — захват, транскрипция, суммаризация — может работать на вашем ноутбуке, и ни один байт не покинет машину. Подробнее о том, как устроен захват аудио на macOS, — в статье как записать звонок на Mac.
«Но облачный AI лучше»
Правда? Для каких-то задач — да. Облачные модели пишут маркетинговые тексты лучше, чем компактная локальная. Но для саммари звонков — выделить задачи, ключевые решения, договорённости из транскрипта — компактная локальная модель справляется на удивление хорошо.
Вопрос не «какая модель лучше?», а «стоит ли разница в качестве того, чтобы отправлять ваши приватные разговоры на чужой сервер?»
Для большинства людей — нет.
На что обращать внимание при выборе рекордера
Если вам это важно (а раз вы дочитали досюда — видимо, важно), вот что стоит проверить:
- Работает ли он офлайн? После первоначальной настройки — можно ли выключить WiFi и по-прежнему записывать, транскрибировать, суммировать? Если нет — ваши данные куда-то уходят.
- Нужен ли аккаунт? Если для использования локального рекордера нужно создавать учётную запись — спросите себя, зачем. Что они отслеживают?
- Можно ли проверить? Запустите Little Snitch, Lulu или любой сетевой монитор. Если приложение устанавливает соединения во время записи — оно не по-настоящему локальное.
- Где лежат файлы? Ваши записи должны быть обычными файлами на диске — WAV, M4A, текст. Не в проприетарной базе данных, из которой невозможно экспортировать.
Ваши разговоры — это ваши разговоры. Пусть так и будет.
Есть версия, которая не выходит за пределы вашего Mac.
Stenografista записывает, транскрибирует и суммирует звонки полностью на вашем устройстве. После однократной загрузки модели работает полностью офлайн. Без серверов, без аккаунтов.
Скачать для macOS