«Русскому искусственному интеллекту нужен английский язык»

Почему перевод зарубежных материалов полезен для отечественных нейросетей

Генеративный искусственный интеллект все глубже проникает в науку, медицину и промышленность, помогая анализировать данные, прогнозировать события и автоматизировать процессы. Его развитие напрямую зависит от количества и разнообразия данных, используемых для обучения моделей. Простым языком — чем больше данных, тем мощнее нейросеть и тем проще ее применять.

Роман Душкин

Роман Душкин

Фото: Кристина Кормилицына / Фотохост-агентство РИА Новости

Роман Душкин

Фото: Кристина Кормилицына / Фотохост-агентство РИА Новости

Руководитель образовательной программы «Искусственный интеллект и моделирование когнитивных процессов в проектировании и разработке информационных систем» НИЯУ МИФИ, генеральный директор ИТ-компании «А-Я Эксперт» Роман Душкин рассказал «Ъ-Науке», почему перевод — инвестиция в будущее российского ИИ.

Англоязычные модели, такие как GPT (OpenAI), Claude (Anthropic) и Gemini (Google), обучаются на колоссальных массивах текстов на английском языке, включая научные публикации, техническую документацию и код, что обеспечивает им высокую аналитическую точность и способность решать сложные задачи. Раньше считалось, что этот процесс требует и значительных финансовых затрат — например, на создание ChatGPT-3 ушло $1,4 млн.

Но, как показал опыт китайских разработчиков, стоимость процесса обучения можно значительно снизить за счет более эффективного использования ресурсов. Тем не менее сократить массив данных, сохранив мощность ИИ-модели, невозможно: чем меньше информации получает нейросеть, тем слабее ее аналитические способности и точность ответов. Например, модель DeepSeek обучалась на колоссальном массиве данных — 14,8 трлн токенов (условных языковых единиц), что и послужило е успеху на рынке ИИ-технологий.

Большая часть данных для обучения — англоязычная. Это неудивительно, ведь английский — доминирующий язык науки, технологий и интернет-контента: более 50% всей информации в интернете представлено именно на нем. Это дает преимущество англоязычным ИИ-моделям: нейросети качественнее анализируют и обрабатывают запросы на том языке, на котором они были обучены.

В глобальном контексте доминирование англоязычного контента, создает асимметрию в возможностях больших языковых моделей. Это порождает эффект положительной обратной связи: успешные модели стимулируют рост англоязычного контента, который, в свою очередь, усиливает их развитие, оставляя другие языковые сегменты в условиях хронического дефицита данных.

Зарубежная индустрия искусственного интеллекта уже сталкивается с кризисом данных для обучения: существующие модели поглотили доступные англоязычные материалы, а темпы генерации нового контента замедляются, поэтому и создаются модели типа GPT-o1 и GPT-o3 для создания синтетических данных высокого качества. Эти данные помогают сохранить текущие темпы обучения моделей.

Вполне понятно, на каком естественном языке эти синтетические данные будут создаваться. Для российских больших языковых моделей эта проблема усугубляется ограниченным объемом специализированных русскоязычных данных, особенно в узких научных и технологических областях. Это напрямую влияет на их способность решать сложные научные и технологические задачи. Например, более 95% исследований в наукометрических базах данных Scopus и Web of Science публикуются на английском языке, а ключевые алгоритмы машинного обучения, публикуемые технологическими гигантами — Google, Microsoft, OpenAI, также представлены исключительно на нем же.

Отсутствие доступа к актуальным данным ставит под угрозу не только конкурентоспособность отечественных решений в области искусственного интеллекта, но и перспективы научных открытий, подобных AlphaFold, который уже сейчас используется для совершения прорывов в биологии благодаря обучению на передовых исследованиях.

Это создает эффект ускоренного развития науки и технологий в англосфере. Современные большие языковые модели все активнее интегрируются в исследовательские процессы, усиливая когнитивные возможности ученых и научных коллективов: от автоматизации анализа данных до генерации гипотез и оптимизации экспериментов. Однако таким образом — возникает риск монополизации технологического лидерства.

По мнению экспертов, потенциал отечественных данных еще не исчерпан. Но учитывая, как стремительно развиваются модели, даже отечественные ресурсы могут скоро закончиться. И если этот момент не предупредить, уже в ближайшие годы отечественные нейросети столкнутся с той же проблемой, что и зарубежные, и значительно отстанут от ИИ-моделей конкурентов.

Систематический перевод и адаптация англоязычных материалов становятся стратегической необходимостью для устойчивого развития российских больших языковых моделей. Интеграция переведенных научных статей, технической документации и исследований позволит нашим нейросетям работать с актуальной информацией. Это повысит их аналитическую точность, способность выдавать более связные и осмысленные ответы и расширит области их применения. Кроме того, это создаст основу для подготовки высококвалифицированных специалистов, способных развивать технологии в условиях растущей конкуренции.

Доля нашего языка составляет всего около 4,5%, и этот разрыв может продолжить увеличиваться. Игнорирование необходимости перевода приведет к усилению разрыва между отечественными и зарубежными большими языковыми моделями, ограничив возможности их использования в науке, промышленности и бизнесе. Только системная работа по оцифровке и интеграции международного знания позволит избежать кризиса данных, сохранить конкурентоспособность российской индустрии искусственного интеллекта и обеспечить ее роль в глобальной технологической повестке.

Мария Грибова