Wikidata представила новую векторную базу данных для ИИ Обложка: Skyread

Wikidata представила новую векторную базу данных для ИИ

Новости
Главное:

  • Викиданные (Wikidata) получили новую векторную базу данных, оптимизированную для обработки ИИ-моделями.
  • Немецкое отделение Wikimedia использовало масштабную языковую модель для преобразования 30 миллионов записей в векторное представление.
  • Проект направлен на создание равных условий для всех разработчиков ИИ, включая небольшие компании без больших ресурсов.

Дочерний проект Wikimedia — платформа Wikidata — обзавелась новой базой данных, выполненной в векоторном формате, что значительно упрощает её обработку моделями искусственного интеллекта. Обновление было проведено немецким подразделением Wikimedia Deutschland, ответственным за развитие Wikidata. В рамках работы команда применила масштабную языковую модель для преобразования около 30 миллионов записей с информацией в контекстно-зависимые векторы, способные отражать смысл каждой записи.

Векторизация обеспечивает более удобное представление данных в виде графа, где точки и связи между ними иллюстрируют контекстуальную взаимосвязь элементов. По словам Лидии Пинчер, руководителя портфолио Wikidata, такое предсталение открывает новые возможности для разработчиков ИИ, облегчая доступ к этой базе данных при создании, например, собственных чат-ботов. Цель проекта заключается в уравнивании шансов для всех участников рынка искусственного интеллекта, включая стартапы и небольшие компании, которые не обладают ресурсами крупных игроков вроде OpenAI или Anthropic для самостоятельной векторизации данных.

В качестве примера использования векторизованных данных Пинчер приводит проект Govdirectory, который использовал информацию из Wikidata для поиска социальных сетей и адресов электронной почты государственных служащих по всему миру. Команда надеется, что упрощённый и быстрый доступ к векторной базе данных позволит создавать системы ИИ, более точно работающие с узкоспециализированными темами, которые плохо представлены в глобальной сети.

Технически преобразование производилось с помощью модели, разработанной компанией Jina AI, специализирующейся на технологиях искусственного интеллекта, а инфраструктуру для хранения новой векторной базы бесплатно предоставляет IBM DataStax. Руководитель проекта по интеграции ИИ в Wikidata Филипп Сааде отмечает, что векторное представление концентрируется на общей идее элемента, поэтому мелкие изменения в данных несущественно влияют на итоговые векторы.

После получения отзывов от сообщества разработчиков планируется обновить базу новыми данными, добавленными за последний год. Ранее в 2023 году Wikimedia также активно работала над оптимизацией ресурсов Wikipedia в условиях увеличившихся запросов от искусственного интеллекта, выпустив специально структурированные наборы данных и подключившись к платформе Kaggle для распространения этих данных среди исследователей в области машинного обучения.

Tagged