- Разработана языковая модель TimeCapsuleLLM, обученная на британских текстах 1800–1875 годов.
- Модель не содержит современных знаний, что исключает появление упоминаний о событиях после викторианской эпохи, например, Илоне Маске или интернете.
- Проект использует метод Selective Temporal Training, представляющий собой обучение с нуля на исторически отобранном корпусе текстов.
Независимый разработчик Айк Григорян создал уникальную языковую модель под названием TimeCapsuleLLM, обучавшуюся исключительно на текстах Великобритании периода 1800–1875 годов. Это позволило получить искусственный интеллект, лишённый современных знаний и предубеждений. Такая особенность модели обусловлена невозможностью для неё упоминать события и персонажей, появившихся после викторианской эпохи, например, интернет или Илона Маска. Код и веса моделей опубликованы на платформе Hugging Face.
Григорян обозначил свой подход как Selective Temporal Training. В отличие от методов файн-тюнинга существующих моделей, где современные данные остаются частью модели, здесь нейросеть обучается с нуля на строго выбранном хронологическом корпусе. Это обеспечивает чистоту исторического контекста и предотвращает появление современных знаний, которые могли бы повлиять на ответы.
Обучающий датасет последней версии содержит порядка 90 гигабайт текстовых данных из 136 тысяч документов — книг, газет и юридических документов, изданных в лондонском регионе в XIX веке. Основные источники — тексты из публичного домена, в основном взятые с Internet Archive. Первые версии модели работали на видеокарте RTX 4060 и обучались на относительно небольшом объёме текста, а более продвинутым моделям потребовались вычислительные ресурсы уровня A100.
В качестве доказательства успешности подхода Григорян привёл эксперимент с версией модели на 700 миллионах параметров. После запроса «It was the year of our Lord 1834» модель выдала связанный текст, описывающий протесты в Лондоне и упоминающий лорда Пальмерстона — события, действительно происходившие в этом году в истории. Таким образом, модель не создаёт вымышленных или искажённых данных, а воспроизводит исторический контекст из обучающего корпуса.
Несмотря на то, что проект находится в экспериментальной стадии — ранние версии выдавали бессвязные выводы, а в более новых порой встречаются артефакты оптического распознавания текста (OCR) — сама идея представляет интересные перспективы. Среди них — создание специализированных инструментов для авторов исторической прозы или исследование влияния современных данных на когнитивные процессы языковых моделей.
