Трейдерский Клуб

Общение о рынках, рисках и жизни. Без пиара и без рекламы. Здесь рады только своим.

Проект DataServer (тики, минутки...)

Проект DataServer (тики, минутки...)

Сообщение Clawfinger » Чт сен 07, 2017 3:02 pm

VovaM писал(а):Привет всем!
Суть
Мы ищем новых участников старого проекта DataServer - сбор и хранение истории котировок. Из платных источников - в основном мы накапливаем IQFeed и PremiumData (акции, облигации).
Мы существуем с 2010 года, нас примерно 20 человек - кто то более активный, кто то нет.
У нас есть "естественный отток" (1-2 человека в год) и мы хотели бы немного расшириться (раза в 2), что бы покупать новые данные и хранить их надёжнее.
Мы 100% некоммерческое объединение, единственная цель - сбор экономических и биржевых данных и совместное использование в личных целях (трейдинг, анализ).
Мы стараемся найти тех: 1. для кого это долгосрочное дело 2. для кого ежемесячные платежи не в тягость 3. кто может поделиться своими скилзами (в основном программистскими - конвертеры-качальщики данных и тп)
Поэтому мы всегда интересуемся теми, кто хочет быть с нами. Просто общение, общее раскрытие информации о себе (все виды id - не интересны, идеи из трейдинга - не интересны). Но что бы был "наш" человек.
Цена вопроса: входной билет $300 и ежеквартально примерно 1800руб. Ежеквартальные платежи зависят от курса.
Гарантии: никаких. Пожалуйста учтите это. Мы некоммерческий проект. Собираем данные как можем. Кладём на сервер, даём доступ. Всё. Мы уже так существуем 7 лет в почти неизменном виде. Но гарантий никаких.
Просьба: если возможно распространите это сообщение среди те, кому это возможно будет интересно. У меня вроде как нет экаунта (или забыл) от смартлаба и прочих российских известных форумов, так что продублируйте туда плиз если моих рук не хватит.
Замечание: я(мы) отвечаю(-ем) медленно и лениво, просим на нас (меня) не обижаться.

Подробности.

Данные
. Что у нас есть.
На сегодняший момент мы накопили историю unadjusted тиков* IQFeed (фьючерсы, американские и канадские стоки) -с 2010 (с начала 2011 все акции), минутки тех же инструментов (с 2007).
Плюс индексы (тики с 2011, минутки с 2007). По фьючам качается вся кривая (все контракты) и склейки самого IQFeed (не думаю что они хороши, так что лучше самому). Фьючерсы (типы) качаются не все, но абсолютное большинство. Просто что бы не захламлять. Всё что хоть немного ликвидное. Даже спреды качаются (хотя и не ежедневно, но еженедельно)
Акции пишутся as is, вповалку. Raw. После изменения тикера компании остаётся и старая история и новая (под новым тикером) - они перехлёстваются, т.к. новый тикер выкачивается настолько вглубь насколько возможно. Если через N лет умерший тикер стал использоваться новой компанией - пишется в тот же файл (точнее не совсем тот - см . ниже).
Всё хранится в текстовом формате. Есть планы на MongoDB, но пока это текстовые файлы. Тики хранятся нарезкой по годам. Условно MSFT_201212.csv это за 2012 год (в подкаталоге \2012). MSFT_0.csv это сейчас активный год куда пишется "эфир". Где то в районе лета каждого года от MSFT_0.csv отрезается история за прошлый год и переносится в (например) папку \2017 под файлом MSFT_201712.csv. Некоторые файлы тиков имеют размер в гигабайты. Т.к. пишется всё -то и delisted разумеется есть.
Минутки не режутся. Некоторые файлы-минутки имеют размеры в сотни мегабайт.

Форекс из IQFeed не качаем, хотя было время. Но уже не качаем. Зато качаем минутки и тики с Дукаскопи (что то с 2010 года или раньше - не помню). Тоже в текстовиках.Это бесплатно, но хоть в одном месте.
Также мы купили у tickdata.com и ещё у одного провайдера тиковую историю по избранным американским фьючам (штук 20) с 2003-2005 гг. по 2010.В 2010 IQfeed мы настраивали и не всё гладко было, вот что бы tickdata покрывало это историю поэтому купили.
Ну и по мелочи копим листы активных тикеров с IQfeed (added, deleted, changed), какие то индексы с блумберга и MSCI. Тоже довольно-таки as is.

Старые данные стараемся не перезаписывать. Имеется в виду правка задним числом каких то спайков или леваков. В реальной жизни T&S всё это есть и алго на это активно реагирует. Так что алго нужно писать правильно, а не данные подстраивать. Ну и геморно это. Нет столько ресурсов.

Качаем что то из бывшей системы MICEX (USDTOD\TOM) и хранится старый (до закрытия ) FORTS. Т.е. в целом на россию мы не ориентированы почти совсем. Если кто то захочет поднять это направление...
Пишем мы конвертеры и качальщики на C# и python.
Ну вроде всё.

Обновляется всё ночью по msk.

А ну ещё LSE, но это относительно недавно. Тики и минутки. Как и всё в IQFeed unadjusted

Способ доставки- синхронизации
.

Мы используем rsync под Windows (с XP проблемы, начинается с 7ки - норм) - cygwin, и нативный - под линукс. Канал связи OpenVPN (старый, уходим от этого) или SSH (нативный ssh - линукс, plink.exe в скрипте для Windows).
Т.е. это утилита командной строки.
Ничего другого (примерно 3 терабайта данных) нормально с такими данными не работает.

Пару заключительных слов
Мы рассчитываем, что наши будущие участники понимают - такой объём данных без знания программирования "не осилить". У нас бывали участники, которые сначала обрадовались низкому порогу входа, скачали данные... а понять что с ними делать не смогли. 90% участников рынка работают с "парой фьючерсов и 10 акциями" (утрирую). Им мы - не нужны. Обладание такими данными не даёт никаких преимуществ для тех, кто не умеет с ними работать. Вы попросту выкинете деньги. А мы потеряем время на общение с вами. Никакой выгоды никому. Поэтому просьба - обращаться тем кому реально нужно всё это. А также тем, кто не пугается словам rsync,ssh,openvpn,C# и python

С наилучшими!
email временный во избежания спама

dataserver
собака protonmail.com


* также включает в себя бидаски на момент совершения сделки и корд сделки для акций, включая вне торговые часы, включая миллисекунды
Clawfinger
Вечно бродячий ученик
 
Сообщения: 223
Зарегистрирован: Ср янв 12, 2011 10:33 pm
Откуда: С берегов Днепра.

Вернуться в PUB: Вопросы и Ответы

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1