Saturday 15 July 2017

Hadoop Trading System


Esta cúpula abordará os mais recentes desafios comerciais e tecnológicos que afetam o lado da compra em um cenário financeiro e regulatório em constante mudança, bem como estratégias inovadoras para otimizar a execução comercial, gerenciando riscos e aumentando a eficiência operacional, mantendo os custos ao mínimo. WatersTechnology e Sell-Side Technology têm o prazer de apresentar a 7ª Cúpula anual de arquitetura comercial da América do Norte. Reunindo tecnólogos, arquitetos, desenvolvedores de software e gerentes de centros de dados da comunidade financeira para discutir as últimas questões em tecnologia de negociação. Data: 05 de abril de 2017 New York Marriott Marquis, Nova York Tokyo Financial Information Technology Summit Waters Technology Eu tenho um pouco de problema. Quero aprender sobre o Hadoop e como eu poderia usá-lo para lidar com fluxos de dados em tempo real. Como tal, quero construir um POC significativo em torno dele para que eu possa mostrá-lo quando eu tenho que provar meu conhecimento sobre isso em frente de algum empregador potencial ou para apresentá-lo na minha empresa atual. Também quero mencionar que estou limitado em recursos de hardware. Apenas meu laptop e eu :) Conheço os fundamentos do Hadoop e escrevi 2-3 trabalhos básicos de MR. Eu quero fazer algo mais significativo ou mundo real. Desde já, obrigado. Eu gostaria de apontar algumas coisas. Se você quiser fazer um POC com apenas 1 laptop, há pouco ponto em usar o Hadoop. Além disso, como dito por outras pessoas, o Hadoop não foi projetado para aplicativos em tempo real, porque há algumas sobrecarga na execução de trabalhos MapReduce. Dito isto, Cloudera lançou a Impala, que trabalha com o ecossistema Hadoop (especificamente a metáfora da Colméia) para alcançar o desempenho em tempo real. Esteja ciente de que, para conseguir isso, ele não gera trabalhos MapReduce e está atualmente em versão beta, então use-o com cuidado. Então, eu realmente aconselharia ir no Impala para que você ainda possa usar um ecossistema Hadoop, mas se você estiver considerando alternativas, aqui estão alguns outros frameworks que podem ser úteis: Druid. Foi aberto por MetaMarkets. Parece interessante, mesmo que não tenha usado isso sozinho. Tempestade. Sem integração com HDFS, ele apenas processa os dados conforme vem. HStreaming. Integra-se com o Hadoop. Yahoo S4. Parece muito perto de Storm. No final, acho que você realmente deveria analisar suas necessidades e ver se o uso do Hadoop é o que você precisa, porque é apenas começar no espaço em tempo real. Existem vários outros projetos que podem ajudá-lo a alcançar o desempenho em tempo real. Se você quer idéias de projetos para mostrar, sugiro olhar para este link. Ela é alguns exemplos: FinanceInsurance Classifique as oportunidades de investimento como boas ou não, p. ex. Com base em métricas da indústria, diversidade de portfólio e risco cambial. Classifique as transações do cartão de crédito como válidas ou inválidas, por exemplo, eq. Localização da transação e titular do cartão de crédito, data, valor, item ou serviço adquirido, histórico de transações e transações similares. BiologiaMedicina Classificação das proteínas em classes estruturais ou funcionais Classificação diagnóstica, e. Tumores de câncer baseados em imagens Classificação e Classificação de Documentos da Internet Classificação de malware, classificação de spam de email Sistemas de produção (por exemplo, em indústrias de energia ou petroquímicas) Classificar e detectar situações (por exemplo, manchas doces ou situações de risco) com base em dados históricos e reais de sensores atendidos em 12 de janeiro de 13 Às 17h50. Se você quer sujar as mãos em um quadro de transmissão altamente promissor, experimente a transmissão de BDAS SPARK. Cuidado, isso ainda não foi lançado, mas você pode brincar no seu laptop com a versão github (githubmesossparktreestreaming). Existem muitas amostras para você começar. Além disso, tem muitas vantagens em relação aos frameworks existentes, 1. Isso lhe dá uma capacidade de combinar computação em tempo real e em lote em uma pilha 2. Isso lhe dará um REPL onde você pode tentar suas consultas ad hoc de forma interativa. 3. Você pode executar isso em seu laptop no modo local. Há muitas outras vantagens, mas estas três, acredito, bastará com sua necessidade de começar. Você pode ter que aprender scala para experimentar o REPL :-( Eu acho que você pode ter um POC em execução, por exemplo, um algoritmo onlinerecursive para regressão no mapreduce. Mas lembre-se que isso só provará que sua regra de aprendizagem funciona. Talvez (nunca Tentou isso), você pode usar os resultados em tempo real, dizendo aos seus redutores que os escrevam em um arquivo temporário que pode ser lido por outro tópico. Além disso, o Mahout permite que você configure seu banco de dados em vários SequenceFile s. Você pode usar isso para simular Um fluxo on-line e classifique o seu conjunto de dados on-line. Você pode copiar parte dos dados para a pasta com os outros dados antes que o algoritmo comece a ser executado. O Mahout in Action detalha como fazer isso. Veja se um dos seguintes conjuntos de dados é para o seu Gosto: archive. ics. uci. edumldatasets. html respondeu 7 de abril 13 às 16:35 Eu estava procurando algo assim: são problemas bem definidos, muitos deles problemas de dados grandes. E alguns deles exigem processamento em tempo real. Mas Graças a todos os que responderam D. Respondeu 13 de janeiro 13 às 13:16 Kaggle é um bom recurso. É na área de análise analítica e não necessariamente todos os problemas são um bom ajuste para Map ReduceHadoopBig Data. Mas eu acho que Mahout (parte do ecossistema hadoop) seria algo que eu tentaria para competições relevantes. Ndash parasdoshi 14 de janeiro de 13 às 3:11 de acordo. Então, o que você sugere ndash Kumar Vaibhav 14 de janeiro 13 às 4:47 Eu tinha uma consulta relacionada como você tinha. Eu queria criar um POC significativo também. Eu estava procurando por isso e aterrei a este fio de SO. Vamos esperar que alguém nos aponte para algum recurso. Enquanto isso Pessoalmente, eu completei jogando com amostras aqui: getstarted. hadooponazure ndash parasdoshi 14 jan 13 às 18:26

No comments:

Post a Comment