Archiv für die Kategorie data science
REGISTRATION STARTED – 2. Data Science Day, August 22, Berlin
Veröffentlicht von dakoller in data science am 16. Juli 2012
REGISTRATION STARTED – 2. Data Science Day, August 22, Berlin.
1. Data Science Day was a great event … so the next upcoming one is worth a visit too. The focus topic will be Game Analytics.
I heard rumors about an idea to got to Munich for one of the next Data Science Days… do you have any feedback ? Any special focus topics you think of?
1. Data Science Day in Deutschland: ein kurzer Review
Veröffentlicht von dakoller in data science am 13. Juni 2012
Am 6.6. fand in Berlin der erste Data Science Day in Deutschland statt: organisiert hat ihn Klaas Bollhöfer (@klabol)… aber das war nicht die erste Aktion zum Thema: der Data Science Day war aber der erste Höhepunkt einer aktiven Communityarbeit (auf XING) seit Januar , die die dort mittlerweile 92 Mitglieder einbindet.
(Ein gutes Zeichen ist auch, daß mittlerweile auch deutsche Unternehmen die Relevanz offensichtlich verstanden haben, was man daran sehen kann, dass sie Mitarbeiter dort teilnehmen liessen und das Event auch gesponsert haben, z. B. @Immobilienscout, @Wooga)
Bedeutend ist, daß wir letzte Woche an einem Platz 70 Gäste da hatten, die den ziemlich breiten Raum des Begriffs Data Science ziemlich komplett ausgeleuchtet haben. (Vorher hatte ich hier manchmal das Gefühl, in einem sehr exotischen Feld zu arbeiten)
Die Bandbreite der Themen ging von
- Frameworks und Tools (z.B. Hadoop, Twitter Storm),
- Handling von strukturierter und unstrukturierter Information (z.B. bessere Suche, Inhaltsanalyse und Zusammenfassungen von Text mit den interessanten Übergängen ins Semantic Web) über
- die Relevanz von Open Data (als Basis für öffentliche Informationsangebote und aufrüttelnde Unterstützung für Kampagnen () bis hin zu
- Visualisierungen.(z.B. auf Basis von Processing).
Der Vormittag war gefüllt von gesetzten Präsentationen ( Agenda unter http://de.amiando.com/datascienceday.html) : gut war, daß Klaas die so kurz halten konnte, daß viel Raum für Diskussionen blieb. Am Nachmittag ging es drei parallel laufenden und kleineren Gruppen um
- sehr technische Fragen, (“was macht man mit Twitter Storm?”),
- visionärere Themen (“was kann man noch mit XYZ machen?”) und
- eine Gruppe zum Thema Texthandling und Open Data-Nutzung.
Aus diesem Tag habe ich folgende Beobachtungen mitgenommen
- die meiste Relevanz hat das Thema Data Science im Moment wohl im Advertising-Markt: da geht es häufig, um sehr schnelle Antworten, die nicht irgendwann zu beantworten sind, sondern genau dann wenn der Webseiten-Besucher auf meiner Seite ist. (Auch wenn es für meinen ‘Traum’ von für mich sehr relevanter, weil auf meine Interessen zugeschnittene, Werbung wohl noch zu früh ist.)
- Kurz danach kommt das Thema von unstrukturierter Information: hier fällt mir auf, daß z.B. im Vergleich zu den USA (wo ich im Februar auf der StrataConf war) das Thema hier wichtiger zu sein scheint.
- Im Moment nutzen hauptsächlich junge und eher kleinere Unternehmen Kompetenz zu dem Thema Big Data/Data Science: in etablierten & größeren Unternehmen, die zwar die Daten hätten (die sich ein Startup ziemlich mühsam sehr beschaffen oder erzeugen muß), ist das Thema wohl noch nicht angekommen.
- Aus der Perspektive eines Startupgründers ist klar, daß aus eigenen Aktionen gewonnene Daten und Analysen essentiell (oder zumindest wichtig) für die Geschäftsentwicklung sind. Ein gutes Beispiel dafür sind die Münchner @10stamps (kurz eine App digitale Stempelkarten), die vermutlich mittlerweile mehr Überblick über meinen Kaffeekonsum als ich selbst haben.
- Das Thema Tools für BigData ist auch noch ein guter Platz, auf dem sich neue Startups ausprobieren können: hier haben für mich Ansätze die Nase vorne, die einem Analysten/Geschäftsentwickler die Tools selbst in die Hand geben, neue Einsichten zu gewinnen. (anstatt für jede neue Fragestellung einen Entwickler suchen zu müssen). Der nächste Entwicklungsschritt sind Tools, die dem Nutzer nicht mehr Zahlenwüsten (z.B. in Powerpoint-Form) vorsetzen, sondern (mutmasslich) neue Einsichten (wie Veränderungen in Mustern & Trends) direkt in die Hand geben.
Zusammengefasst: ein Tag voll von neuem Information und Diskussionen: der nächste Data Science Day findet in 3-4 Monaten statt und wird sich schwerpunktmässig mit dem Thema Analytics in Online-Games befassen.
The R-Podcast Episode 6: Importing Data from External Sources
Veröffentlicht von dakoller in data science am 1. Mai 2012
R-bloggers
viaThe R-Podcast Episode 6: Importing Data from External Sources. …is an excellent summary of how to get external data into R.
I recently needed to get JSON-formatted data in R (as people argue that you should use JSON for most of the data transaction needs in the web area, even for e.g. log file content like in http://blog.treasure-data.com/post/21881575472/log-everything-as-json-make-your-life-easier ), where I found http://stackoverflow.com/questions/2617600/importing-data-from-a-json-file-into-r handy.
Machine learning for identification of cars
Veröffentlicht von dakoller in data science am 23. April 2012
This is a handy getting started guide for computer vision using R from e.g. surveillance cameras, as all the with R-bloggers: it contains the needed source code.
How to work with Google n-gram data sets in R using MySQL
Veröffentlicht von dakoller in data science, google am 12. April 2012
How to work with Google n-gram data sets in R using MySQL. via R-Bloggers: I like really much about this blog the focus interesting things along with code examples to try it out on your own.
N-Grams datasets can also be created from your own texts using NTLK functions (see http://nltk.googlecode.com/svn/trunk/doc/howto/collocations.html ): in analytical use cases N-grams give you a better basis to have a machine ‘understand’ the meaning of a text (compared to looking at the words individually.
—Update from 2012-04-10:
Stefan Keller ( http://twitter.com/sfkeller ) hinted me to a blog entry about how to use n-grams in a PostgreSQL based setting to optimize search functionality.
knitR: Report-Generierung mit R
Veröffentlicht von dakoller in data science am 12. April 2012
knitR: Report-Generierung mit R
In Projekten zur Datenauswertung ist es häufig relevant, die Ergebnisse zeitnah ansprechend dokumentieren zu können. Ein gute Weg dabei, den Fortgang der Experimente und deren Ergebnisse in einem dynamisch generierten Dokument zu verfolgen: dabei kann knitR helfen.
knitR bügelt einige Schwächen der Sweave-Lösung (http://www.statistik.lmu.de/~leisch/Sweave/ ): insbesondere können gut aussehende Grafiken besser eingebaut werden.
Weitere Infos zum Tool finden sich unter http://www.inside-r.org/howto/knitr-elegant-flexible-and-fast-dynamic-report-generation-r , eine Beispielausgabe ist unter http://cloud.github.com/downloads/yihui/knitr/Stat615-Report1-Yihui-Xie.pdf zu sehen.
A response to “The race for speed at the data layer” re. SAP HANA
Veröffentlicht von dakoller in data science, sap am 7. April 2012
I just wanted to post some remarks to the very interesting blog from David Smith, as I was able to take a deeper look to the HANA appliance:
- I agree with the statement that tool providers focus today on ‘high-performance analytics’:But the most important steps in the SAP-/ERP-world is still to be done: too much of analytics domain information is today deeply buried in application code, BI tools from the past were merely seen as pure inspection tools to this information.
- SAP is about to place more application logic on the database layer, which in perspective enables more of David’s “more than just basic analytics”: the usage of (optimizable) prediction models could be possible then.
- (I remember especially a very interesting use case for “more than just basic analytics” from an SAP discussion: appliances like HANA with specific application functionality enable a production company/facility to evaluate the ‘best’ scenario of how to fulfill orders in taking into account the bills of material and facts like availability of parts in case of limitations.)
SAP in fact announced formal R integration:
- The so called “HANA pocketbook” ( at https://www.experiencesaphana.com/servlet/JiveServlet/previewBody/1436-102-1-1946/SAP%20HANA%20Pocketbook-DRAFT.pdf ) describes the high level picture of R integration (starting on p. 59).
- Alvaro Tejada ( @blag ) posted a number of blogs on R integration with HANA: http://scn.sap.com/people/alvaro.tejadagalindo3 I consider him to be the R-mastermind inside SAP.
The complete R integration was not present in the previews of HANA I have seen: the key to the success of R in the SAP world is to which level constraints for R are in place: e.g. whether all the nice machine learning/hadoop enablers for R can be used. ( only a small-scale R-language support would not be sufficient for these use cases.
Business idea: Put touristic activities in personal travel planning
Veröffentlicht von dakoller in business ideas, data science, nlp, Semantic Web am 2. April 2012
I’ll start with this blog entry a session of business ideas, which come up near me… which I cannot pursue at the moment, but are maybe interesting for others.
Tagline: Offer spare time activities to people planning a trip fitting to their interests and their personal time planning.
Technology: Mashup of APIs used from travel planning tools (like tripit.com or dopplr.com ) and crawled/stored information about events, touristic activites etc. based on user profiling e.g. from Facebook Likes.
Business models: mainly affiliate model (bringing guests to organizers of events/tour organizers)
Martin Hepp ( @mfhepp ), the author of the GoodRelations vocabulary for eBusiness, just posted a cookbook entry to show how business entities offering travel activities (outdoor, concerts etc.) can publish this information in a machine-readable way.
(I think) for this reason he defined the Ticket Ontology to describe events, activities and their business impact.
But for the time being (as long as not many travel organizer make their activities machine-readable) a crucial technical part is the collection of travel activites and making / keeping connections with these business entities offering activities.
Even this idea can make use of BigData analysis techniques: you can initially optimize and later predict, which kind of activity is attractive to which group of users. (a use case of customer segmentation).
Designing great data products – Summary blog from #StrataConf
Veröffentlicht von dakoller in data science am 29. März 2012
O’Reilly Radar – Insight, analysis, and research about emerging technologies.
viaDesigning great data products.
…the session with this title was one of the best sessions at this years StrataConf.