Archiv für die Kategorie data science

Using django-social-auth with the XING api … oAuth in action!

This blog is about how to connect to the XING API via oAuth: my use case was to implement a “Login with XING” option in a web application.

XING is the european pendant to LinkedIn as social network for professionals, so there are bunch of people, who are using these two networks in order to maintain their connections ( datenprodukt.dakoller.net might provide a helper for this challenge ) . Luckily for me, XING started with an API in closed beta state (signup at https://dev.xing.com/).

My setup is a Django-based web application hosted on Heroku, and I am using the last stable version 1.4.1.

This blog is about what I needed to integrate with the app, how I adapted the connection and how I can use it now. Den Rest des Beitrags lesen »

, , , ,

Hinterlasse einen Kommentar

REGISTRATION STARTED – 2. Data Science Day, August 22, Berlin

REGISTRATION STARTED – 2. Data Science Day, August 22, Berlin.

1. Data Science Day was a great event … so the next upcoming one is worth a visit too. The focus topic will be Game Analytics.

I heard rumors about an idea to got to Munich for one of the next Data Science Days… do you have any feedback ? Any special focus topics you think of?

 

Hinterlasse einen Kommentar

1. Data Science Day in Deutschland: ein kurzer Review

Am 6.6. fand in Berlin der erste Data Science Day in Deutschland statt: organisiert hat ihn Klaas Bollhöfer (@klabol)… aber das war nicht die erste Aktion zum Thema: der Data Science Day war aber der erste Höhepunkt einer aktiven Communityarbeit (auf XING) seit Januar , die die dort mittlerweile 92 Mitglieder einbindet.

(Ein gutes Zeichen ist auch, daß mittlerweile auch deutsche Unternehmen die Relevanz offensichtlich verstanden haben, was man daran sehen kann, dass sie Mitarbeiter dort teilnehmen liessen und das Event auch gesponsert haben, z. B. @Immobilienscout, @Wooga)

Bedeutend ist, daß wir letzte Woche an einem Platz 70 Gäste da hatten, die den ziemlich breiten Raum des Begriffs Data Science ziemlich komplett ausgeleuchtet haben. (Vorher hatte ich hier manchmal das Gefühl, in einem sehr exotischen Feld zu arbeiten)

Die Bandbreite der Themen ging von
- Frameworks und Tools (z.B. Hadoop, Twitter Storm),
- Handling von strukturierter und unstrukturierter Information (z.B. bessere Suche, Inhaltsanalyse und Zusammenfassungen von Text mit den interessanten Übergängen ins Semantic Web) über
- die Relevanz von Open Data (als Basis für öffentliche Informationsangebote und aufrüttelnde Unterstützung für Kampagnen () bis hin zu
- Visualisierungen.(z.B. auf Basis von Processing).

Der Vormittag war gefüllt von gesetzten Präsentationen ( Agenda unter http://de.amiando.com/datascienceday.html)  : gut war, daß Klaas die so kurz halten konnte, daß viel Raum für Diskussionen blieb. Am Nachmittag ging es drei parallel laufenden und kleineren Gruppen um
- sehr technische Fragen, (“was macht man mit Twitter Storm?”),
- visionärere Themen (“was kann man noch mit XYZ machen?”) und
- eine Gruppe zum Thema Texthandling und Open Data-Nutzung.

Aus diesem Tag habe ich folgende Beobachtungen mitgenommen
- die meiste Relevanz hat das Thema Data Science im Moment wohl im Advertising-Markt: da geht es häufig, um sehr schnelle Antworten, die nicht irgendwann zu beantworten sind, sondern genau dann wenn der Webseiten-Besucher auf meiner Seite ist. (Auch wenn es für meinen ‘Traum’ von für mich sehr relevanter, weil auf meine Interessen zugeschnittene, Werbung wohl noch zu früh ist.)
- Kurz danach kommt das Thema von unstrukturierter Information: hier fällt mir auf, daß z.B. im Vergleich zu den USA (wo ich im Februar auf der StrataConf war) das Thema hier wichtiger zu sein scheint.
- Im Moment nutzen hauptsächlich junge und eher kleinere Unternehmen Kompetenz zu dem Thema Big Data/Data Science: in etablierten & größeren Unternehmen, die zwar die Daten hätten (die sich ein Startup ziemlich mühsam sehr beschaffen oder erzeugen muß), ist das Thema wohl noch nicht angekommen.
- Aus der Perspektive eines Startupgründers ist klar, daß aus eigenen Aktionen gewonnene Daten und Analysen essentiell (oder zumindest wichtig) für die Geschäftsentwicklung sind. Ein gutes Beispiel dafür sind die Münchner @10stamps (kurz eine App digitale Stempelkarten), die vermutlich mittlerweile mehr Überblick über meinen Kaffeekonsum als ich selbst haben.
- Das Thema Tools für BigData ist auch noch ein guter Platz, auf dem sich neue Startups ausprobieren können: hier haben für mich Ansätze die Nase vorne, die einem Analysten/Geschäftsentwickler die Tools selbst in die Hand geben, neue Einsichten zu gewinnen. (anstatt für jede neue Fragestellung einen Entwickler suchen zu müssen). Der nächste Entwicklungsschritt sind Tools, die dem Nutzer nicht mehr Zahlenwüsten (z.B. in Powerpoint-Form) vorsetzen, sondern (mutmasslich) neue Einsichten (wie Veränderungen in Mustern & Trends) direkt in die Hand geben.

Zusammengefasst: ein Tag voll von neuem Information und Diskussionen: der nächste Data Science Day findet in 3-4 Monaten statt und wird sich schwerpunktmässig mit dem Thema Analytics in Online-Games befassen.

, ,

1 Kommentar

The R-Podcast Episode 6: Importing Data from External Sources

R-bloggers

viaThe R-Podcast Episode 6: Importing Data from External Sources. …is an excellent summary of how to get external data into R.

I recently needed to get JSON-formatted data in R (as people argue that you should use JSON for most of the data transaction needs in the web area, even for e.g. log file content like in http://blog.treasure-data.com/post/21881575472/log-everything-as-json-make-your-life-easier ), where I found http://stackoverflow.com/questions/2617600/importing-data-from-a-json-file-into-r handy.

 

 

 

Hinterlasse einen Kommentar

Machine learning for identification of cars

This is a handy getting started guide for computer vision using R from e.g. surveillance cameras, as all the with R-bloggers: it contains the needed source code.

Machine learning for identification of cars.

Hinterlasse einen Kommentar

How to work with Google n-gram data sets in R using MySQL

How to work with Google n-gram data sets in R using MySQL. via R-Bloggers: I like really much about this blog the focus interesting things along with code examples to try it out on your own.

N-Grams datasets can also be created from your own texts using NTLK functions (see http://nltk.googlecode.com/svn/trunk/doc/howto/collocations.html ): in analytical use cases N-grams give you a better basis to have a machine ‘understand’ the meaning of a text (compared to looking at the words individually.

—Update from 2012-04-10:

Stefan Keller ( http://twitter.com/sfkeller  ) hinted me to a blog entry about how to use n-grams in a PostgreSQL based setting to optimize search functionality.

Hinterlasse einen Kommentar

knitR: Report-Generierung mit R

knitR: Report-Generierung mit R

In Projekten zur Datenauswertung ist es häufig relevant, die Ergebnisse zeitnah ansprechend dokumentieren zu können. Ein gute Weg dabei, den Fortgang der Experimente und deren Ergebnisse in einem dynamisch generierten Dokument zu verfolgen: dabei kann knitR helfen.

knitR bügelt einige Schwächen der Sweave-Lösung (http://www.statistik.lmu.de/~leisch/Sweave/ ): insbesondere können gut aussehende Grafiken besser eingebaut werden.  

Weitere Infos zum Tool finden sich unter http://www.inside-r.org/howto/knitr-elegant-flexible-and-fast-dynamic-report-generation-r , eine Beispielausgabe ist unter http://cloud.github.com/downloads/yihui/knitr/Stat615-Report1-Yihui-Xie.pdf zu sehen.

, , ,

1 Kommentar

A response to “The race for speed at the data layer” re. SAP HANA

I just wanted to post some remarks to the very interesting blog from David Smith, as I was able to take a deeper look to the HANA appliance:

  • I agree with the statement that tool providers focus today on ‘high-performance analytics’:But the most important steps in the SAP-/ERP-world is still to be done: too much of analytics domain information is today deeply buried in application code, BI tools from the past were merely seen as pure inspection tools to this information.
  • SAP is about to place more application logic on the database layer, which in perspective enables more of David’s “more than just basic analytics”: the usage of (optimizable) prediction models could be possible then.
  • (I remember especially a very interesting use case for “more than just basic analytics” from an SAP discussion: appliances like HANA with specific application functionality enable a production company/facility to evaluate the ‘best’ scenario of how to fulfill orders in taking into account the bills of material and facts like availability of parts in case of limitations.)

SAP in fact announced formal R integration:

The complete R integration was not present in the previews of HANA I have seen: the key to the success of R in the SAP world is to which level constraints for R are in place: e.g. whether all the nice machine learning/hadoop enablers for R can be used. ( only a small-scale R-language support would not be sufficient for these use cases.

, ,

Hinterlasse einen Kommentar

Business idea: Put touristic activities in personal travel planning

I’ll start with this blog entry a session of business ideas, which come up near me… which I cannot pursue at the moment, but are maybe interesting for others.

Tagline: Offer spare time activities to people planning a trip fitting to their interests and their personal time planning.

Technology: Mashup of APIs used from travel planning tools (like tripit.com or dopplr.com ) and crawled/stored information about events, touristic activites etc.  based on user profiling e.g. from Facebook Likes.

Business models: mainly affiliate model (bringing guests to organizers of events/tour organizers)

Martin Hepp ( @mfhepp ), the author of the GoodRelations vocabulary for eBusiness, just posted a cookbook entry to show how business entities offering travel activities (outdoor, concerts etc.) can publish this information in a machine-readable way.

(I think) for this reason he defined the Ticket Ontology to describe events, activities and their business impact.

But for the time being (as long as not many travel organizer make their activities machine-readable) a crucial technical part is the collection of travel activites and making / keeping connections with these business entities offering activities.

Even this idea can make use of BigData analysis techniques: you can initially optimize and later predict, which kind of activity is attractive to which group of users. (a use case of customer segmentation).

 

, , ,

Hinterlasse einen Kommentar

Designing great data products – Summary blog from #StrataConf

O’Reilly Radar – Insight, analysis, and research about emerging technologies.

viaDesigning great data products.

…the session with this title was one of the best sessions at this years StrataConf.

, ,

Hinterlasse einen Kommentar

Follow

Bekomme jeden neuen Artikel in deinen Posteingang.

Schließe dich 691 Followern an